Yapay Zeka Modelleri İnsanların Nasıl Öğrendiğini Bize Öğretebilir mi?

Álvaro Quintana

Dil öğrenmek zor değildir; dünyadaki her çocuk bunu birkaç yıl içinde ustalıkla öğrenir. Ancak, bu sürecin nasıl çalıştığını anlamak başka bir meseledir. Dilbilimciler bunu açıklamak için karmaşık teoriler oluşturmuşlardır, ancak makine öğrenimindeki son gelişmeler yeni bir boyut eklemiştir. Bilgisayar bilimciler, modern chatbot'ları güçlendiren dil modellerini inşa etmeye başladıklarında, dilbilim araştırmalarının on yıllarını bir kenara bıraktılar ve risklerinin karşılığını aldılar gibi görünüyor. Fakat bu modeller gerçekten öğreniyor mu? Tartışma sadece tanımlamalarla ilgili değil. Eğer dil modelleri gerçekten dil öğreniyorsa, araştırmacıların mekanizmalarını açıklamak için yeni teorilere ihtiyaç duyabilirler. Tersine, modeller yüzeysel çalışıyorsa, makine öğrenimi dilbilim biliminde herhangi bir yeni içgörü sunmayabilir. Önde gelen dilbilimcilerden biri olan Noam Chomsky, bu görüşü kamuya açık bir şekilde savunmuştur.

Önemli noktaları göster

İnsanlar için dil öğrenimi doğaldır ancak bilimsel olarak karmaşıktır.
Chomsky, dil işleme için doğuştan gelen bir mekanizma önerdi.
Modern dil modelleri sinir ağlarına ve büyük metin verilerine dayanır.
Dil modelleri, miktar ve yöntem açısından insanlardan farklıdır.
Son bir çalışma, imkansız dillerin öğrenimini test etmek için dönüştürücü modeller kullanıyor.
Çalışma sonuçları, dil modeli tercihlerinin insan tercihlerine benzer olduğunu gösteriyor.
İnsan beyinleri ile dil modelleri arasındaki farkları tam olarak anlamak zorlayıcı olmaya devam ediyor.

Dil Engelleri

Yirminci yüzyılın ilk yarısında, dilbilimcilerin çoğu dünya dillerinin kataloğunu çıkarmaya odaklanmıştı. Ardından, 1950'lerin sonlarında Chomsky alternatif bir yaklaşımın öncülüğünü yaptı. Teorik bilgisayar bilimi ve matematiksel mantıktan yararlanarak, tüm dillerin altında yatan evrensel yapıyı ortaya çıkarmaya çalıştı. Chomsky, insanların dil işleme için özel olarak tasarlanmış doğuştan gelen bir zihinsel mekanizmaya sahip olmaları gerektiğini savundu. Bu, dilbilimdeki birçok büyük bulmacayı, özellikle de bazı basit dil bilgisi kurallarının herhangi bir bilinen dilde hiç ortaya çıkmadığı gözlemini açıklar. Chomsky, dil öğrenmenin diğer öğrenme türleriyle aynı şekilde çalıştığını varsayarsa, bazı dil bilgisi kurallarının diğerlerine tercih edilmeyeceğini sonucuna vardı. Ancak, dil gerçekten benzersizse, bu beklenti doğru olur: özel bir dil işleme sistemi, insanları belirli dillere doğal olarak eğilimlendirecek ve diğer dillerin öğrenilemez hale gelmesini sağlayacaktır. UCLA'da bir dilbilimci olan Tim Hunter, "İnsanların bazı şeyleri öğrenmeye inşa edildiğini söyleyip de diğerlerini öğrenmemeye inşa edilmediklerini söylemek mantıklı değildir," diyor. Chomsky'nin yaklaşımı, teorik dilbilim araştırmalarında hakim eğilim haline geldi ve makine öğrenimi devrimine kadar yarım yüzyıl boyunca baskın kaldı.

Makinelerin Yükselişi

Dil modelleri, verileri bileşen nöronları arasındaki bağlantılara göre işleyen sinir ağları olarak bilinen matematiksel yapılar üzerine kuruludur. Her bağlantının gücü, ağırlık olarak bilinen bir sayı ile ölçülür. Bir dil modeli inşa etmek için, araştırmacılar önce belirli bir tür sinir ağı seçer, ardından bağlantılarına rastgele ağırlıklar atar. Başlangıçta, dil modeli anlamsız bir şey üretir. Araştırmacılar ardından modeli, cümlelerin nasıl devam edeceğini kelime kelime tahmin etmeye eğitir. Bunu yapmak için modele büyük miktarda metin beslerler. Model her metinle karşılaştığında, bir sonraki kelimeye yönelik bir tahmin üretir, bu tahmin gerçek metinle karşılaştırılır ve tahminlerini iyileştirmek için nöronlar arasındaki bağlantıları ayarlar. Yeterince küçük ayarlamadan sonra, model son derece akıcı cümleler üretmeyi öğrenir.

Dil modelleri ve insanlar belirgin şekilde farklıdır. Örneğin, modern modellerin trilyonlarca kelimeyle eğitilmesi gerekir, bu ise bir insanın hayatı boyunca karşılaşacağı kelimelerden çok daha fazladır. Buna rağmen, dil modelleri dil öğrenimi için yeni bir test olgusunu sağlayabilir, çocuklar üzerindeki etik sınırlamaları aşan bir test olgusunu. Dil modellerinin çalışması dil öğrenimine benzer bir şeyin Chomsky'nin önerdiği özel mekanizmalar olmadan meydana gelebileceğini öne sürüyor. Sinir ağı tabanlı sistemler, dil işleme ile ilgisiz birçok görevde başarılı olmuşlardır ve eğitim prosedürleri, dilbilimcilerin cümlelerin karmaşık yapısı hakkında öğrendiklerini tamamen göz ardı eder.

Konu Derinleşiyor

Julie Kaleni tamamen ikna olmamıştı. Chomsky'nin dil modellerine yönelik eleştirileri, öğrenciler arasında gayriresmi bir şekilde sık sık tartışılıyordu. Ancak, literatürü gözden geçirirken, Mitchell ve Bauer'in üç yıl önceki makalesinden bu yana imkansız diller üzerine yayınlanmış deneysel bir araştırma olmadığını fark etti. Makale ilgisini çekmişti, ancak Chomsky'nin kapsamlı iddiasının daha fazla kanıt gerektirdiğine inanıyordu. Bu tüm dil modellerine uygulanması gereken bir iddia olmuştu, fakat Mitchell ve Bauer yalnızca bugün daha az kullanılan eski tür bir sinir ağını test etmişti. Kaleni için görev açıktı: Chomsky'nin iddiasını modern modellerle test etmek. Kaleni, danışmanı Christopher Potts ile bir araya geldi ve bugünün öne çıkan dil modellerinin belkemiğini oluşturan dönüştürücü ağlarda imkansız dillerin edinimi üzerine kapsamlı bir çalışma önerdi. Başlangıçta, Potts ilk lisansüstü projesi için fazla hırslı olduğunu düşünse de, Kaleni onu peşinden gitmeye değer olduğuna ikna etti. Kaleni ve Potts, model eğitimini Kaleni'nin üstleneceği konusunda anlaştılar. Ancak, önce test edilecek dönüştürücü modelleri ve çalışılacak dilleri belirlemeleri gerekiyordu. Bu yüzden Papadimitriou ve iki başka hesaplamalı dilbilimciyi, Richard Futrell (Kaliforniya Üniversitesi, Irvine) ve Kyle Mahowald'ı (Texas Üniversitesi, Austin) ekibe dahil ettiler. Ekip, 2019'da ChatGPT'yi besleyen dil modelinin bir önceki versiyonu olan GPT-2'den esinlenerek nispeten küçük dönüştürücü ağları kullanmaya karar verdi. Daha küçük ağlar için daha az eğitim verisi gerekir ve onları insanlara daha yakın hale getirir; aynı zamanda insanlar gibi imkansız olanlar yerine olası dillere eğilimli olabilirler. Ekip, çoğunluğu normal bir İngilizce veri setinden her cümlede kelimeleri rastgele karıştırmaya yönelik çeşitli prosedürlere dayanan düzine kadar imkansız dil oluşturdu. Bir aşırı durumda, karıştırma rastgeledi, ancak diğer tüm durumlarda basit bir modeli izledi – örneğin, her cümleyi ardışık üç kelime kümesine bölmek ve her kümedeki ikinci ve üçüncü kelimeleri değiştirmek gibi.

Görev Başarıldı mı?

Sonuçlar gösteriyor ki dil modelleri, insanlar gibi, belirli dil kalıplarını diğerlerine tercih ediyor. Tercihleri insanlara oldukça benziyor ama tam olarak aynı değil ve Chomsky'nin teorilerinin bazı yönleri, insanların nasıl öğrendiğinde hala rol oynayabilir. İnsan beyinlerinin ve onların sinir ağlarının karmaşıklığı, özellikle dil öğrenimi gibi kesin bir görevde farklılıklarını anlamayı neredeyse imkansız kılabiliyor. Makalenin "Görev: İmkansız Dil Modelleri" başlığı, birden fazla sebeple uygundur.