Turing testi ve değişen zekâ anlayışımız

Peki modern yapay zekâ sohbet robotları gerçekten Turing Testi'ni başarıyla geçtiler mi? Bir sohbet robotunun Turing Testi'ni geçtiğine dair en son iddialar, testin 'iki oyunculu versiyonunu' kullanan 2024 tarihli bir çalışmayı içeriyordu.

Melanie MİTCHELL

Çeviren: Ulus Ata

“Makineler düşünebilir mi?” sorusu Alan Turing tarafından 1950 yılında yayınlanan Hesaplama Makineleri ve Zekâ makalesinde dile getirilmişti. Turing, makalesinde düşünmek fiilinin zorluğuna dikkat çekerek şunu belirtti: “Soruda geçen bu düşünme kavramı üzerine oturup konuşmak gerçek anlamıyla manasız.” Turing, bu kavram üzerine hâli hazırda birçok felsefi tartışma yapıldığı için sorunun değiştirilmesi gerektiğini öne sürdü. Bu yeni soruyu sormadan önce de bir “taklit oyunu” tasarladı. Bu oyuna göre bir insan ve bir makine, bir sorgulayıcı ile konuşarak kendilerinin insan olduğunu kanıtlamaya çalışacaklardı.

Konuşma faslı ise sadece yazılı bir şekilde gerçekleştiriliyordu. Bu sayede bu üçü birbirini göremiyordu. Tüm bu konuşmalardan sonraysa sorgulayıcıdan kendisiyle konuşan iki katılımcıdan hangisinin gerçek bir insan olduğunu tahmin etmesi isteniyordu. Ve işte Turing’in yeni sorusu belirmişti: “Bu taklit oyununu gerçekten iyi oynayabilecek dijital bilgisayarlar düşünülebilir mi?”

Günümüzde bu oyunun ismi Turing Testi olarak bilinmektedir. Alan Turing, bu testi bilgisayarların doğaları gereği düşünemeyeceklerini ve prensip olarak bunun mümkün olmadığını öne süren yaygın düşünceyle mücadele etmek için ortaya çıkarmıştır. Turing’in vurguladığı nokta şuydu: Eğer bir bilgisayar görünüş ve diğer fiziksel özellikleri dışında bir insanla ayırt edilemez şekilde algılanıyorsa neden ona da düşünen bir varlık vasfını atfedemeyiz? Neden tüm bu düşünme kabiliyetini sadece insanlara ya da daha genel tabiriyle hücrelerden oluşan canlılara atfediyoruz? Bu konu üzerine bilgisayar bilimcisi Scott Aaronson, “bu görüşüyle birlikte Turing, tam manasıyla zekânın insanda temellendirilmesini eleştirmiştir,” açıklamasında bulundu.

Turing bu testini gerçek anlamıyla bir makinenin zekâsını ölçmek için değil, sadece felsefi bir düşünce deneyini öne sürmek için ortaya çıkarmıştır. Ancak Turing’in bu testi, makine zekasının istenilen seviyeye gelip gelmediğini ölçmek için kullanılmış ve yapay zekanın geçmesi gereken bir hedefi olarak belirlenerek toplumun zihninde ikonik bir anlam kazanmıştır. Ve şimdi, yaklaşık 75 yıl sonra, yapay zekâ ile ilgili haberler, Turing Testi'nin nihayet OpenAI'nin ChatGPT'si ve Anthropic'in Claude'u gibi sohbet robotları tarafından geçildiğine dair açıklamalarla dolu.

Geçen yıl OpenAI'nin CEO'su Sam Altman, “Teknolojik değişim karşısında insanların gösterdiği direnç ve uyum kabiliyeti için iyiye bir işaret. Turing Testi, bizim için su gibi akıp geçti ve herkes çoğunlukla hayatına kaldığı yerden devam ediyor.” şeklinde bir paylaşımda bulundu. Daha sonrasında bir gazetede yer alan “ChatGPT ünlü ‘Turing testini’ geçti. Bu demek oluyor ki artık yapay zekâ bir insan zekasıyla eşdeğer” şeklindeki haber başlıkları ve buna benzeyen çeşitli medya başlıkları da benzer iddialarda bulundu.

Peki modern yapay zekâ sohbet robotları gerçekten Turing Testi'ni başarıyla geçtiler mi? Yani artık onları Alan Turing’in dediği gibi düşünen birer varlık olarak nitelendirebilir miyiz? Turing Testi’nin geniş kültürel önemini göz önünde bulundurduğumuzda bazı şaşırtıcı gerçeklerle yüz yüze kalıyoruz. Yapay zekâ topluluklarında testi geçme durumu üzerinde neredeyse yok denilecek kadar az bir uzlaşı mevcut. Aksi şekilde insanları konuşma yetenekleriyle kandırabilecek kabiliyette olmanın bir sistemin düşünme becerisi ve zekâsı üzerine gerçekten herhangi bir şeyler açıklayıp açıklamadığı büyük bir şüphe konusu.

Turing'in taklit oyununa ilişkin açıklaması pratik ve uygulanabilir bir test önermediği için ayrıntılardan yoksundu. Test ne kadar sürmelidir? Ne tür sorulara izin verilmeli? İnsanların sorgulayıcı ya da katılımcı olarak katılması için hangi niteliklere sahip olması gerekir? Turing bu tür ince noktaları belirtmedi. Sadece belirli bir ön görüde bulundu: “İnanıyorum ki yaklaşık 50 yıl içinde bilgisayarları taklit oyununu o kadar iyi oynayacak şekilde programlamak mümkün olacak ki ortalama bir sorgulayıcının beş dakikalık bir sorgulamadan sonra doğru tahmini yapma şansı yüzde 70'ten fazla olmayacak.” Kısacası, beş dakikalık bir görüşmede ortalama bir sorgulayıcının %30 oranında şüphede olması gerekir.

Bazıları bu sıradan ön görüyü Turing Testi'ni geçmek için “tek ve gerçek” kriter olarak kabul etmiştir. 2014 yılında Londra'daki Royal Society, beş bilgisayar programının, 30 insan katılımcısının ve 30 sorgulayıcının katıldığı bir Turing Testi yarışmasına ev sahipliği yaptı. İnsan katılımcılar genç ve yaşlı, anadili İngilizce olan ve olmayan, bilgisayar uzmanı olan ve olmayan gibi çeşitli gruplardan oluşuyordu.

Her sorgulayıcı üyesi, biri insan diğeri makine olan bir çift yarışmacıyla paralel olarak beş dakikalık birkaç konuşma faslı gerçekleştirdi ve ardından sorgulayıcılardan bu iki kişiden hangisinin gerçek bir insan olduğunu tahmin etmesi istendi. Ukraynalı bir genç olduğunu iddia eden “Eugene Goostman” adlı bir sohbet robotu, sorgulayıcıların 10'unu yani %33,3’ünü kandırarak yarışmayı kazandı. Turing’in dediği gibi “Beş dakikanın ardından %30 şüpheye düşürme ve kandırma oranı” kriterini benimseyen organizatörler, “65 yıllık ikonik Turing Testi ilk kez bilgisayar programı Eugene Goostman tarafından geçildi. Ve bu dönüm noktası tarihe geçecek.” açıklamasında bulundu.

Eugene Goostman'ın konuşmalarının bir dökümünü inceleyen bir grup yapay zekâ uzmanı, bu gelişmemiş ve insana benzemeyen sohbet robotunun Turing'in aklındaki türden bir testi geçtiği hakkındaki yapılan iddiayı tam anlamıyla alaya aldılar. Sınırlı konuşma süresi ve sorgulayıcıların eşit derecede olmayan uzmanlığı, testi makine zekâsından ziyade insan saflığının bir testi haline getirdi. Sonuçlar, 1960'ların ELIZA sohbet robotunun adını taşıyan “ELIZA etkisi”nin bariz bir örneğiydi. Bu robot, son derece basit olmasına rağmen, pek çok insanı anlayışlı ve sempatik bir psikoterapist olduğuna inandırmayı başarmış ve insanoğlunun bizimle sohbet edebilecek gibi görünen herhangi bir varlığa zekâ atfetme eğilimiyle oynamıştı.

Bir başka Turing Testi yarışması olan Loebner Ödülleri, daha fazla konuşma süresine izin veriyor, daha uzman bir sorgulayıcı kadrosu içeriyor ve bir yapay zekâ sohbet robotunun sorgulayıcıların en az yarısını kandırmasını gerektiriyordu. Yaklaşık 30 yıl süren ve yıllık yapılan yarışmalarda hiçbir makine testin bu versiyonunu geçemedi.

Turing'in orijinal makalesinde testin nasıl yapılacağına dair ayrıntılar bulunmasa da taklit oyununun üç katılımcı gerektirdiği açıktı: bir bilgisayar, bir insan ve bir sorgulayıcı. Bununla birlikte, “Turing Testi” teriminin kamusal söylemdeki anlamı yıllar içinde gitgide anlamını yitirdi ve zayıf bir kavrama dönüştü. Bir insan ile bir bilgisayar arasında bilgisayarın yeterince insan gibi göründüğü herhangi bir etkileşim gibi yüzeysel bir tanımla kaldı.

Örneğin, Washington Post 2022'de “Google'ın yapay zekâsı ünlü bir testi geçti ve testin nasıl çözüldüğünü gösterdi” diye bir haber yaptığında atıfta bulunduğu şey bir taklit oyunu değildi. Tamamen Google mühendisi Blake Lemoine'in Google'ın LaMDA sohbet robotunun “zekâ sahibi” olmasına yönelik görüşüne atıfta bulunuyordu. Stanford Üniversitesi'nin 2024 yılındaki bir basın bülteninde de “bir yapay zekâ ürününün ilk kez titizce uygulanan bir Turing testinden geçtiği” ilan ediliyordu.

Ancak burada bahsi edilen Turing Testi, GPT-4'ün psikolojik anketler ve interaktif oyunlardaki davranışlarının insanlarınkiyle ne derece örtüştüğüne dair istatistiklerin karşılaştırılmasından ibaretti. Stanford ekibinin bu testi geçme formülü Turing tarafından yadırganabilirdi. Onlara göre “bir yapay zekanın verdiği yanıtlar rastgele seçilmiş insan yanıtlarından istatistiksel olarak ayırt edilemiyorsa bu yapay zekâ için Turing testini geçmiştir diyebiliriz,” şeklindeydi.

Bir sohbet robotunun Turing Testi'ni geçtiğine dair en son iddialar, testin “iki oyunculu versiyonunu” kullanan 2024 tarihli bir çalışmayı içeriyordu. Turing'in bir sorgulayıcının hem bir bilgisayarı hem de bir insan katılımcısını sorguladığı “üç oyunculu” taklit oyununun aksine bu çalışmada her sorgulayıcı yalnızca bir bilgisayarla ya da bir insanla etkileşime giriyordu. Araştırmacılar, her biri ya bir sorgulayıcı ya da bir insan katılımcı olmak üzere atanan 500 insan grubunu çalışmaya dahil etti. Her bir sorgulayıcı oyunun beş dakikalık tek bir turunu ya bir insan ya GPT-4 ya da ELIZA sohbet robotunun bir versiyonu ile konuşarak geçiriyordu.

Beş dakika boyunca bir web arayüzü üzerinden konuştuktan sonra sorgulayıcı konuşma partnerinin insan mı yoksa makine mi olduğunu tahmin ediyordu. İnsan katılımcılar konuşma aşamalarının ardından %67 oranıyla gerçek bir insan olarak değerlendirildi; GPT-4 turlarının %54'ünde ve son olarak ELIZA turlarının sadece %22'sinde insan olarak değerlendirildi. Araştırmacılar “testi geçmeyi” şu şekilde tanımlamışlardı: Sorgulayıcıların %50’sinden fazlası kandırılabilmiş ise test geçilmiş sayılacaktır. Sonuç olarak bu açıklamaya göre insanların %67’si gerçek bir insan olarak nitelendirilmiş olsa da GPT-4 %50’i geçerek testi geçmiş sayılır.

İnsan sorgulayıcıların büyük bir çoğunluğunun beş dakikalık bir görüşmenin ardından GPT-4 tarafından kandırılmış olması kesinlikle endişe verici bir durumu ortaya çıkarır. Üretken yapay zekâ sistemlerinin dezenformasyon yaymak ya da dolandırıcılık yapmak amacıyla insan taklidi yapmak üzere kullanılması, toplumun mücadele etmesi gereken gerçek bir tehlikedir. Peki günümüzün sohbet robotlarının Turing Testi'ni geçtiği gerçekten doğru mu?

Bu sorunun cevabı elbette testin hangi versiyonundan bahsettiğinize göre değişir. Uzman sorgulayıcılar ve daha uzun konuşma süresi olan üç oyunculu bir taklit oyunu hala hiçbir makine tarafından geçilemedi (ancak 2029'da bunun gerçekçi ve katı bir versiyonunu yapma planları konuşuluyor).

Testin bu kadar uzun süre geçilememesinin nedeni, makinenin zekasını doğrudan test etmek yerine insanları yanıltmaya odaklanılmasıdır. Pek çok yapay zekâ araştırmacısı, Turing Testi'ni uzun zamandır dikkat dağıtıcı bir unsur ve “yapay zekânın geçmesi için değil, insanların başarısız olması için tasarlanmış” bir test olarak görmektedir. Ancak, testin popüler kültürdeki önemi hala devam etmektedir. Sohbet etmek ve iletişim kurmak, her birimizin diğer insanları değerlendirmesinde büyük bir rol oynar. Bu nedenle, insanların akıcı bir şekilde sohbet edebilen bir varlığın insan benzeri zekaya ve kişisel inançlar, arzular ve benlik duygusu gibi diğer zihinsel özelliklere sahip olduğunu düşünmesi, doğal bir durum olarak kabul edilmektedir.

Eğer yapay zekâ tarihinden bir ders çıkardıysak, o da sezgilerimizin bu tür varsayımlar konusunda genellikle yanlış olduğudur. Yıllar önce, birçok önde gelen yapay zekâ uzmanı, satrançta insanları yenebilecek bir makinenin yaratılmasının insan zekâsına eşdeğer bir şey gerektireceğini düşünüyordu. Yapay zekâ öncüleri Allen Newell ve Herbert Simon, 1958 yılında “Eğer biri başarılı bir satranç makinesi tasarlayabilirse, insan entelektüel çabasının özüne nüfuz etmiş olacaktır” şeklinde görüşlerini dile getirmişlerdi.

Bilişsel bilimci Douglas Hofstadter ise 1979 yılında, gelecekte “satrançta herkesi yenebilecek programlar olabilir ancak bunlar sadece genel zekâ programları olacaktır” öngörüsünde bulunmuştu. Ancak, takip eden yirmi yıl içinde IBM'in DeepBlue’su, dünya satranç şampiyonu Garry Kasparov’u, "genel zekâ" olarak adlandırılabilecek bir şeyden çok uzak bir yaklaşım kullanarak yenmiştir. Benzer şekilde, yapay zekâ alanındaki gelişmeler, bir zamanlar genel zekâ gerektirdiği düşünülen konuşma tanıma, doğal dil çevirisi ve hatta araba kullanma gibi yetilerin, insan anlayışına hiç benzemeyen makineler tarafından yerine getirilebileceğini göstermiştir.

Muhtemelen Turing Testi, değişen zekâ anlayışlarımızın bir başka kurbanı olacaktır. Turing, 1950'de insan gibi konuşma yeteneğinin “düşünme” ve bununla bağlantılı tüm diğer unsurların kesin bir kanıtı olması gerektiğini düşünmüştü. Bu sezgi günümüzde hala etkisini sürdürmektedir. Ancak, ELIZA ve Eugene Goostman'dan öğrendiklerimiz ve ChatGPT gibi modellerden öğrenmeye devam ettiklerimiz, satranç oynamada olduğu gibi, doğal dilde akıcı konuşma yeteneğinin genel zekanın kesin bir kanıtı olmadığını göstermektedir.

Gerçekten de dil akıcılığının bilişin diğer yönlerinden beklenmedik şekilde ayrıldığına dair sinirbilimden yeni bulgular ortaya çıkmaktadır. MIT'den sinirbilimci Ev Fedorenko ve ekibi, bir dizi özenle tasarlanmış ve dikkat çekici deneyle, “biçimsel dil yetkinliği” olarak adlandırdıkları dil üretim becerilerinin, sağduyu, akıl yürütme ve “düşünme” dediğimiz diğer bilişsel işlevlerle ilişkili beyin ağlarından büyük ölçüde bağımsız olduğunu göstermiştir. Bu araştırmacılar, dilde akıcılığın genel zekâ için yeterli bir koşul olduğuna dair sezgisel varsayımımızın aslında bir “yanılgı” olduğunu öne sürüyorlar.

Turing, 1950 tarihli makalesinde şöyle yazmıştı: “İnanıyorum ki yüzyılın sonunda kelimelerin kullanımı ve genel eğitim görüşü öyle değişmiş olacak ki, insanlar çelişkiye düşmeden 'düşünen makineler'den bahsedebilecek”. Ancak, henüz bu noktaya ulaşmış değiliz. Turing'in öngörüsünün sadece birkaç on yıl mı saptığı, yoksa asıl değişimin “düşünme” anlayışımızda mı olacağı ve zekanın Turing'in ve bizim düşündüğümüzden daha karmaşık ve incelikli olup olmadığını fark edip edemeyeceğimiz henüz belli değil.

Kaynak: The Turing Test and our shifting conceptions of intelligence

bilim yapay zeka Çeviri Yazılım turing testi