
Jeff Dean, Google'ın Yapay Zeka Arama özelliğinin hâlâ klasik Arama gibi çalıştığını söylüyor: Web'i ilgili sayfalara göre daraltın, bunları sıralayın ve ardından bir modelin yanıtı oluşturmasına izin verin.
Latent Space: The AI Engineer Podcast'teki bir röportajda Google'ın baş yapay zeka bilimcisi, Google'ın yapay zeka sistemlerinin nasıl çalıştığını ve geleneksel arama altyapısına ne kadar güvendiklerini açıkladı.
Mimari: önce filtre, sonra sebep. Görünürlük hala sıralama eşiklerinin temizlenmesine bağlıdır. İçerik, geniş aday havuzuna girmeli ve yapay zeka tarafından oluşturulan bir yanıtta kullanılmadan önce daha derin yeniden sıralamalarda hayatta kalmalıdır. Basitçe söylemek gerekirse yapay zeka sıralamanın yerini almaz. Üstüne oturuyor.
Dean, Yüksek Lisans destekli bir sistemin tüm web'i aynı anda okumadığını söyledi. Google'ın tam dizini ile başlar, ardından on binlerce belgeden oluşan büyük bir aday havuzunu belirlemek için hafif yöntemler kullanır. Dekan şunları söyledi:
- "Bunların çok hafif yöntemlerle ilgili bir alt kümesini belirliyorsunuz. Yaklaşık 30.000 belgeye falan düşüyorsunuz. Ve sonra bunu, giderek daha karmaşık algoritmalar ve çeşitli türden giderek daha karmaşık türde sinyaller uygulayacak şekilde yavaş yavaş hassaslaştırıyorsunuz ve sonuçta gösterdiğiniz şeye, yani son 10 sonuca veya 10 sonuç artı diğer tür bilgilere iniyorsunuz."
Daha güçlü sıralama sistemleri bu seti daha da daraltır. En yetenekli model ancak çok sayıda filtreleme turundan sonra çok daha küçük bir belge grubunu analiz edebilir ve bir yanıt oluşturabilir. Dekan şunları söyledi:
- "Ve bence Yüksek Lisans tabanlı bir sistem o kadar da farklı olmayacak, değil mi? Trilyonlarca jetonla ilgileneceksiniz, ancak belki 30 milyon ilginç jetonun bulunduğu 30.000'e yakın belgenin hangileri olduğunu belirlemek isteyeceksiniz. Ve sonra bundan, kullanıcının benden yapmamı istediği görevleri yerine getirmek için gerçekten dikkat etmem gereken 117 belgenin hangilerine geçeceksiniz?"
Dean bunu trilyonlarca tokenla ilgilenmenin "illüzyonu" olarak adlandırdı. Uygulamada bu aşamalı bir işlem hattıdır: geri al, yeniden sırala, sentezle. Dekan şunları söyledi:
- "Google arama size... yanılsamayı veriyor ama internette arama yapıyorsunuz ama alakalı şeylerin çok küçük bir alt kümesini buluyorsunuz."
Eşleştirme: anahtar kelimelerden anlama. Burada yeni bir şey yok, ancak bir konuyu net ve kapsamlı bir şekilde ele almanın, tam eşleşen ifadeleri tekrarlamaktan daha önemli olduğunu hatırlatan başka bir şey duyduk.
Dean, Yüksek Lisans tabanlı temsillerin Google'ın sorguları içerikle eşleştirme biçimini nasıl değiştirdiğini açıkladı.
Eski sistemler tam kelime örtüşmesine daha çok güveniyordu. Yüksek Lisans temsilleriyle Google, belirli kelimelerin sayfada görünmesi gerektiği fikrinin ötesine geçebilir ve bunun yerine bir sayfanın, hatta bir paragrafın, bir sorguyla konu açısından alakalı olup olmadığını değerlendirebilir. Dekan şunları söyledi:
- "Metin ve kelimelerin yüksek lisans tabanlı temsiline gitmek, belirli kelimelerin sayfada olması gerektiği şeklindeki açık ve katı fikirden kurtulmanızı sağlar. Ancak bu sayfanın konusu veya bu sayfa paragrafı kavramına gerçekten ulaşmak, bu sorguyla oldukça alakalı."
Bu değişim, Arama'nın ifadeler farklı olsa bile sorguları yanıtlara bağlamasına olanak tanır. Alaka düzeyi, yalnızca anahtar kelimenin varlığına değil, giderek daha fazla amaç ve konuya odaklanıyor.
Sorgu genişletme yapay zekayla başlamadı. Dean, Google'ın sorgu genişletmeyi ucuz ve hızlı hale getirmek için dizinini yeterli sayıda makinede belleğe taşıdığı 2001 yılına dikkat çekti. Dekan şunları söyledi:
- "2001'de gerçekten olan şeylerden biri, sistemi birden çok boyutta ölçeklendirmek için çalışmamızdı. Birincisi, dizinimizi büyütmek istedik, böylece daha büyük bir dizinden bilgi alabiliriz, bu da genel olarak kalitenize her zaman yardımcı olur. Çünkü eğer dizininizde sayfa yoksa, iyi bir performans gösteremezsiniz.
- "Ayrıca kapasitemizi de ölçeklendirmemiz gerekiyordu çünkü trafiğimiz oldukça yoğun bir şekilde büyüyordu. Dolayısıyla, dizin büyüdükçe daha fazla parçaya sahip olduğunuz, yaklaşık 30 parçaya sahip olduğunuz bir parçalı sistemimiz vardı. Daha sonra, dizin boyutunu iki katına çıkarmak istiyorsanız, 60 parça yaparsınız, böylece herhangi bir kullanıcı sorgusuna yanıt vereceğiniz gecikmeyi sınırlayabilirsiniz. Ve ardından trafik arttıkça, bunların her birinin giderek daha fazla kopyasını eklersiniz.
- Ve sonunda 60 parça ve her parçanın 20 kopyasının olduğu bir veri merkezinde artık diskli 1.200 makineye sahip olduğumuzu fark eden matematiği yaptık. Ve biz de matematik yaptık ve şöyle düşündük: Hey, bu endeksin bir kopyası aslında 1.200 makinenin hafızasına sığar. Böylece 2001'de, endeksimizin tamamını belleğe koyduk ve kalite açısından bunun sağladığı şey inanılmazdı.
Bundan önce, disk erişimi gerektirdiğinden terim eklemek pahalıydı. Dizin hafızaya yerleştikten sonra Google, kısa bir sorguyu düzinelerce ilgili terime genişletebilir ve anlamı daha iyi yakalamak için eş anlamlılar ve varyasyonlar ekleyebilir. Dekan şunları söyledi:
- "Önceden bir sorgu için kaç farklı terime baktığınız konusunda gerçekten dikkatli olmanız gerekiyordu çünkü bunların her biri bir disk araması içeriyordu.
- "Dizinin tamamını hafızaya aldıktan sonra, kullanıcının orijinal üç veya dört kelimelik sorgusundan sorguya 50 terim eklemeniz tamamen sorun değil. Çünkü artık restoran, restoranlar, kafe ve bistro gibi eşanlamlıları ve tüm bunları ekleyebilirsiniz.
- "Ve aniden... kullanıcının yazdığı anlamsal formun aksine kelimenin anlamını bulmaya başlayabilirsiniz. Ve bu... 2001 yılıydı, büyük ölçüde Yüksek Lisans öncesiydi, ama aslında bu, anlamı elde etmek için kullanıcının yazdığı şeyin katı tanımını yumuşatmakla ilgiliydi."
Bu değişiklik, Arama'yı yüksek lisans eğitimlerinden yıllar önce amaç ve anlamsal eşleştirmeye doğru itti. Yapay Zeka Modu (ve diğer Yapay Zeka deneyimleri), Google'ın daha iyi sistemler ve daha fazla bilgi işlem sayesinde anlam temelli erişime doğru devam eden geçişini sürdürüyor.
Temel bir avantaj olarak tazelik. Dean, Arama'nın en büyük dönüşümlerinden birinin güncelleme hızı olduğunu söyledi. İlk sistemler sayfaları ayda bir kadar nadiren yeniliyorlardı. Zamanla Google, sayfaları bir dakikadan kısa sürede güncelleyebilecek bir altyapı oluşturdu. Dekan şunları söyledi:
- "Google'ın ilk zamanlarında endeksi oldukça kapsamlı bir şekilde büyütüyorduk. Dizinin güncelleme hızını artırıyorduk. Yani aslında güncelleme hızı en çok değişen parametreydi."
Bu, haber sorgularına ilişkin sonuçları iyileştirdi ve ana arama deneyimini etkiledi. Kullanıcılar güncel bilgi bekler ve sistem bu bilgiyi sunmak üzere tasarlanmıştır. Dekan şunları söyledi:
- "Geçen ayın haber dizinine sahipseniz aslında o kadar da kullanışlı değil."
Google, bir sayfayı ne sıklıkta tarayacağına karar vermek için sistemleri kullanır ve sayfanın değişme olasılığını en son sürümün değeriyle dengeler. Nadiren değişen sayfalar bile yeterince önemliyse sık sık taranabilir. Dekan şunları söyledi:
- "Perde arkasında güncelleme oranlarına ve sayfaların önemine karar vermeye çalışan koca bir sistem var. Dolayısıyla, güncelleme oranı düşük görünse bile önemli sayfaları yine de oldukça sık yeniden taramak isteyebilirsiniz çünkü bunların değişme olasılığı düşük olabilir, ancak güncellemenin değeri yüksektir."
Neden önemsiyoruz?. Yapay zeka yanıtları sıralamayı, tarama önceliklendirmesini veya alaka sinyallerini atlamaz. Onlara bağlıdırlar. Hangi sayfaların alınacağını ve daraltılacağını uygunluk, kalite ve güncellik belirlemeye devam eder. Yüksek Lisans'lar içeriğin sentezlenme ve sunulma şeklini değiştiriyor; ancak temeldeki aday grubuna girme rekabeti bir arama sorunu olmaya devam ediyor.
Röportaj. Yapay Zeka Pareto Sınırına Sahip Olmak — Jeff Dean



