Yapay zeka tarafından oluşturulan metinler genellikle makine tarafından üretilmiş gibi görünen belirli bir havaya sahiptir, ancak teknoloji geliştikçe bu özel durumları ayırt etmek zorlaştı. Üretken yapay zeka sesinin de benzer bir evrimini görüyor olabiliriz. Google'ın varduyurulduGemini 3.1 Flash Live adlı yeni bir yapay zeka ses modeli; adından da anlaşılacağı gibi, gerçek zamanlı konuşma için tasarlandı. Bugünden itibaren bazı Google ürünlerinde kullanıma sunulacak ve geliştiriciler de bu modelle kendi konuşkan robotlarını oluşturmaya başlayabilecek.
Google, bu yapay zekanın çok daha hızlı olduğunu ve daha doğal bir ritimle konuşma ürettiğini ve yapay zeka tarafından oluşturulan konuşmayla uzun süredir devam eden bir sorunu çözmeyi hedeflediğini söylüyor. Bir chatbot gibi, üretken ses sistemlerinde de giriş ve çıkış arasında her zaman bir gecikme vardır. Daha uzun gecikmeler ve doğal olmayan tonlamalar, konuşmaların yavaşlamasına ve takip edilmesinin zorlaşmasına neden olur. Araştırmacılar genellikle 300 milisaniyelik gecikmenin optimum konuşma algısı sınırı olduğuna inanıyor ancak Google, Gemini 3.1 Flash Live için herhangi bir gecikme belirtmedi. Sadece belirsiz bir şekilde ihtiyacınız olan hıza sahip.
Ama kıyaslama rakamları? Google'da bunlardan çok sayıda var ve bunların 3.1 Flash Live'ın sesten sese yapay zeka konuşmaları yapmanın daha güvenilir bir yolu olacağını gösterdiğini iddia ediyor. Örneğin, ComplexFuncBench Audio'daki büyük kazanç, yeni modelin karmaşık, çok adımlı görevlerde daha iyi olduğunu gösteriyor. Gemini 3.1 Flash Live, 1.000 sesli sorudan oluşan bir dizi mantık yürütmeyi değerlendiren Big Bench Audio testinde de listelerin başında yer alıyor.




