OpenAI'nin Yeni Sesli Yapay Zekası 70+ Dilde Konuşabiliyor

OpenAI'nin Yeni Ses Modelleri

OpenAI, sesle çalışan uygulama geliştirenler için önemli bir adım atarak Realtime API'sinde üç yeni ses modeli tanıttı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper. Bu modeller, sesli yapay zeka uygulamalarını sıradan geri dönüşlerin ötesine taşıyarak, gerçek bir konuşma ortamında anlayış ve eylem yeteneği kazandırıyor.

Modellerin Özellikleri

GPT-Realtime-2

GPT-Realtime-2, bu modellerin en dikkat çekici olanı. GPT-5 seviyesinde akıl yürütme yeteneği sunarak, daha karmaşık talepleri işleyebiliyor. Aynı anda birden fazla aracı çağırma yeteneğine sahip ve kullanıcı etkileşimlerini daha akıcı hale getiriyor. Örneğin, “takviminizi kontrol ediyorum” gibi ifadelerle ne yaptığını anlatabiliyor. Ayrıca, 128K token'lık geniş bir bağlam penceresine sahip olması, daha uzun ve tutarlı oturumlar sunuyor. Geliştiriciler, taleplerin karmaşıklığına göre akıl yürütme çabasını ayarlayabiliyor.

GPT-Realtime-Translate

GPT-Realtime-Translate, 70'ten fazla giriş dilinde ve 13 çıkış dilinde canlı konuşma çevirisi yapabiliyor. Bu model, Star Trek'teki Evrensel Çevirmen'e en yakın deneyimi sunuyor. Demo sırasında, yeni bir kişi konuşmaya katıldığında farklı bir dilde konuşsa bile, GPT-Realtime-Translate her iki konuşmacıyı gerçek zamanlı olarak İngilizceye çevirmekte hiç zorluk çekmedi.

GPT-Realtime-Whisper

GPT-Realtime-Whisper, konuşmacının konuşmasını tamamlamasını beklemeden konuşmayı metne çeviren bir akış transkripsiyon modelidir. Bu özellik, canlı altyazılar, toplantı notları ve beklemeye tahammül edilemeyen sesli iş akışları için oldukça faydalıdır.

Hangi Geliştiriciler Kullanabilir?

OpenAI, bu modelleri şu anda geliştiricilerin kullanımına sundu. Geliştiriciler, örneğin bir gerçek zamanlı çeviri uygulaması geliştirerek, kullanıcıların farklı dillerdeki kişilerle etkileşim kurmasını sağlayabilir. Zillow, sesli asistan geliştirerek ev aramak ve turlar düzenlemek için tek bir sesli isteği kullanmayı planlıyor. Priceline, uçuş ve otel sorgulama, iptal etme ve yeniden rezervasyon yapma işlevlerini entegre ediyor. Vimeo ise gerçek zamanlı transkripsiyon için bu modelleri kullanıyor.

Fiyatlandırma

Bu modellerin kullanımında fiyatlandırma şu şekildedir: Whisper için dakikası 0.017 dolar, Translate için dakikası 0.034 dolar ve GPT-Realtime-2 için 1 milyon ses girişi token'ı başına 32 dolar.

Sonuç olarak, OpenAI'nin bu yenilikçi sesli yapay zeka modelleri, geliştiricilere güçlü araçlar sunarak sesli etkileşimleri daha anlamlı hale getiriyor. Türkiye'deki geliştiriciler de bu olanaklardan yararlanarak, kullanıcı deneyimini önemli ölçüde geliştirebilir.