Google DeepMind'dan 70'ten fazla dilde aksan ve ton kontrolü sunan yeni ses modeli: Gemini 3.1 Flash TTS

12 saat önce 14

Google'ın yapay zeka birimi DeepMind yepyeni metinden sese dönüştürme modeli Gemini 3.1 Flash TTS'i kullanıma sundu. Şirketin belirttiğine göre; önceki robotik modellerin aksine, bu model, kullanıcıların metinleri tabanlı komutlar aracılığıyla konuşma robotunun yanıtlarının sesli stilini, sunumunu ve hızını yönlendirmelerine imkan tanıyor. 

Ayrıca Gemini 3.1 Flash TTS, modelin çıkardığı sesi denetlemek için, sesli tonunu ve vurgusunu uyarlayabilen gelişmiş seçenekler sunuyor. Seçenekler arasında hevesli, pozitif sürpriz ve malumatlendirici mekan alıyor. Buna ilave olarak, modeller kullanıcıların çeşitli esas dillerin farklı bölgesel aksanlarını seçmesini da sağlıyor. 

Bu özelliklerin yanı sıra kullanıcılar, sağlayan Gemini 3.1 Flash TTS’nin yönetmen düzeyindeki kontrollerini kullanarak modelin başlıkşma stilini ve hızını ayarlayabiliyor. Ayrıca, kullanıcıların seçebileceği format şablonları da mevcut. Bu formatlar arasında podcast sohbeti, sesli kitap anlatıcısı, diller öğretmeni, sesli asistan, sağlık rehberi, haberleri spikeri ve hayır temsilcisi stilleri mekan alıyor. Google'ın belirttiğine göre; kullanıcılar, ortamı tanımlayarak ve kesin konuşma talimatları vererek diledikleri sahneyi hazırlayabilecek. Aynı şekilde kullanıcıların bu ayarları başvuru programlama arayüzü kodu olarak dışa aktarabileceğini da belirtelim. 

Gemini 3.1 Flash TTS, daha doğal sesli başlıkşma deneyimleri sunmayı amaçlıyor. Şirketin ifadesine göre; model, Japonca, Hintçe ve Almanca karışmış bulunmak üzere 70'ten fazla dilde daha doğal sesli başlıkşma deneyimleri üretebiliyor. Bu arada modelin tüm çıktılarında SynthID filigranlarına malik olduğunu belirtelim. Böylece Gemini 3.1 Flash TTS tarafından üretilen içerikler basitca belirleme edilebiliyor. 

Model, Artificial Intelligence TTS önderlik tablosunda 1211 puanla yaygınlaşan sıralamada ikinciliğe yerleşerek diğer birçok popüler metinden sese dönüştürme modelini geride bıraktı. Geliştiriciler bu modele şu anda Gemini API ve Google AI Studio üzerinden erişebiliyor. İşletmeler, Vertex AI platformu üzerinden kullanıcılar iseGoogle Vids üzerinden Gemini 3.1 Flash TTS'i deneyebilir.

>> Tüm Makaleyi Oku <<

Platformumuz; Teknoloji, Spor, Sağlık, Eğlence, Uluslararası, Edebiyat, Bilim ve daha fazlası olmak üzere farklı konu başlıkları altında, kısa ve öz haber formatı ile kullanıcıların zamandan tasarruf etmesini hedefler. Karmaşadan uzak, sade ve anlaşılır içerik yapısı sayesinde ziyaretçiler aradıkları bilgiye hızlıca ulaşabilir. techforum.com.tr, bilgi kirliliğini önleyerek yalnızca güvenilir kaynaklardan elde edilen içerikleri yayınlamaya özen gösterir.