Google, Gemini mimarisi üzerine geliştirilen birinci hepsi multimodal embedding modeli olan Gemini Embedding 2’yi tanıttı.
Yeni model, geliştiricilerin kullanımına Gemini API ve Vertex AI üzerinden önyüz izleme olarak sunulmuş durumda.
Metin, görüntü, video ve sesli tekbaşına tek sistemle çözümleme edilebilecek
Gemini Embedding 2’nin en kaydadeğer özelliği, değişik bilgi çeşitlerini tekbaşına tek müşterek mana uzayında işleyebilmesi. Model; metin, görüntü, video, sesli ve belgeleri benzer sistemleri içindeki çözümleme ederek 100’den fazla dilde mana ilişkilerini ortaya çıkarabiliyor.
Bu sayede geliştiriciler için karışık yapay zekâ sistemleri kurdu çeşitlilik daha basit hâle geliyor. Özellikle semantik arama, duygu analizi, bilgi kümelendirme ve RAG (Retrieval-Augmented Generation) gibi alanlarda daha kuvvetlü neticelar elde edilmesi hedefleniyor.
Çoklu bilgi girişi benzer anda kullanılabiliyor
Yeni modeller değişik bilgi çeşitlerini tekbaşına tek prosedürekle kısıtlı değil. Örneğin tek imge ve metinleri benzer anda modele gönderilebiliyor. Böylece model, gerçeği dünyadaki karışık bilgi ilişkilerini daha doğrusu biçimde anlayabiliyor.
Gemini Embedding 2’nin teknikleri kapasitesinden çok öne çıkan detaylar şöyle:
Metin: 8192 token’a kadar çerçeve desteği
Görüntü: Aynı istekte 6 adet PNG ya da JPEG
Video: 120 saniyeye kadar MP4 ya da MOV
Ses: Transkripsiyon lüzumtirmeden direkt analiz
Belge: 6 sayfaya kadar PDF
Google ürünlerinde da kullanılacak
Embedding teknolojileri Google’ın pek çeşitlilik ürününün temelini oluşturuyor.
Şirket, erkenden giriş ortaklarının Gemini Embedding 2 ile muazzam bilgi analizi, gelişmiş tarama sistemleri ve çeşitlilik bilgi tabanlı yapay zekâ uygulamaları geliştirmeye başladığını belirtiyor.
Peki siz Gemini Embedding 2 ilgili ne düşünüyorsunuz? Düşüncelerinizi aşağıdaki yorumlar kısmından bizimle aktarabilirsiniz.