Yapay zeka ile kişiselleştirilmiş videolar oluşturan girişim Tavus'u sizlere daha önce tanıtmıştık. Bu hafta Tavus, gerçek zamanlı tek insanoğlu render modeli olan Phoenix-4'ü tanıttı. Model, bütünsel yüz ifadeleri olan, başlıkşma sırasında duygular arasında geçiş yapabilen ve bağlamsal tepkilerle etkin olarak dinleyebilen yapay zeka avatarları oluşturabiliyor.
Binlerce saatlik gerçek insanoğlu başlıkşmalarıyla eğitilmiş olan Phoenix-4, her arasında biri karede yüz ve başın her arasında biri pikselini sıfırdan oluşturuyor. Model, 10'dan fazla hissi durumu ve bunlar arasındaki geçişleri gerçek zamanlı olarak işliyor. Böylece başlıkşmalar sırasında uygunsuz tepkiler ya da ifadelerden kaçınıyor.
Şirket, Phoenix-4'ü, hissi durumları, etkin dinleme davranışını ve sürekli yüz hareketlerini tekbaşına tek birleşik sistemleri olarak üreten ve denetim eden birinci gerçek zamanlı modeller olarak tanımlıyor. Canlı video görüşmelerinin akıcılığına odaklanan Model, 1080p'de 40 fps hızında çalışıyor.
Phoenix-4, binlerce saatlik insanoğlu başlıkşma verisiyle eğitilmiş hibrit Gauss difüzyon mimarisi üzerine inşa edildi. Bu mimaride, yerleşik tek davranış modeli yüz ve başın tüm parçaları arasındaki ilişkiyi öğrenerek bunları dolaylı olarak denetim ediyor.
Phoenix-4'ün öne çıkan yetenekleri
Phoenix-4, mutluluk, üzüntü, öfke, şaşkınlık, tiksinti, korku, heyecan, meraklı ve hoşnutluk karışmış bulunmak üzere 10'dan fazla duygu durumu arasında kesintisiz geçişlerle gerçek zamanlı olarak hissi durumlar oluşturuyor ve bunları denetim ediyor. Duygusal iletimi doğrudan LLM ve komutlarınızla yönlendirebileceğinizi belirtelim. Bunun seçenek modelin bağlamsal olarak öz başına yanıt vermesine müyalın etmeniz da mümkün. Şirket, modelin algılama için Raven-1 ile eşleştirildiğinde, duygu tepkilerinin kullanıcının tonu, ifadesi ve niyetinden tesirlenerek daha da yüksek doğruluk sağladığını belirtiyor.
Phoenix-4, başlıkşma ve dinleme gibi durumlarda doğal ve belirgin ifadelerle duyguyu yansıtmanın ötesinde onaylayarak başını sallayabilir. Aynı şekilde hayal kırıklığına reaksiyon olarak şaşkınlık ya da endişe gösterebileceği gibi merakını da ifadeleri edebiliyor. Modelin ürettiği başlıkşma ve dinleme durumları, enterpolasyon, anilik geçişler ve döngüsel görüntüler olmadan geçiş yapıyor. Her karenin tamamlanmış oluşturulduğu bu yaklaşımda kullanıcılar geçişi ayrım etmiyor.

Baş hareketi, yanaklar, kaşlar, dudaklar, alın, göz bakışı ve bile göz kırpmaları, modeller tarafından bağlamsal olarak denetim ediliyor. Böylece avatarın kimliği korurunurken hem inceliği mikro ifadeler hem da cesur makro ifadeler mümkün hale geliyor. Bunlara ilave olarak modelin, doğal mikro ifadeler ürettiğini belirtelim. Bu ifadeler, programlanmış durumlardan ziyade, çok sayıda gerçek, hissi veriden öğrenilen temsillerden ortaya çıkıyor.
Geliştiriciler modeli, Tavus platformu, API'ler, PAL'ler ve 40'tan fazla yepyeni replika içeren güncellenmiş Stock Replica kütüphanesi aracılığıyla kullanabilir. Bu teknoloji, sağlık, eğitim ve satış kullanım senaryoları için yeğleme edilebilir.

4 hafta önce
11



























English (US) ·