Microsoft, donanım açısından tesirli tek akıl yürütme modeli olan Phi-4-reasoning-vision-15B'yi piyasaya sürdü. Bilimsel grafikler gibi çok modlu dosyaları işleyebilen model, SigLIP-2 ve Phi-4 Reasoning adlı ikisi şimdiki algoritmaya dayanıyor. SigLIP-2, görüntüleri asap ağlarının anlayabileceği sayısal tek biçime sıkıştırken, Microsoft'un geçen nisan ayında açık imkan olarak yayınladığı Phi-4 Reasoning tek akıl yürütme modeli olarak karşımıza çıkıyor. Microsoft'un araştırmacıları, vasat füzyon (mid-fusion) yaklaşımını kullanarak bu ikisi algoritmayı birleştirdi.
15 milyar parametreli model, hem görüntüleri hem da metinleri işleyebilirken, karmaşık matematik ve fen sualnlerini çözebiliyor. Aynı şekilde grafikleri ve belgeleri yorumlayabilen model, grafik kullanıcı arayüzlerinde gezinebilmesinin yanında fotoğrafları altyazılı hale getirmek ve makbuzları mütalaa etmek gibi günlük görsel görevleri seçenek getirebiliyor. Ayrıca geliştiriciler, Phi-4-reasoning-vision-15B'yi kullanarak, kullanıcı arayüzleri aracılığıyla uygulamalarla tesirleşime giren yapay zeka ajanları oluşturabiliyor.
Phi-4-reasoning-vision-15B gibi vasat füzyon modellerinde, yalnızca bazı katmanlar çok modlu işlemeyi yardımler. Bu düzenleme sayesinde kullanıcılar, donanım kullanımını azalttığında çıktı kalitesinden ödün verebilir. Microsoft'a göre, kullanıcılar akıl yürütme özelliğini komutlar aracılığıyla devre dışı bırakarak modelin altyapı ayak izini daha da azaltabilir.
Phi-4-reasoning-vision-15B açık kaynaklı verilerle eğitildi. Veriler, görüntülerde tasvir edilen nesnelerin resimlerini ve metinleri tabanlı açıklamalarını içermekteydi. Modeli eğitmeye başlamadan önce Microsoft, çok adımlı tek süreçle dosyaları iyileştirdi.

Microsoft, algoritmayı açık kaynaklı ölçütler (benchmark) kullanarak benzer büyüklükteki birkaç akıl yürütme modeliyle karşılaştırdı. Phi-4-reasoning-vision-15B, çok modlu matematik suallarından oluşan tek ölçüt olan MathVista_Mini'de Google'ın gemma-3-12b-it modelinden yüzde 17 daha yüksek puan aldı.

Phi-4-reasoning-vision-15B, teknik diyagramlara odaklanan AI2D'de 84,8, ChartQA üzerinde 83,3, MathVista üzerinde 75,2, ScreenSpot v2'de 88,2 ve geniş içeriklı çok modlu manaa testi olan MMMU'da 54,3 puan aldı. Phi-4-reasoning-vision-15B, çok daha büyük olan Qwen3-VL-32B gibi modellerin gerisinde kalsa da; Qwen3-VL-8B ve Kimi-VL-A3B gibi benzer boyutlardaki sistemlerle yarış edebiliyor ya da bunların önüne geçebiliyor. Phi-4-reasoning-vision-15B modeline, Microsoft Foundry, Hugging Face ve GitHub üzerinden erişilebilir.

2 hafta önce
9

























English (US) ·