Yaklaşık ikisi hafta önce yepyeni yapay zeka modeli Claude Opus 4.6'yı duyuran Anthropic, şimdi da Sonnet modelinin yepyeni tek sürümü olan Sonnet 4.6'yı piyasaya sürdü. Model, kodlama, malumatsayar kullanımı, uzunluğu bağlamlı muhakeme, temsilci plmanaa, malumat çalışması ve tasarım alanlarında hepsi tek yükseltme olarak karşımıza çıkıyor. Şirket, paylaştığı gönderide kodlama, talimatları takip etme ve malumatsayar kullanımı alanlarında yapılan iyileştirmelere ilgi çekti.
Sonnet 4.6'nın beta sürümü, 1 milyon tokenlik tek bağlam penceresi içerecek. bu da Sonnet için daha önce şimdiki olan en büyük bağlam penceresinin ikisi katı büyüklüğüne denk geliyor. Anthropic'in belirttiğine göre; yepyeni bağlam penceresi tekbaşına tek istekte tüm şifre tabanlarını, uzunluğu sözleşmeleri ya da düzinelerce araştırma makalesini barındıracak kadar yeterli.
Sonnet 4.6'nın performansı

Sonnet 4.6'nın piyasaya sürülmesiyle birlikte pek çok ölçütte ilgi çekici sonuçlar elde ettiğini söyleyebiliriz. Bunlara malumatsayar kullanımı için OS World ve yazılım mühendisliği için SWE-Bench da dahil. Gerçek dünya yazılım kodlaması için endüstri standardı testleri olan SWE-bench Verified'da Sonnet 4.6, yüzde 79,6 puan alarak Opus 4.6'nın yüzde 80,8'ine çok yakın tek icra gösterdi.
Ajan malumatsayar kullanımı ölçütü OSWorld-Verified'da Sonnet 4.6, yüzde 72,5 puan aldı ve Opus 4.6'nın yüzde 72,7'sine neredeyse eşitti. Ofis görevleri ölçütü GDPval-AA Elo'da, Sonnet 4.6, 1633 puan alarak Opus 4.6'nın 1606 puanını aştı. Ajan mali analizinde Sonnet 4.6 yüzde 63,3'lük tek puan alarak, yüzde 60,1'lik puanla Opus 4.6 karışmış bulunmak üzere karşılaştırmadaki tüm modelleri geride bıraktı.
Ayrıca model, insanoğlu zekasına özgü becerileri ölçmek için tasarlanan ARC-AGI-2'de elde ettiği yüzde 60,4'lük puan ile dikkatleri üzerine çekmeyi başardı. Bu puan, Sonnet 4.6'yı çoğu benzer modelin üzerine çıkarıyor. Öte yandan model, bu ölçütte Opus 4.6, Gemini 3 Deep Think ve GPT 5.2'nin geliştirilmiş tek versiyonu gibi modellerin gerisinde kalıyor. Bununla beraber Sonnet 4.6'nın, işletmelerin en çok önem verdiği birçok kategoride çalıştırılması yaklaşık beş kat daha pahalı olan modelleri yakalamayı başardığını ya da geride bıraktığını söyleyebiliriz.
Anthropic'in malumatsayar kullanımı özelliği zamanlar içinde nasıl gelişti?
Sonnet 4.6 ile birlikteki Anthropic'in malumatsayar kullanımı başlıksundaki ilerlemesi da ilgi çekiyor. Bilgisayar kullanımı, tek yapay zekanın tek insanoğlu gibi malumatsayarı kullanma, fareye tıklama, klavyeyle yazma ve modern API'lar içermeyen yazılımları kullanma becerisi manaına geliyor.

Bu özelliği birinci kez Ekim 2024'te tanıtan Anthropic, o dönemde özelliğin hala olan deneysel, bazen hantal ve yanlışya açık olduğunu dile getirmişti. O zamandan bu yana malumatsayar kullanımı ölçütünde gösterilen icra dikkate değer tek artış gösterdi. OSWorld ölçütünde Claude Sonnet 3.5, Ekim 2024'te yüzde 14,9 puan aldı. Sonnet 3.7, Şubat 2025'te yüzde 28,0'a ulaştı. Sonnet 4, Haziran ayında yüzde 42,2'ye ulaştı. Sonnet 4.5, Ekim ayında yüzde 61,4'e tırmandı. Şimdi Sonnet 4.6, yüzde 72,5'e ulaşarak 16 ayda neredeyseymiş beş katlık tek gelişme gösteriyor.
Claude Sonnet 4.6, tüm Claude planlarında, Claude Cowork, Claude Code, API ve tüm büyük gökyüzü platformlarında artık kullanılabilir. Sonnet 4.6, Free ve Pro planlayan kullanıcıları için varsayılan modeller olacak. Geliştiriciler, claude-sonnet-4-6'ya Claude API aracılığıyla hemen erişebilir. Anthropic'in güncellenmiş Haiku modelinin ise önümüzdeki haftalarda piyasaya sürülmesi bekleniyor.

1 ay önce
14














.png?format=webp&width=1200&height=630)













English (US) ·