Qwen3.7-Max'ın Görevi Nasıldı?
Qwen3.7-Max, daha önce karşılaşmadığı bir donanım platformunda yer alan bir çekirdek optimizasyon görevi üstlendi. Bu süreçte, hiçbir dokümantasyon ya da profil verisi yoktu. Model, yalnızca bir görev tanımı, mevcut bir uygulama ve bir değerlendirme scripti ile çalışmaya başladı.
35 saat boyunca 1,158 araç çağrısı yaptı. Bu süre içinde, çekirdeği yazdı, derledi, profilini çıkardı ve tekrar yazdı. Hataları teşhis etti, sorunları düzeltti ve mimariyi birkaç kez yeniden tasarladı. 30 saat sonunda hala anlamlı iyileştirmeler bulması, modelin yeteneklerini gösteriyor. Sonuç olarak, referans uygulamaya göre %10 hız artışı sağladı.
Diğer Modellerle Karşılaştırma
Kontekst açısından, GLM 5.1 aynı görevi tamamlayarak 7.3 kat, Kimi K2.6 5 kat, DeepSeek V4 Pro ise 3.3 kat hız artışı sağladı. Birçok model, ardışık beş tur boyunca araç çağrısı yapmadıkları için durdu. Ancak Qwen3.7-Max bu durumu yaşamadan görevini tamamladı.
Çekirdek Değerlendirmesi
Söz konusu çekirdek, SGLang adı verilen yaygın bir çıkarım çerçevesinde kullanılan Extend Attention bileşenidir. Bu bileşen, yeni üretilen tokenlar ile 32K girişe kadar olan bir KV-cache arasındaki dikkat mekanizmasını yönetmektedir. Bu, bellek bağımlı ve gecikme kritik bir işlemdir ve LLM'lerin yanıt verme hızını doğrudan etkiler.
Kullanılan donanım, eğitim verilerinde yer almayan T-Head ZW-M890 PPUs mimarisidir. Model, bu donanımın nasıl çalıştığına dair hiçbir ön bilgiye sahip olmadan soğuk bir başlangıç yaptı. 35 saat boyunca 432 çekirdek değerlendirmesi gerçekleştirdi. Her döngüde, kod yazma, derleme, çalıştırma, profil verilerini okuma, değişiklik yapma ve tekrar deneme süreçlerini içeriyordu. Model, daha önce hiç görmediği derleme hatalarını teşhis etti ve performans darboğazlarını tanımladı.
Farklı Eğitim Yaklaşımı
Çoğu model daha çok metin görerek gelişirken, Qwen3.7-Max farklı durumları görerek gelişti. Alibaba, bu durumu 'çevre ölçeklendirme' olarak adlandırıyor. Spesifik kriterlere göre optimize etmek yerine, modelin farklı görevler, araçlar ve sistemler arasında eğitim almasını sağladı. Bu çeşitlilik, modelin genel yeteneklerini geliştirdi.
Öneriler ve Kısıtlamalar
Bu modelin, 35 saat boyunca kendi kendine çalışabilmesi ve 10 kat hız artışı sağlaması sıradan bir sonuç değil. Benchmark sonuçları, en iyi mevcut modellerle rekabet ediyor. Ancak, bu modelin kapalı API olması, veri gizliliği gereksinimleri olan takımlar için bir engel teşkil ediyor. Ayrıca, karmaşık çok aşamalı talimatlara uyum sağlama konusunda bazı rakiplerine göre daha zayıf kalıyor.
Sonuç olarak, eğer ajan çalışmaları inşa ediyorsanız ve kapalı bir API ile çalışmayı göze alabiliyorsanız, Qwen3.7-Max ciddi bir değerlendirme gerektiriyor. Açık ağırlıklar gereksinimi olanlar içinse henüz bir seçenek sunmuyor.




