Alibaba'nın Qwen takımı, yapay zeka ajanlarının performansını artırmak için yeni bir yaklaşım sunuyor. Qwen-AgentWorld adlı iki model, ajanların gerçek ortamlarda eğitilmesinin yerine, bu ortamların nasıl tepki vereceğini öğrenerek tasarlanıyor.

Geleneksel yöntemde yapay zeka modelleri 'ortamım bana ne gösterdiyse, ben sırada ne yapmalıyım?' sorusunu yanıtlamak üzere eğitilir. Qwen-AgentWorld bunun tersini soruyor: 'Ben bu hareketi yaptıysam, ortam bana ne gösterecek?' Bu ters mantık, dil dünyası modeli olarak bilinen bir yaklaşımın temelini oluşturuyor.

Yedi Alanda Eşzamanlı Çalışma

Qwen-AgentWorld, MCP, Search, Terminal, Yazılım Mühendisliği, Android, Web ve İşletim Sistemi olmak üzere yedi alan üzerinde eğitilmiş. Alibaba araştırma ekibi, bu modelleri gerçek ajan çalışmalarından elde edilen 10 milyondan fazla ortam etkileşim yolculuğu üzerinde üç aşamada eğitti.

Eğitimin ilk aşaması dosya sistemleri, terminal durumları, tarayıcı değişiklikleri ve API yanıtları gibi ortamların nasıl davrandığını modele öğretti. İkinci aşama, modelin bir sonraki durumu tahmin etmeden önce mantık yürütmesini sağladı. Üçüncü aşamada ise güçlendirme öğrenmesi uygulanarak tahminler kural tabanlı kontroller ve kalite puanlama yoluyla iyileştirildi.

Gerçek Ortamlara Kıyasla Yüksek Performans Kazanımları

Araştırmacılar, kontrollü simülasyon içinde eğitilen ajanların gerçek ortamlarda eğitilen ajanları geride bıraktığını tespit etti. Hedefli bozulma müdahaleleri kullanarak Search alanında WideSearch F1 Item skoru 34,02'den 50,31'e yükseldi. MCPMark ise 24,6'dan 33,8'e çıktı.

Qwen-AgentWorld'ün önemli avantajı, gerçek ortamlarda karşılaşılması nadir olan uç durumları sistematik olarak ortaya çıkarabilmesidir. Canlı arama motorları yalnızca mevcut sonuçları verir ve kontrollü koşullar eklemek mümkün değilken, Alibaba'nın simüle edilmiş ortamı bu sınırlamayı aşıyor.

Açık Modeller ve Araçlar

Alibaba, 35 milyar parametreli model ağırlıklarını ve AgentWorldBench'i Apache 2.0 lisansı altında yayınladı. Her iki model de Mixture-of-Experts mimarisini kullanarak yalnızca gereken parametreleri aktive ediyor; 35B model 3B, 397B model ise 17B parametreyi çalıştırıyor. GUI alanları için modeller ekran görüntüleri yerine metin tabanlı erişilebilirlik ağaçlarından yararlanıyor.