Google yeni MTP drafter modelleriyle Gemma 4 hızını artırıyor
- Kaynak
- Ars Technica
- Saat
- 17:13
- Ağırlık
- 94/100
Google, Gemma 4 açık yapay zeka serisi için yerel çıkarım hızlarını önemli ölçüde artıran Multi-Token Prediction (MTP) taslak modellerini tanıttı. Spekülatif kod çözme olarak bilinen bir tekniği kullanan bu deneysel modeller, belirteç üretim hızında üç kata kadar artış sağlıyor.
Sistem, bellek yoğunluklu görevler sırasında boşta kalan işlem döngülerini kullanarak, birincil model paralel olarak doğrulama yaparken gelecek belirteçleri tahmin eden hafif bir taslak model aracılığıyla çalışıyor. Performans kazanımları donanım yapılandırmalarına göre değişiklik gösterirken Google, Pixel akıllı telefonlarda 3,1 kata ve Apple M4 çiplerinde 2,5 kata kadar hız artışı bildiriyor.