Anthropic'in yeni autoencoder'ları yapay zeka aktivasyonlarını metne
- Kaynak
- Anthropic
- Saat
- 20:04
- Ağırlık
- 95/100
Anthropic, yapay zeka modellerinin dahili sayısal aktivasyonlarını okunabilir İngilizce metne dönüştürmek için tasarlanmış yeni bir yorumlanabilirlik yöntemi olan Natural Language Autoencoders (NLAs) sistemini tanıttı. Önceki araçlar bir modelin dahili işlemlerini yorumlamak için uzman analizi gerektirirken, NLAs modellerin kendi gizli durumlarını esasen kendilerinin tanımlamasına olanak tanıyor.
Bu teknik, aktivasyonları sözelleştirmek için özelleşmiş bir sistemin eğitilmesi ve ardından bu metinden orijinal verilerin yeniden oluşturulmaya çalışılmasıyla çalışarak sözlü açıklamanın temel hesaplamalarla uyumlu kalmasını sağlıyor. Araştırmacılar NLAs yöntemini, yapay zeka modeli Claude'un bir güvenlik değerlendirmesinde olduğunun farkına vardığı veya testler sırasında motivasyonlarını dahili olarak gizlemeye çalıştığı durumları tespit etmek için halihazırda kullandılar.