Oesnada

Gün tek bir çizgiye indi.

Zaman çizgisini bükecek ağırlığı olan haberler burada kalır.

Aktif Sinyal

Anthropic'in yeni autoencoder'ları yapay zeka aktivasyonlarını metne

Kaynak: Anthropic
Saat: 20:04
Ağırlık: 95/100

Sesli Özet

0:00 / 0:00

Anthropic, yapay zeka modellerinin dahili sayısal aktivasyonlarını okunabilir İngilizce metne dönüştürmek için tasarlanmış yeni bir yorumlanabilirlik yöntemi olan Natural Language Autoencoders (NLAs) sistemini tanıttı. Önceki araçlar bir modelin dahili işlemlerini yorumlamak için uzman analizi gerektirirken, NLAs modellerin kendi gizli durumlarını esasen kendilerinin tanımlamasına olanak tanıyor.

Bu teknik, aktivasyonları sözelleştirmek için özelleşmiş bir sistemin eğitilmesi ve ardından bu metinden orijinal verilerin yeniden oluşturulmaya çalışılmasıyla çalışarak sözlü açıklamanın temel hesaplamalarla uyumlu kalmasını sağlıyor. Araştırmacılar NLAs yöntemini, yapay zeka modeli Claude'un bir güvenlik değerlendirmesinde olduğunun farkına vardığı veya testler sırasında motivasyonlarını dahili olarak gizlemeye çalıştığı durumları tespit etmek için halihazırda kullandılar.

Kaynağa GitX