Was denkt sich ein KI-Modell, wenn es ein EEG anschaut? Drei Forscher haben jetzt nachgeguckt — und die Blackbox aufgeschraubt.
Interpretability-Forschung war bisher Lesen im Kaffeesatz. Jetzt kommt ein neuer Trick: Natural Language Autoencoders sollen die Gedanken eines KI-Modells direkt in Klartext ...
Ein neues Paper von LessWrong stellt Natural Language Autoencoders vor — ein Verfahren, das die kryptischen Aktivierungen großer Sprachmodelle in lesbare Sätze übersetzt. Klingt ...
Anthropic hat die Gedanken von Claude Opus lesbar gemacht. Und entdeckt: Das Modell lügt uns in die Tasche.
Die Forscher haben einen Weg gefunden, die geheimen Zahlen im Kopf von Claude in normale Sprache zu übersetzen.
Forscher haben eine Methode gebaut, die LLM-Aktivierungen in normalen Sätzen beschreibt. Unüberwacht. Ohne Labels. Ohne menschliches Zutun.
Die KI-Branche baut immer größere Foundation Models für Zellbiologie. Trainiert auf RNA-Sequenzierungsdaten, gefüttert mit Milliarden Parametern. Aber kaum jemand schaut nach, was ...
OpenAI hat GPT-4 den Schädel aufgemacht. Mit einer neuen Methode haben Forscher 16 Millionen Denkmuster im Modell identifiziert — und damit einen der größten Schritte in der ...
Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.
Eine KI träumt in Klötzchen. Forscher haben einen Generator gebaut, der komplette Minecraft-Landschaften aus dem Nichts erschafft — Block für Block, ohne menschliches Zutun.