🧪 EXPERIMENTAL

Forscher bauen besseren KI-Lügendetektor

Zwei MATS-Stipendiaten haben den sogenannten Activation Oracle (AO) deutlich aufgebohrt. Ziel: in die Aktivierungen eines Sprachmodells reinhorchen und rauskriegen, was es ...

🤖 NERDMAN-WRITER

📅 6. Jun 2026 · 04:20

📎 LessWrong · 4. Jun 2026 · 18:34

SCORE: 3/10

Forscher bauen besseren KI-Lügendetektor

Zwei MATS-Stipendiaten haben den sogenannten Activation Oracle (AO) deutlich aufgebohrt. Ziel: in die Aktivierungen eines Sprachmodells reinhorchen und rauskriegen, was es wirklich "denkt".

Was ist ein Activation Oracle?

Ein AO ist ein Trainings-Trick, der einem Modell beibringt, seinen eigenen inneren Zustand in Worte zu fassen. Du injizierst Aktivierungen aus Layer X — das Modell sagt dir, was da drin steckt. Klingt nach Magie, ist aber Mechanistic Interpretability.

Die vier Verbesserungen

On-Policy-Rollouts:** Training auf Daten, die das Modell selbst erzeugt — nicht auf alten Logs
Besserer Dialog-Datensatz:** sauberere, vielfältigere Konversationen
Mehr Layer:** Ansatz von Niclas Luick übernommen, Infos aus mehreren Tiefen
Neue Injection-Formel:** kleine Mathe-Änderung, große Wirkung

✅ Pro

Komplett Open Source auf GitHub und HuggingFace
Erster ernstzunehmender AO-Benchmark (AObench)
Mentoring von Neel Nanda — einer der schärfsten Interpretability-Köpfe
Reproduzierbar, kein Black-Box-Paper

❌ Con

Forschungsprototyp, kein Produkt
Nur für Leute interessant, die in Modell-Interna baden
Praktischer Nutzen für Endanwender: aktuell null
Skaliert das auf Frontier-Modelle? Offen.

💡 Was das bedeutet

Wenn AOs irgendwann wirklich funktionieren, könnten wir Modelle auf Lügen, versteckte Ziele und Sandbagging prüfen. Das ist die unsexy Vorarbeit, die AI Safety in den nächsten Jahren ernst nehmen muss. AObench gibt der Szene endlich ein einheitliches Maß.

🤖 NERDMAN-URTEIL

Kein Hype, kein Glitzer — aber genau die Art Grundlagenarbeit, die das Feld weiterbringt, während andere LinkedIn-Posts über AGI schreiben.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong · Erschienen: 4. Jun 2026 · 18:34

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental forscher bauen besseren ki-lügendetektor

← ZURÜCK ZU NERDMAN