SHAP braucht 30 Millisekunden, um eine Betrugs-Vorhersage zu erklären. Ein neuro-symbolisches Modell schafft das in 0,9 ms — und liefert die Erklärung gleich mit, ohne ...
OpenAI lässt ein KI-Modell die Gehirnzellen eines anderen KI-Modells erklären. Klingt nach Science-Fiction, ist aber ein echtes Forschungsprojekt.
Ein neues Paper auf arXiv kombiniert Statistik-Modelle mit Sprachmodellen. Ziel: Nicht nur vorhersagen, sondern verstehen warum.
Ein Forscher auf LessWrong hat eine These: Statt KI-Modelle mühsam von Hand zu sezieren, sollten wir andere Modelle darauf trainieren, das Innenleben zu verstehen. Klingt nach ...
Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.
Wie macht man ein 70-Milliarden-Parameter-Modell klein genug für den Laptop? Sam Rose zeigt es — mit dem vielleicht besten interaktiven Essay des Jahres.
Ein britischer Parlamentarier wurde Opfer einer KI-Deepfake-Kampagne. Als er die Verantwortlichen von Meta, Google und X im Unterhaus zur Rede stellte, bekam er: nichts ...
The Verge knöpft sich Superhuman-Chef Shishir Mehrotra vor. Sein Unternehmen soll Menschen per KI imitiert haben — ohne deren Wissen.
Forscher haben eine Methode gebaut, die LLM-Aktivierungen in normalen Sätzen beschreibt. Unüberwacht. Ohne Labels. Ohne menschliches Zutun.
Forscher haben einen neuen Trainings-Trick entdeckt. Er macht KI sicherer und braucht weniger Daten.
Größere Modelle sind besser. Das weiß jeder. Warum das so ist, war ein Rätsel. Jetzt liefern MIT-Forscher die Erklärung.
Sam Altman hat eine Erklärung für die Massenflucht der Safety-Forscher bei OpenAI. Und die ist so dünn wie ein GPT-2-Prompt.
Anthropic schlägt zurück. Das KI-Unternehmen hat am Freitag zwei eidesstattliche Erklärungen vor einem Bundesgericht in Kalifornien eingereicht — und widerspricht dem Pentagon ...
Anthropic hat sein neues Modell Fable ausgerollt — und die Cybersecurity-Szene tobt. Die Guardrails sind so eng geschnürt, dass seriöse Security-Arbeit praktisch unmöglich wird.
Arm hat sein Agentic-Security-Framework Metis als Open Source veröffentlicht. Das Ding jagt Software-Bugs autonom — und schlägt klassische SAST-Tools dabei deutlich.
LLMs, die mit ihrem eigenen Output trainiert werden, verblöden. Bekannt. Aber WARUM genau — das hat jetzt eine Studie zerlegt.
Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.
Ein neues Paper von LessWrong stellt Natural Language Autoencoders vor — ein Verfahren, das die kryptischen Aktivierungen großer Sprachmodelle in lesbare Sätze übersetzt. Klingt ...
Die Forscher haben einen Weg gefunden, die geheimen Zahlen im Kopf von Claude in normale Sprache zu übersetzen.
Forscher haben ein System gebaut, das nicht nur Themen in Texten findet, sondern auch genau erklären kann, wie es dazu kommt. Agentopic heißt das Ding.