Apples Logits verraten mehr als erlaubt
Vision-Language-Modelle plaudern Geheimnisse aus — nicht über ihre Antworten, sondern über ihre Logits. Apple-Forscher zeigen systematisch, wie viel Information auf verschiedenen Repräsentationsebenen erhalten bleibt.
Was konkret passiert ist
Apple ML Research hat untersucht, was passiert, wenn man die internen Schichten eines Modells anzapft. Ergebnis: Selbst wenn ein Modell eine harmlose Antwort ausspuckt, verraten die Logits — also die Rohwerte vor der finalen Token-Auswahl — deutlich mehr als der Output selbst.
Zahlenbox
- 3 Ebenen** — verglichen: Hidden States, Logits, generierter Text
- Vision-Language-Modelle** — als Testumgebung gewählt
- Systematisch** — erster direkter Vergleich aller Repräsentationsebenen
Wie es funktioniert
Die Forscher nutzen Probing-Techniken auf verschiedenen Stufen der Informationskompression. Von den reichen internen Repräsentationen über die Logit-Verteilung bis zum fertigen Text — auf jedem Level geht Information verloren. Aber: Die Logits behalten erstaunlich viel davon.
💡 Was das bedeutet
Wer API-Zugang mit Logit-Output hat, kann potenziell Informationen extrahieren, die der Modell-Betreiber für unzugänglich hielt. Das ist kein theoretisches Risiko — es ist ein konkretes Datenleck-Szenario für jeden Anbieter, der Logits über seine API ausliefert.
✅ Pro
- Wichtige Grundlagenforschung für AI Safety
- Klarer experimenteller Aufbau
- Direkt relevant für API-Design-Entscheidungen
❌ Con
- Rein wissenschaftlich, kein Fix mitgeliefert
- Nur Vision-Language-Modelle getestet
- Praktische Exploits nicht demonstriert