Dieses Tool knackt jede KI-Zensur automatisch
Ein Open-Source-Projekt auf GitHub verspricht: Jedes Sprachmodell lässt sich vollautomatisch "entsichern" — ohne teures Nachtraining.
So funktioniert Heretic
Das Tool nutzt eine Technik namens "Abliteration". Dabei werden die Richtungen im neuronalen Netz identifiziert, die für Ablehnungen verantwortlich sind. Diese Richtungen werden dann chirurgisch entfernt — das Modell verliert seine Verweigerungshaltung, behält aber seine Fähigkeiten.
Heretic kombiniert das mit einem Optuna-basierten Optimizer, der die besten Parameter automatisch sucht. Kein manuelles Rumschrauben nötig. Einfach Modell rein, unzensiertes Modell raus.
Was drin steckt
- Methode:** Directional Ablation ("Abliteration") nach Arditi et al. 2024
- Optimizer:** TPE-basiert via Optuna — testet automatisch hunderte Konfigurationen
- Input:** Jedes Transformer-basierte Sprachmodell
- Output:** Dasselbe Modell ohne Safety-Alignment
- Kosten:** Null. Open Source auf GitHub.
✅ Pro
- Vollautomatisch — kein ML-Wissen nötig
- Kein teures Fine-Tuning oder RLHF-Gegenkonditionierung
- Funktioniert theoretisch mit jedem Transformer-Modell
❌ Con
- Rechtliche Grauzone je nach Einsatzzweck
- Qualitätsverlust möglich — Abliteration ist kein Skalpell
- Macht Modelle potenziell gefährlich in falschen Händen
💡 Was das bedeutet
Abliteration ist seit 2024 bekannt, aber bisher brauchte man technisches Know-how dafür. Heretic senkt die Hürde auf Knopfdruck-Niveau. Das ist technisch beeindruckend — und gleichzeitig ein Sicherheitsproblem, über das die Branche reden muss.