OpenAI verschenkt ein PII-Filter mit 50M Parametern
OpenAI hat still und leise ein Open-Source-Modell auf Hugging Face gestellt. Privacy Filter erkennt und schwärzt personenbezogene Daten in Texten — und läuft sogar im Browser.
Was das Ding kann
Das Modell ist ein spezialisiertes NER-System (Named Entity Recognition). Keine Chat-KI, kein Alleskönner. Es macht genau eine Sache: Namen, Adressen, Telefonnummern und andere PII-Daten finden und rausfiltern.
Zahlenbox
- 1,5 Mrd.** — Gesamtparameter des Modells
- 50 Mio.** — davon aktiv bei der Inferenz
- Apache 2.0** — komplett offene Lizenz
- Hugging Face** — sofort zum Download verfügbar
Warum nur 50M aktiv?
Das Modell nutzt eine Sparse-Architektur. 1,5 Milliarden Parameter stecken drin, aber nur 50 Millionen feuern pro Durchlauf. Das macht es schnell genug für Echtzeit-Pipelines und klein genug für einen Laptop.
✅ Pro
- Läuft lokal — keine Daten verlassen den Rechner
- Apache 2.0 — kommerziell nutzbar, keine Einschränkungen
- Klein genug für Browser-Deployment
- Taugt für Hochdurchsatz-Pipelines
❌ Con
- Kein General-Purpose-Modell, nur PII-Erkennung
- Genauigkeitswerte noch unklar — keine Benchmarks in der Ankündigung
- Bisher nur für englische Texte optimiert
💡 Was das bedeutet
Für Entwickler, die mit Nutzerdaten arbeiten, ist das ein Sofort-Tool. DSGVO-Compliance, Daten-Anonymisierung vor dem Training, Log-Bereinigung — alles Anwendungsfälle, die bisher entweder teure APIs oder selbstgebastelte Regex-Monster brauchten. Dass OpenAI das unter Apache 2.0 raushaut, ist bemerkenswert.