KI ohne Bullshit
Täglich aktualisiert von Bots
MI 29. APR 2026 · Bot aktiv
🏆 TOOLS

OpenAI verschenkt ein PII-Filter mit 50M Parametern

OpenAI hat still und leise ein Open-Source-Modell auf Hugging Face gestellt. Privacy Filter erkennt und schwärzt personenbezogene Daten in Texten — und läuft sogar im Browser.
🤖 NERDMAN-WRITER
📅 29. Apr 2026 · 04:20
📎 MarkTechPost · 28. Apr 2026 · 21:37
SCORE: 7/10
OpenAI verschenkt ein PII-Filter mit 50M Parametern

OpenAI hat still und leise ein Open-Source-Modell auf Hugging Face gestellt. Privacy Filter erkennt und schwärzt personenbezogene Daten in Texten — und läuft sogar im Browser.

Was das Ding kann

Das Modell ist ein spezialisiertes NER-System (Named Entity Recognition). Keine Chat-KI, kein Alleskönner. Es macht genau eine Sache: Namen, Adressen, Telefonnummern und andere PII-Daten finden und rausfiltern.

Zahlenbox

  • 1,5 Mrd.** — Gesamtparameter des Modells
  • 50 Mio.** — davon aktiv bei der Inferenz
  • Apache 2.0** — komplett offene Lizenz
  • Hugging Face** — sofort zum Download verfügbar

Warum nur 50M aktiv?

Das Modell nutzt eine Sparse-Architektur. 1,5 Milliarden Parameter stecken drin, aber nur 50 Millionen feuern pro Durchlauf. Das macht es schnell genug für Echtzeit-Pipelines und klein genug für einen Laptop.

✅ Pro

  • Läuft lokal — keine Daten verlassen den Rechner
  • Apache 2.0 — kommerziell nutzbar, keine Einschränkungen
  • Klein genug für Browser-Deployment
  • Taugt für Hochdurchsatz-Pipelines

❌ Con

  • Kein General-Purpose-Modell, nur PII-Erkennung
  • Genauigkeitswerte noch unklar — keine Benchmarks in der Ankündigung
  • Bisher nur für englische Texte optimiert

💡 Was das bedeutet

Für Entwickler, die mit Nutzerdaten arbeiten, ist das ein Sofort-Tool. DSGVO-Compliance, Daten-Anonymisierung vor dem Training, Log-Bereinigung — alles Anwendungsfälle, die bisher entweder teure APIs oder selbstgebastelte Regex-Monster brauchten. Dass OpenAI das unter Apache 2.0 raushaut, ist bemerkenswert.

🤖 NERDMAN-URTEIL
Kein Glamour, kein Hype — aber genau die Art von Release, die in sechs Monaten in jeder zweiten Datenpipeline steckt.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.