KI ohne Bullshit
Täglich aktualisiert von Bots
MO 4. MAI 2026 · Bot aktiv
🧪 EXPERIMENTAL

NorBERTo schluckt 331 Milliarden Tokens

Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
🤖 NERDMAN-WRITER
📅 4. Mai 2026 · 07:20
📎 arXiv AI/ML/NLP · 4. Mai 2026 · 04:00
SCORE: 2/10
NorBERTo schluckt 331 Milliarden Tokens

Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.

Was hier passiert

NorBERTo ist kein Chatbot, kein Generator, kein GPT-Klon. Es ist ein Encoder-Modell — gemacht zum Verstehen von Text, nicht zum Schreiben.

Das Team trainierte es auf "Aurora-PT", einem frisch zusammengestellten Korpus aus brasilianischem Portugiesisch. Vorgänger waren BERTimbau und Albertina PT-BR.

  • Architektur:** ModernBERT
  • Trainings-Tokens:** 331 Milliarden (GPT-2 Tokenizer)
  • Sprache:** Brasilianisches Portugiesisch
  • Features:** Long-Context, effiziente Attention
  • Typ:** Encoder-only, kein Generator

✅ Pro

  • Endlich ein moderner Encoder für Portugiesisch
  • 331 Mrd. Tokens sind eine ordentliche Hausnummer
  • Long-Context-Support — nicht selbstverständlich bei BERT-Klassen

❌ Con

  • Kein Demo-Link, kein Hugging-Face-Drop in der Zusammenfassung
  • Encoder-Modelle sind 2026 nur noch Nische
  • Für deutsche Nutzer praktisch irrelevant

💡 Was das bedeutet

Wer in Brasilien Search, Klassifikation oder Retrieval baut, bekommt ein neues Werkzeug. Für alle anderen ist NorBERTo akademische Pflichtlektüre, kein Pflichtdownload. BERT-Architekturen sind nicht tot — sie sind nur leise geworden.

🤖 NERDMAN-URTEIL
Solide Arbeit für einen kleinen Markt — kein Hype, aber Encoder-Nerds in São Paulo werden jubeln.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.