🧪 EXPERIMENTAL
NorBERTo schluckt 331 Milliarden Tokens
Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
Was hier passiert
NorBERTo ist kein Chatbot, kein Generator, kein GPT-Klon. Es ist ein Encoder-Modell — gemacht zum Verstehen von Text, nicht zum Schreiben.
Das Team trainierte es auf "Aurora-PT", einem frisch zusammengestellten Korpus aus brasilianischem Portugiesisch. Vorgänger waren BERTimbau und Albertina PT-BR.
- Architektur:** ModernBERT
- Trainings-Tokens:** 331 Milliarden (GPT-2 Tokenizer)
- Sprache:** Brasilianisches Portugiesisch
- Features:** Long-Context, effiziente Attention
- Typ:** Encoder-only, kein Generator
✅ Pro
- Endlich ein moderner Encoder für Portugiesisch
- 331 Mrd. Tokens sind eine ordentliche Hausnummer
- Long-Context-Support — nicht selbstverständlich bei BERT-Klassen
❌ Con
- Kein Demo-Link, kein Hugging-Face-Drop in der Zusammenfassung
- Encoder-Modelle sind 2026 nur noch Nische
- Für deutsche Nutzer praktisch irrelevant
💡 Was das bedeutet
Wer in Brasilien Search, Klassifikation oder Retrieval baut, bekommt ein neues Werkzeug. Für alle anderen ist NorBERTo akademische Pflichtlektüre, kein Pflichtdownload. BERT-Architekturen sind nicht tot — sie sind nur leise geworden.
🤖 NERDMAN-URTEIL
Solide Arbeit für einen kleinen Markt — kein Hype, aber Encoder-Nerds in São Paulo werden jubeln.
Quelle: arXiv AI/ML/NLP
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.