🧪 EXPERIMENTAL
Lokale KI scheitert nicht am Modell
Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.
Der Mann hinter llama.cpp packt aus: Wer lokale Modelle nutzt, kämpft gegen die falsche Baustelle.
Was Gerganov sagt
“
Note that the main issues that people currently unknowingly face with local models mostly revolve around the harness and some intricacies around model chat templates and prompt construction.— Georgi Gerganov, Entwickler von llama.cpp
Klartext: Das Modell ist selten das Problem. Der ganze Kram drumherum ist es.
Die unsichtbare Fehlerkette
Zwischen deinem Prompt und der Antwort liegen dutzende Komponenten. Chat-Templates, Prompt-Konstruktion, Inference-Engine — alles von unterschiedlichen Entwicklern gebaut, nichts wirklich aufeinander abgestimmt. Gerganov nennt den Stack „fragile". Nett formuliert.
- Chat-Templates:** Jedes Modell will ein anderes Format. Falsches Template = schlechte Antworten, aber kein Fehler.
- Prompt-Konstruktion:** Der Client baut den Prompt zusammen. Oft falsch. Der User merkt es nicht.
- Inference-Bugs:** Reine Rechenfehler in der Engine. Selten, aber real.
- Stack-Fragmentierung:** Modell von Firma A, Quantisierung von Projekt B, Frontend von Entwickler C. Niemand testet das Gesamtbild.
💡 Was das bedeutet
Wenn dein lokales Llama dumme Antworten gibt, liegt es wahrscheinlich nicht am Modell. Du testest gerade die Qualität deines Toolchains — und weißt es nicht mal. Das erklärt auch, warum dasselbe Modell in verschiedenen Clients komplett unterschiedlich performt.
✅ Pro
- Lokale Modelle werden besser, das Problem ist lösbar
- Gerganov benennt konkrete Schwachstellen statt vage zu labern
- Wer den Stack versteht, bekommt deutlich bessere Ergebnisse
❌ Con
- Kein einzelner Verantwortlicher für den Gesamtstack
- Normaler User hat null Chance, Template-Fehler zu erkennen
- Konsolidierung dauert — jeder kocht sein eigenes Süppchen
🤖 NERDMAN-URTEIL
Die Local-AI-Szene optimiert besessen an Modellgewichten, während der eigentliche Bug im Klebeband zwischen den Komponenten steckt — Gerganov hat recht, und es musste mal einer sagen.
Quelle: Simon Willison
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.