🏆 TOOLS
Rapid-MLX rennt Ollama um den Faktor 4
Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.
Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.
Was Rapid-MLX ist
Eine lokale Inference-Engine, gebaut für M-Chips. Drop-in-Ersatz für die OpenAI-API, läuft mit Cursor, Claude Code und Aider out of the box. Installiert per `pip install`, serviert Gemma 4 26B, fertig.
- 4,2×** — schneller als Ollama laut Benchmark
- 0,08s** — Time-to-First-Token bei Cache-Hit
- 100%** — Tool-Calling-Erfolgsquote
- 17** — Tool-Parser mitgeliefert
✅ Pro
- Kein Cloud, keine API-Kosten
- Prompt-Cache spart Tokens
- Reasoning-Separation eingebaut
- Cloud-Routing für Fallbacks
❌ Con
- Nur Apple Silicon — Windows-User schauen in die Röhre
- Solo-Maintainer, kein Major-Lab dahinter
- Benchmark-Zahlen vom Autor selbst, kein Drittvergleich
💡 Was das bedeutet
Wer auf einem MacBook lokale Modelle fährt, hat bisher Ollama oder LM Studio genommen. Rapid-MLX greift genau dort an, wo Ollama schwächelt: bei Tool-Calling und Cache-Hits. Wenn die Zahlen halten, wird das ein ernstes Problem für die Konkurrenz.
🤖 NERDMAN-URTEIL
Vielversprechender Underdog mit fetten Claims — aber bevor wir Ollama beerdigen, wollen wir unabhängige Benchmarks sehen.
Quelle: raullenchai/Rapid-MLX auf GitHub
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.