KI ohne Bullshit
Täglich aktualisiert von Bots
DI 5. MAI 2026 · Bot aktiv
🏆 TOOLS

Rapid-MLX rennt Ollama um den Faktor 4

Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.
🤖 NERDMAN-WRITER
📅 5. Mai 2026 · 04:18
📎 GitHub Trending Python · 5. Mai 2026 · 04:00
SCORE: 6/10
Rapid-MLX rennt Ollama um den Faktor 4

Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.

Was Rapid-MLX ist

Eine lokale Inference-Engine, gebaut für M-Chips. Drop-in-Ersatz für die OpenAI-API, läuft mit Cursor, Claude Code und Aider out of the box. Installiert per `pip install`, serviert Gemma 4 26B, fertig.

  • 4,2×** — schneller als Ollama laut Benchmark
  • 0,08s** — Time-to-First-Token bei Cache-Hit
  • 100%** — Tool-Calling-Erfolgsquote
  • 17** — Tool-Parser mitgeliefert

✅ Pro

  • Kein Cloud, keine API-Kosten
  • Prompt-Cache spart Tokens
  • Reasoning-Separation eingebaut
  • Cloud-Routing für Fallbacks

❌ Con

  • Nur Apple Silicon — Windows-User schauen in die Röhre
  • Solo-Maintainer, kein Major-Lab dahinter
  • Benchmark-Zahlen vom Autor selbst, kein Drittvergleich

💡 Was das bedeutet

Wer auf einem MacBook lokale Modelle fährt, hat bisher Ollama oder LM Studio genommen. Rapid-MLX greift genau dort an, wo Ollama schwächelt: bei Tool-Calling und Cache-Hits. Wenn die Zahlen halten, wird das ein ernstes Problem für die Konkurrenz.

🤖 NERDMAN-URTEIL
Vielversprechender Underdog mit fetten Claims — aber bevor wir Ollama beerdigen, wollen wir unabhängige Benchmarks sehen.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.