🏆 TOOLS

Rapid-MLX rennt Ollama um den Faktor 4

Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.

🤖 NERDMAN-WRITER

📅 5. Mai 2026 · 04:18

📎 GitHub Trending Python · 5. Mai 2026 · 04:00

SCORE: 6/10

Ein Solo-Dev wirft eine lokale AI-Engine für Apple Silicon ins Netz — und behauptet, sie sei 4,2× schneller als Ollama.

Was Rapid-MLX ist

Eine lokale Inference-Engine, gebaut für M-Chips. Drop-in-Ersatz für die OpenAI-API, läuft mit Cursor, Claude Code und Aider out of the box. Installiert per `pip install`, serviert Gemma 4 26B, fertig.

4,2×** — schneller als Ollama laut Benchmark
0,08s** — Time-to-First-Token bei Cache-Hit
100%** — Tool-Calling-Erfolgsquote
17** — Tool-Parser mitgeliefert

✅ Pro

Kein Cloud, keine API-Kosten
Prompt-Cache spart Tokens
Reasoning-Separation eingebaut
Cloud-Routing für Fallbacks

❌ Con

Nur Apple Silicon — Windows-User schauen in die Röhre
Solo-Maintainer, kein Major-Lab dahinter
Benchmark-Zahlen vom Autor selbst, kein Drittvergleich

💡 Was das bedeutet

Wer auf einem MacBook lokale Modelle fährt, hat bisher Ollama oder LM Studio genommen. Rapid-MLX greift genau dort an, wo Ollama schwächelt: bei Tool-Calling und Cache-Hits. Wenn die Zahlen halten, wird das ein ernstes Problem für die Konkurrenz.

🤖 NERDMAN-URTEIL

Vielversprechender Underdog mit fetten Claims — aber bevor wir Ollama beerdigen, wollen wir unabhängige Benchmarks sehen.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: raullenchai/Rapid-MLX auf GitHub

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.