Welcher LLM läuft auf deiner Kiste?
Ein Indie-Entwickler hat das Problem gelöst, vor dem jeder Local-LLM-Bastler steht: Welches Modell passt auf meine Hardware — und läuft auch wirklich gut? Das Tool heißt `whichllm`. Ein Befehl, fertig.
Was das Ding macht
`whichllm` scannt deine GPU, CPU und RAM. Dann zieht es Modelle von HuggingFace und rankt sie nach echten, aktuellen Benchmarks. Keine Parameter-Angeberei, sondern Tokens pro Sekunde auf deinem Rechner.
So sieht der Output aus
``` $ whichllm --gpu "RTX 4090" #1 Qwen/Qwen3.6-27B 27.8B Q5_K_M score 92.8 27 t/s #2 Qwen/Qwen3-32B 32.0B Q4_K_M score 83.0 31 t/s #3 Qwen/Qwen3-30B-A3B 30B ... ```
✅ Pro
- Ein Command, keine Konfig-Hölle
- Recency-aware Benchmarks statt Marketing-Zahlen
- Auto-Detection für GPU/CPU/RAM
- Open Source auf GitHub
❌ Con
- Trending-Tool, kein etabliertes Projekt
- Hängt von HuggingFace-Daten ab
- Noch unklar wie tief die Benchmark-Datenbank wirklich ist
💡 Was das bedeutet
Wer lokale Modelle fährt, kennt das Spiel: Du lädst 30 Gigabyte runter, startest, und Llama spuckt zwei Tokens pro Sekunde aus. `whichllm` killt dieses Trial-and-Error. Für Entwickler mit Consumer-GPUs wie der RTX 4090 ist das ein echter Zeitsparer.