Meta knackt Bilderkennung mit einem Klick
Ein Klick, und die KI erkennt jedes Objekt im Bild. Meta AI hat mit dem Segment Anything Model (SAM) das erste Foundation Model für Bildsegmentierung vorgestellt — inklusive Live-Demo zum Ausprobieren.
Was SAM kann
Bildsegmentierung bedeutet: Die KI erkennt, wo ein Objekt aufhört und das nächste anfängt. Pixel für Pixel. SAM macht das nicht nur für vordefinierte Kategorien, sondern für buchstäblich alles — Hunde, Stühle, Wolken, Schatten, egal.
Zahlenbox
- 1,1 Mrd.** — Segmentierungsmasken im Trainingsdatensatz
- 11 Mio.** — Bilder, auf denen SAM trainiert wurde
- 1 Klick** — reicht für eine präzise Segmentierung
- 0 Labels** — nötig, SAM generalisiert ohne manuelle Annotation
Warum das kein normales Update ist
Bisher brauchte Bildsegmentierung spezialisierte Modelle für jede Aufgabe: Medizinbilder, Satellitenfotos, Selfies — alles eigene Systeme. SAM funktioniert wie GPT für Text: ein Modell, das auf alles anwendbar ist. Meta nennt es "promptable" — du zeigst auf ein Objekt, und SAM segmentiert es.
✅ Pro
- Funktioniert auf Bildern, die es nie gesehen hat
- Open Source — Modell und Datensatz frei verfügbar
- Läuft in Echtzeit im Browser
- Zero-Shot: kein Finetuning nötig
❌ Con
- Keine semantische Erkennung (SAM weiß nicht, WAS es segmentiert)
- Video-Segmentierung fehlt noch
- Praxisnutzen für Endanwender bisher unklar
💡 Was das bedeutet
Meta positioniert sich als Open-Source-Gegenpol zu OpenAI — diesmal nicht mit Sprachmodellen, sondern mit Computer Vision. Für Entwickler, die mit Bildbearbeitung, Robotik oder AR arbeiten, ist SAM ein Werkzeug, das monatelange Annotation ersetzt. Das Modell ist frei. Der Datensatz ist frei. Wer jetzt nicht damit baut, ist selbst schuld.