3 Sekunden Audio reichen für Millionen-Betrug
Drei Sekunden. So lange muss ein Betrüger deine Stimme hören, um sie zu klonen. Dann ruft dein "Chef" an und ordnet eine Überweisung an. Willkommen in 2026.
So läuft der Angriff
Ein kurzer Clip von LinkedIn, einem Podcast oder einer Voicemail genügt. KI-Tools generieren daraus eine synthetische Stimme in Echtzeit. Der Fake-Anruf geht an die Buchhaltung: "Überweise sofort 250.000 Euro an diesen neuen Lieferanten." Die Stimme klingt exakt wie der CEO.
Adaptive Security, ein US-Sicherheitsunternehmen, hat die Methode analysiert — und das Ergebnis ist brutal.
Was die Angreifer können
- Echtzeit-Cloning:** Stimme wird live generiert, kein voraufgezeichnetes Audio nötig
- 3 Sekunden Trainingsmaterial:** Ein einziger Satz reicht zur Klonung
- Emotionale Manipulation:** Druck, Zeitnot, Autorität — die klassischen Social-Engineering-Hebel, jetzt mit perfekter Stimme
Warum Abwehr versagt
- Kein Filter:** Die meisten Telefonanlagen prüfen nicht auf synthetische Stimmen
- Kein Bewusstsein:** Mitarbeiter sind auf E-Mail-Phishing trainiert, nicht auf Anrufe
- Kein Standard:** Es gibt kein etabliertes Protokoll für Stimm-Verifizierung im Unternehmen
Was das bedeutet
Voice-Phishing war bisher Nische — schlechte Roboterstimmen, die jeder erkannt hat. Das ist vorbei. Mit aktueller KI klingt jeder Anruf echt. Unternehmen, die keine Rückruf-Verifizierung oder Code-Wörter für sensible Anweisungen haben, sind offene Ziele.
Pro: Was man tun kann
- Rückruf auf bekannter Nummer bei jeder Zahlungsanweisung
- Interne Code-Wörter für CEO-Level-Freigaben
- Mitarbeiter-Training speziell für Voice-Deepfakes
Con: Was dagegen spricht
- Verlangsamt Geschäftsprozesse
- Code-Wörter können selbst geleakt werden
- Technische Erkennung von Deepfake-Stimmen steckt noch in den Kinderschuhen