Neue Methode soll endlich zeigen, wie Vision-Language-Modelle Bilder in Worte übersetzen — und warum sie dabei halluzinieren.