- Das Transkriptionstool Whisper von OpenAI erzeugt in medizinischen und geschäftlichen Kontexten erfundene Texte. Über zwölf Experten stellten fest, dass das Modell regelmäßig falsche Aussagen in Transkriptionen einfügt. In 80 Prozent der öffentlichen Sitzungsprotokolle und fast allen 26.000 Testtranskriptionen wurden falsche Inhalte festgestellt. Dies birgt besonders in der Gesundheitsversorgung Risiken, da medizinische Fachkräfte die Genauigkeit nicht verifizieren können. OpenAI arbeitet an der Reduzierung dieser “Halluzinationen” und betont die Notwendigkeit regulatorischer Maßnahmen für den Einsatz von KI.
Am Samstag veröffentlichte die Nachrichtenagentur Associated Press eine Untersuchung, die aufdeckte, dass das Transkriptionstool Whisper von OpenAI in medizinischen und geschäftlichen Kontexten erfundene Texte erstellt. Trotz Warnungen vor der Nutzung dieses Tools wurden über zwölf Software-Ingenieure, Entwickler und Forscher interviewt, die feststellten, dass das Modell regelmäßig Aussagen erfindet, die nie von den Sprechenden gemacht wurden. Dieses Phänomen wird im Bereich der Künstlichen Intelligenz oft als „Halluzination“ bezeichnet.
Technische Analyse der Erfindungen
Die Einführung von Whisper im Jahr 2022 wurde von OpenAI als nahezu „menschliche Widerstandsfähigkeit“ in der Genauigkeit der Audiotranskription beschrieben. Ein Forscher der Universität von Michigan berichtete jedoch der Associated Press, dass in 80 Prozent der untersuchten öffentlichen Sitzungsprotokolle falsche Texte erzeugt wurden. Ein anderer Entwickler, der im AP-Bericht ungenannt bleibt, entdeckte erfundene Inhalte in fast allen seiner 26.000 Testtranskriptionen. Besonders heikel ist dieser Umstand in der Gesundheitsversorgung, wo über 30.000 medizinische Fachkräfte Whisper zur Transkription von Patientenbesuchen benutzen, trotz ausdrücklicher Warnungen seitens OpenAI.
Zusätzlich berichtete die Mankato Klinik in Minnesota und das Children’s Hospital Los Angeles von diesen Entwicklungen, welche das Vertrauen in solch ein Werkzeug erschüttern können. Die Anmerkung, dass Whisper das ursprüngliche Audio für „Datensicherheit“ löschen könnte, birgt das Risiko, dass medizinische Fachkräfte die Genauigkeit der Transkriptionen nicht verifizieren können.
Gefahren und Fehlinterpretationen
Das Problem der Fehlinterpretationen beschränkt sich nicht auf den Gesundheitsbereich. Forscher der Universitäten von Cornell und Virginia fanden heraus, dass Whisper in Tausenden von Audiodaten nicht existierende gewalttätige Inhalte und rassistische Kommentare zu neutralen Reden hinzufügte. In einer Situation fügte Whisper bei der Beschreibung von „zwei Mädchen und einer Dame“ ein betrügerisches Element hinzu, indem es feststellte, dass „sie schwarz waren“, obwohl dies nicht in der ursprünglichen Aufnahme enthalten war.
In der Forschung von OpenAI zu dieser Problematik wurde festgehalten, dass die Modelle aufgrund ihrer allgemeinen Sprachkenntnisse dazu neigen, vorherzusagen, was die wahrscheinlich nächsten Worte wären, selbst wenn sie nicht exakt im Audioinput gesprochen wurden. Diese kontextuelle Interpretation kann jedoch zu Missverständnissen und falschen Transkriptionen führen.
Aktuelle und zukünftige Maßnahmen
OpenAI hat enthüllt, dass es aktiv an der Reduzierung dieser „Halluzinationen“ arbeitet und kontinuierlich Rückmeldungen in die Modellentwicklung einfließen lässt. Dennoch wirft diese Herausforderung ein Licht auf die Problematik der Implementierung von KI-Technologien in kritischen Bereichen ohne ausreichende Prüfung und Kontrolle. Möglicherweise wird dies regulatorische und zertifizierende Maßnahmen für den Einsatz von KI in der Medizin und anderen sensiblen Bereichen nach sich ziehen müssen. Die Bedenken um die Zuverlässigkeit der Technologie könnten dazu führen, dass zukünftige Technologien besser bewertet und reguliert werden, bevor sie in risikobehafteten Sektoren eingesetzt werden.