- OpenAI hat neue Modelle o3 und o4-mini veröffentlicht, die erweiterte logische Fähigkeiten und multimodale Arbeitsweisen besitzen. Die Modelle zeigen jedoch eine erhöhte Halluzinationsrate, mit o4-mini halluzinierend in 48 % der Fälle. AI-“Halluzinationen” entstehen, wenn Modelle ohne klare Quellen Aussagen machen, oft bei Unsicherheit. OpenAI erforscht Lösungen zur Reduzierung von Halluzinationen, einschliesslich der Kombination verschiedener Modellversionen. Es bleibt wichtig, die Halluzinationen zu minimieren, um den Benutzern verlässliche Informationen zu bieten.
OpenAI hat kürzlich ein Dokument veröffentlicht, in dem es die Ergebnisse seiner internen Tests und Erkenntnisse zu den neuesten Modellen o3 und o4-mini beschreibt. Diese Modelle unterscheiden sich erheblich von den ersten Versionen von ChatGPT, die wir 2023 kennengelernt haben. Sie besitzen erweiterte logische Fähigkeiten und können multimodal arbeiten. Darüber hinaus sind sie in der Lage, Bilder zu generieren, im Internet zu recherchieren, Aufgaben zu automatisieren, frühere Gespräche zu speichern und komplexe Probleme zu lösen. Doch mit diesen Fortschritten scheinen auch unerwartete Nebenwirkungen einherzugehen.
Unterschiede der Modelle
Bei der Bewertung der Modelle mit dem Tool PersonQA, das zur Messung von Halluzinationsraten genutzt wird, zeigte sich, dass die neueren Modelle deutlich häufiger halluzinierten als ihre Vorgänger. Besonders das Modell o4-mini, das kleiner ist und weniger Weltwissen besitzt, zeigte eine Halluzinationsrate von 48 %. Dies wirft Fragen auf, insbesondere da o4-mini kommerziell genutzt wird, um das Internet zu durchsuchen und Informationen sowie Ratschläge bereitzustellen.
Das größere Modell o3 hingegen halluzinierte in 33 % der Fälle, was trotz einer hohen Genauigkeitsrate doppelt so viele Halluzinationen darstellt wie das ältere o1-Modell. OpenAI erklärt dies mit der höheren Anzahl an Behauptungen, die das Modell generell aufstellt. Es ist beruhigend zu wissen, dass, wenn Ihnen viele Halluzinationen auffallen, Sie sich das nicht nur einbilden.
Kreative Lückenfüller: Halluzinationen verstehen
AI-“Halluzinationen” treten auf, wenn ein Modell Aussagen macht, ohne auf klare Quellen zurückzugreifen. Dies geschieht oft, wenn das Modell keine Informationen finden kann, um spezifische Fragen zu beantworten. OpenAI beschreibt dieses Phänomen als die Neigung, in Momenten der Unsicherheit Fakten zu erfinden. Solche Fehlinformationen sind nicht absichtliche Lügen, sondern Ergebnisse der Algorithmen, die auf Wahrscheinlichkeiten basieren.
Es wird spekuliert, dass die Trainingseinheit des Modells, die auf Höflichkeit und Zustimmung abzielt, auch zur Halluzinationsrate beitragen könnte. Modelle sind so ausgelegt, dass sie auf Anfragen möglichst antworten; ein selbstbewusster, wenn auch fehlerhafter Antwortstil könnte daher bevorzugt werden.
Wege zur Verbesserung
Bislang kennt OpenAI die genaue Ursache für die häufigeren Halluzinationen der neuesten Modelle nicht. Es wird intensiv an Lösungen geforscht, um dieses Phänomen zu entschärfen. Kurzfristig könnte eine Lösung darin bestehen, verschiedene Modellversionen zu kombinieren, um die Stärken der einzelnen Modelle zu nutzen.
Ein Potenzial liegt in der Entwicklung eines Systems, das unterschiedliche Modelle je nach Bedarf für verschiedene Aufgaben anfragt. Ein solches Aggregat könnte fortgeschrittene Logik benötigende Anfragen an GPT-4o weiterleiten, während einfachere Informationen von älteren, weniger halluzinierenden Modellen beantwortet werden. Wichtig ist, nicht nur die Genauigkeitsrate zu erhöhen, sondern auch die Halluzinationen zu minimieren, indem Antworten, die ehrlich zugeben “das weiß ich nicht”, genauso hoch geschätzt werden wie korrekte Auskünfte.
Die Herausforderung bleibt, die Halluzinationsraten zu senken, um den Endbenutzern verlässliche und ehrliche Informationen zu bieten. Solange das Problem nicht gelöst ist, bleibt weiterhin Wachsamkeit angesagt, um den Wahrheitsgehalt der erhaltenen Informationen stets selbst zu prüfen.