- In New York ansässiges Startup startet empathische Sprachschnittstelle.
- Technologie integriert emotionale Stimmen und Ohren in Sprachmodelle von Anthropic, Google, Meta und Mistral.
- Hume AI zielt auf empathische, menschenähnliche KI-Persönlichkeiten ab.
- WIRED testete Humes Sprachtechnologie EVI 2 und fand sie emotionaler als herkömmliche Schnittstellen.
- Technologie kann spezifische emotionale Stimmen bereitstellen, hat aber noch inkonsistente Verhaltensweisen.
Heute hat ein in New York ansässiges Startup eine neue „empathische Sprachschnittstelle“ gestartet. Diese Innovation ermöglicht es, eine Palette von emotional ausdrucksstarken Stimmen und ein emotional abgestimmtes Ohr in große Sprachmodelle von Anthropic, Google, Meta und Mistral zu integrieren. Dies könnte eine Ära einläuten, in der KI-Helfer routinemäßig emotional reagieren. Laut Hume AI-Mitbegründer, einem Psychologen, der mehrere Arbeiten über KI und Emotionen mitverfasst hat, zielt das Unternehmen darauf ab, empathische Persönlichkeiten zu schaffen, die menschenähnlich sprechen und nicht nach stereotypischen Mustern von KI-Assistenten.
Emotionale Technologie im Einsatz
WIRED testete Humes neueste Sprachtechnologie, EVI 2, und stellte fest, dass die Ausgabe dieser der von OpenAI für ChatGPT entwickelten Technologie ähnelt. Wie ChatGPT ist auch Hume weitaus emotionaler als die meisten herkömmlichen Sprachschnittstellen. Teilt man Hume zum Beispiel mit, dass das Haustier gestorben ist, nimmt es einen passenden, düsteren und mitleidigen Ton an. Während einer Interaktion zeigt Humes Entwickler-Interface Werte, die Dinge wie „Entschlossenheit“, „Angst“ und „Glück“ in der Stimme der Nutzer messen. Eine traurige Stimme wird entsprechend erkannt und beantwortet – etwas, das bei ChatGPT nicht offensichtlich ist.
Hume ermöglicht auch die einfache Bereitstellung einer Stimme mit spezifischen Emotionen durch die Eingabe eines Prompts in der Benutzeroberfläche. Wenn zum Beispiel nach einer „sexy und koketten“ oder einer „traurigen und melancholischen“ Stimme gefragt wird, kann dies einfach erfolgen. Die Technologie verhält sich nicht immer konsistent wie OpenAI´s, und es gab gelegentliche merkwürdige Verhaltensweisen, wie plötzliches schneller werden und unsinniges Gerede. Dennoch, wenn die Stimme weiter verfeinert und zuverlässiger gemacht wird, könnte dies dazu beitragen, menschenähnliche Sprachschnittstellen häufiger und vielfältiger zu gestalten.
Historische Wurzeln und aktuelle Entwicklungen
Die Idee, menschliche Emotionen in technologischen Systemen zu erkennen, zu messen und zu simulieren, reicht Jahrzehnte zurück. Dies wird in einem Fachgebiet namens „Affective Computing“ studiert, ein Begriff, der in den 1990er Jahren von einer MIT-Professorin eingeführt wurde. Ein Professor an der Universität Utrecht, der Affective Computing studiert, zeigte sich beeindruckt von Humes Technologie und demonstrierte diese seinen Studenten. Er erläuterte, dass EVI emotionale Valenz und Erregungswerte zuweist und die Redeweise des Agenten entsprechend moduliert – eine interessante Wendung für große Sprachmodelle (LLMs).
Beispiele für potenzielle Anwendungsgebiete von Humes Technologie sind Marketing und therapeutische Anwendungen im Bereich der psychischen Gesundheit. Herausforderungen bestehen jedoch weiterhin, da Menschen oft ihre wahren Emotionen verbergen oder während einer Interaktion ändern können, was es für KI-Systeme schwieriger macht, ihre eigentlichen Gefühle genau zu erkennen. Zudem könnte es problematisch sein, wie gut die Technologie für nicht-englische Sprachen funktioniert und ob subtile Vorurteile aufgrund unterschiedlicher Akzente auftreten, ein Problem, das Hume durch vielfältige Trainingsdaten mindern will.
Zukunftsperspektiven und ethische Überlegungen
Eine Zukunft, in der Sprachassistenten besser auf menschliche Gefühle abgestimmt sind und mit scheinbar echter Empathie reagieren, ist nicht weit entfernt. Die Verbreitung KI-gesteuerter Sprachassistenten wird laut Experten nur dann erfolgreich sein, wenn diese eine konsistente Persönlichkeit und Emotionen zeigen, um Vertrauen bei den Nutzern aufzubauen. Ein Professor an der Universität Waterloo betont jedoch, dass große Sprachmodelle nur menschliche Emotionen nachahmen können, da sie selbst keine echten Gefühle empfinden. KI-Helfer mögen in naher Zukunft empathischer erscheinen, doch er glaubt nicht, dass sie tatsächlich empathischer sein werden, da die meisten Menschen hinter diese Fassade blicken werden.
Auch wenn hinter dem Bot keine echten Gefühle stecken, könnten Risiken entstehen, wenn mit den Emotionen der Nutzer gespielt wird. OpenAI und Hume haben Gremien und ethische Richtlinien etabliert, um sicherzustellen, dass die Entwicklung und Bereitstellung dieser Technologie verantwortungsvoll erfolgt. Dies ist von großer Bedeutung, um die Sicherheit und das Vertrauen der Nutzer in solche Systeme zu gewährleisten, während die emotionale Intelligenz der Maschinen weiterentwickelt wird.