12.07.2024

Wie multimodale KI-Schnittstellen die Kundenbetreuung revolutionieren werden

Die nächste Evolution der Mensch-Maschine-Interaktion könnte zu einer echten, noch nie dagewesenen Synergie zwischen Mensch und Maschine führen - mit Customer Experience (CX) als offensichtlichem Nutznießer, schreibt Tvrtko Stosic von Avaya.

Grenzen überschreiten und neue multimediale Interaktionen erschließen

Traditionell interagieren die Menschen mit der Technik über strikte, genau definierte Befehle, die zur Erledigung eng umrissener Aufgaben verwendet werden. Im Kundendialog führte dies zu den traditionellen IVRs, bei denen die Kunden über Tonwahl-Benutzeroberflächen Befehle erteilten, um die gewünschten Informationen zu erhalten oder eine bestimmte Transaktion durchzuführen. 

So sehr sich die CX-Branche auch weiterentwickelt hat, so wenig hat sich diese traditionelle Art der Interaktion verändert. Wir haben gesehen, dass beeindruckende neue Technologien eingesetzt werden, aber die Art und Weise, in der sie eingesetzt werden, hat die meisten Arbeitsabläufe an veraltete Technologie-Schnittstellen gefesselt.

Emotionen erkennen und nutzen

Die gute Nachricht ist, dass sich dies mit dem Aufkommen multimodaler generativer KI-Schnittstellen ändern könnte, die nicht nur Eingaben über verschiedene Modalitäten hinweg verstehen und daraus Absichten ableiten können, sondern auch Inhalte und Ergebnisse über diese Modalitäten hinweg generieren.

Warum ist das nützlich? Schauen wir uns das Problem am Beispiel der konversationellen KI an. Diese Technologie versprach ein neues Paradigma, bei dem die Kunden einfach ihre Absicht ausdrücken können, ohne jedes einzelne Detail über das Erreichen eines gewünschten Ergebnisses anzugeben. Die Sprach- oder Chatbot-Lösung wird diese Absicht erkennen und die entsprechende Aufgabe erledigen. Aus der CX-Perspektive bedeutet dies, dass die Notwendigkeit einer komplexen Navigation durch IVR-Bäume entfällt, was zweifellos vorzuziehen ist.

Aufgrund ihres oft starren, skriptbasierten Charakters und ihrer Abhängigkeit von vorkonfigurierten Szenarien hat die konversationelle KI allein jedoch nicht die Erwartungen erfüllt, die viele in sie gesetzt hatten, um den Aufwand für den Kunden zu reduzieren und die Erfahrungen zu verbessern. Tatsächlich ist sie in den meisten Fällen nur eine weitere befehlsbasierte Technologie geworden, die den hohen Aufwand und die schlechten Praktiken, die mit traditionellen IVRs verbunden sind, widerspiegelt.

Der nächste Schritt der Gen-AI

Mit dem Aufkommen der generativen KI sahen wir die Hoffnung auf dramatische Verbesserungen der Kundenzufriedenheit in Bezug auf den Self-Service: Die spektakulären Konversationsfähigkeiten und die Fähigkeit, mit komplexen Problemen umzugehen, können die Kundengespräche mit Sprach- und Chatbots endlich menschlicher machen. Und es löst definitiv das Problem der Absicht - wenn auch nur über Sprach- und Textkanäle.

Aber was wäre, wenn wir die Komplexität einer echten menschlichen Unterhaltung erreichen könnten - über viele verschiedene Ebenen und Modalitäten hinweg? Menschen kommunizieren nicht nur verbal, sondern auch mit Gesten, Gesichtsausdrücken, Augenbewegungen und vielem mehr. Generative KI kann in ihrer derzeitigen Form nicht mit der Komplexität dieser Art von Kommunikation mithalten, aber mit dem Aufkommen der multimodalen gen-AI könnten wir uns dem nähern.

Ein Blick in der Zukunft des KI-unterstützten Kundendialogs

Mit multimodalen LLMs werden sich herkömmliche Sprach- und Chat-Bots zu einer neuen Art von Benutzeroberfläche entwickeln - zu multimodalen Avataren für den Kundendialog. Ein KI-Avatar ist eine menschenähnliche virtuelle Persona, die mittels Text-zu-Video-Generierung erstellt wird. Avatare werden in der Lage sein, nicht nur Sprache oder Text zu verarbeiten, sondern auch Bilder, Gesten, Gesichtsausdrücke und Augenbewegungen. In Zukunft werden zusätzliche Fähigkeiten durch die Nutzung haptischer Geräte und bio-sensorischer Daten hinzukommen. Neben der Fähigkeit, entsprechende multimodale Ausgaben zu produzieren, werden Avatare auch in der Lage sein, simultane Zwei-Wege-Unterhaltungen zu führen - im Gegensatz zu den Anfrage-Antwort-basierten Interaktionen, die von traditionellen Bots angeboten werden.  

Multimodale Avatare werden aktuelle Bots in ihrem Verständnis der Absichten und Emotionen von Kunden dramatisch übertreffen, Mehrdeutigkeit reduzieren und Hyper-Personalisierung bieten - einschließlich der Fähigkeit, sich in den emotionalen Zustand des Kunden einzufühlen, und zwar nicht nur durch Worte und Phrasen, sondern auch durch Gesichtsausdruck, Körperhaltung, Anpassung der Sprache und mehr. Und User Interfaces (UIs), die von multimodaler KI angetrieben werden, werden nicht nur eine Revolution in kundenorientierten Funktionen erleben. Wir erwarten ähnliche Auswirkungen im Bereich der KI-gestützten Agentenassistenten, die bereits an Popularität gewinnen.

Was hier wirklich wichtig ist, ist, dass wir nicht über eine ferne Zukunft sprechen. Gartner geht davon aus, dass multimodale Benutzeroberflächen innerhalb der nächsten zwei Jahre zu einem Standardmerkmal für virtuelle Assistenten werden.

Multimodale Gen-AI in die Praxis umsetzen

Trotz dieser großartigen Möglichkeiten werden multimodale Benutzeroberflächen keine magische Lösung für alles sein - und Lösungen, die auf ihnen basieren, sind nicht ohne Risiken. Zum Beispiel würde die Implementierung einer sprachbasierten Benutzeroberfläche dazu führen, dass sie in überfüllten Umgebungen wie Flughäfen oder Großraumbüros nicht mehr nützlich ist. Darüber hinaus könnte die Leistung der multimodalen generativen KI die Kunden verwirren, indem sie eine menschenähnliche Leistung von Selbstbedienungslösungen erwartet - zum Beispiel, dass sie kritisch denken. Solche nicht realisierbaren Erwartungen können leicht zu Frustration, Vertrauensverlust und Schlimmerem führen. Darüber hinaus können mehr Modalitäten für Benutzereingaben mehr Datenquellen offenlegen. Natürlich kann dies die Fähigkeiten der Lösung verbessern, aber es erhöht auch die Risiken für den Datenschutz.

Fazit

Um diese Herausforderungen zu reduzieren, sollten Unternehmen die Anwendungsfälle sorgfältig auswählen, in denen multimodale Benutzeroberflächen das Kundenerlebnis deutlich verbessern können. In einigen Fällen können herkömmliche unimodale Benutzeroberflächen immer noch von Vorteil sein, so dass es sich lohnt, das Szenario in Betracht zu ziehen. Unternehmen sollten auch transparent über den Einsatz von multimodaler KI informieren und ihre Kunden über deren Möglichkeiten und Grenzen aufklären. Und es versteht sich von selbst, dass ein besonderes Augenmerk immer auf Sicherheit und Datenschutz gelegt werden sollte.

Auf einer tieferen strategischen Ebene könnten die erfolgreichsten multimodalen KI-Einsätze auf einem gründlichen Verständnis der menschlichen Interaktion beruhen. Das bedeutet, dass tiefgreifende Kenntnisse in Verhaltens-, Kognitions-, Psychologie- und Soziologiewissenschaften genutzt werden müssen, die sich als wichtiger erweisen könnten als Programmier- und andere IT-Kenntnisse.

Die Entwicklung der Mensch-Maschine-Interaktion von Befehlszeilenschnittstellen zu multimodalen Benutzeroberflächen könnte zu einer echten, noch nie dagewesenen Synergie zwischen Menschen und Maschinen führen - eine Beziehung mit geringem Aufwand, die menschenähnliche, einfühlsame und ergebnisorientierte Interaktionen ermöglicht. Wenn dies eintritt, ist CX der offensichtliche Nutznießer, und das Ergebnis wird nichts weniger als eine Revolution sein.  

Loading page...
Error: There was a problem processing your request.