Alles, was Sie über das Erstellen von Sprachbenutzeroberflächen wissen möchten

Veröffentlicht: 2022-03-10
Kurze Zusammenfassung ↬ Das Erstellen von Voice User Interfaces erfordert viel Design-Know-how in verschiedenen Bereichen wie Conversation Design, Interaction Design, Visual und Motion Design. Dieser Artikel behandelt die kritischsten Aspekte beim Entwerfen von Sprachbenutzeroberflächen – das Entwerfen der Konversation und das Entwerfen visueller Schnittstellen.

Die Stimme ist ein mächtiges Werkzeug, mit dem wir miteinander kommunizieren können. Menschliche Gespräche inspirieren Produktdesigner dazu, Voice User Interfaces (VUI) zu erstellen, eine Benutzerschnittstelle der nächsten Generation, die Benutzern die Möglichkeit gibt, mit Maschinen in ihrer natürlichen Sprache zu interagieren.

Die Idee, eine Maschine durch einfaches Sprechen zu steuern, war lange Zeit Science-Fiction. Am bekanntesten ist vielleicht, dass Stanley Kubrick 1968 einen Film mit dem Titel 2001: Odyssee im Weltraum veröffentlichte, in dem der zentrale Antagonist kein Mensch war. HAL 9000 war eine ausgeklügelte künstliche Intelligenz, die durch Sprache gesteuert wurde.

HAL 9000, ein Sprachassistent aus dem Film „2001: Odyssee im Weltraum“. (Video auf YouTube ansehen)

Seitdem haben die Fortschritte in der Verarbeitung natürlicher Sprache und beim maschinellen Lernen den Produktentwicklern geholfen, weniger mörderische Sprachbenutzeroberflächen in verschiedenen Produkten einzuführen – von Mobiltelefonen bis hin zu intelligenten Haushaltsgeräten und Autos.

Eine kurze Geschichte der Sprachschnittstellen

Wenn wir in die reale Welt zurückkehren und die Entwicklung von VUI analysieren, ist es möglich, drei Generationen von VUIs zu definieren. Die erste Generation von VUI stammt aus den 1950er Jahren. 1952 baute Bell Labs ein System namens Audrey. Das System leitete seinen Namen von seiner Fähigkeit ab, Ziffern zu decodieren – Automatische Ziffernerkennung. Aufgrund der technischen Einschränkungen konnte das System nur die gesprochenen Zahlen von „0“ bis „9“ erkennen. Dennoch hat Audrey bewiesen, dass VUIs gebaut werden können.

Bell Labs Audrey mit Eingabe- und Ausgabesteuerung.
1952 Bell Labs Audrey. Das Foto zeigt nur Eingangs- und Ausgangssteuerungen, aber keine unterstützende Elektronik. (Bildnachweis: Computerhistory) (Große Vorschau)

Die zweite Generation von VUIs stammt aus den 1980er und 1990er Jahren. Es war die Ära der Interactive Voice Response (IVR). Eines der ersten IVRs wurde 1984 von Speechworks und Nuance hauptsächlich für die Telefonie entwickelt und revolutionierte das Geschäft. Zum ersten Mal in der Geschichte konnte ein digitales System menschliche Voice-Over-Anrufe erkennen und die ihnen übertragenen Aufgaben ausführen. Es war möglich, den Status Ihres Fluges abzurufen, eine Hotelbuchung vorzunehmen, Geld zwischen Konten zu überweisen, indem Sie nichts weiter als ein normales Festnetztelefon und die menschliche Stimme verwendeten.

Was ist IVR? (Video-Credits: YouTube)

Die dritte (und aktuelle) Generation von VUIs begann im zweiten Jahrzehnt des 21. Jahrhunderts Fuß zu fassen. Der entscheidende Unterschied zwischen der 2. und 3. Generation besteht darin, dass Sprache mit KI-Technologie gekoppelt wird. Intelligente Assistenten wie Apple Siri, Google Assistant und Microsoft Cortana können verstehen, was der Benutzer sagt, und bieten passende Optionen an. Diese Generation von VUIs ist in verschiedenen Produkttypen erhältlich – von Mobiltelefonen bis hin zu Mensch-Maschine-Schnittstellen (HMIs) im Auto. Sie werden schnell zur Norm.

Stimme gekoppelt mit KI-Technologie. (Bildnachweis: Gleb Kuznetsov)
Mehr nach dem Sprung! Lesen Sie unten weiter ↓

Sechs grundlegende Eigenschaften des VUI-Designs

Bevor wir zu konkreten Designempfehlungen übergehen, ist es wichtig, die Grundprinzipien eines guten VUI-Designs zu erläutern.

1. Voice-First-Design

Sie müssen freihändige und augenfreie Benutzeroberflächen entwerfen. Auch wenn ein VUI-Gerät über einen Bildschirm verfügt, sollten wir immer auf Voice-First-Interaktionen ausgelegt sein. Während der Bildschirm die Sprachinteraktion ergänzen kann, sollte der Benutzer in der Lage sein, die Operation mit minimalem oder gar keinem Blick auf den Bildschirm abzuschließen.

Natürlich werden einige Aufgaben ineffizient oder unmöglich, sie allein per Sprache zu erledigen. Beispielsweise kann es mühsam sein, die Benutzer zu bitten, per Sprache zuzuhören und durch die Suchergebnisse zu blättern. Sie sollten jedoch vermeiden, eine Aktion zu erstellen, die darauf angewiesen ist, dass Benutzer nur mit einem Bildschirm interagieren. Wenn Sie eine dieser Aufgaben entwerfen, müssen Sie eine Erfahrung in Betracht ziehen, bei der Ihre Benutzer mit der Sprache beginnen und dann zu einer visuellen oder Touch-Oberfläche wechseln.

2. Natürliche Konversation

Die Interaktion mit VUI sollte sich nicht wie eine Interaktion mit einem Roboter anfühlen. Der Konversationsfluss sollte benutzerzentriert sein (ähnlich einer natürlichen menschlichen Konversation). Der Benutzer sollte sich keine bestimmten Sätze merken müssen, um das System dazu zu bringen, das zu tun, was er tun möchte.

Es ist wichtig, Alltagssprache zu verwenden und die Benutzer einzuladen, Dinge so zu sagen, wie sie es normalerweise tun. Wenn Sie feststellen, dass Sie Befehle erklären müssen, ist dies ein klarer Hinweis darauf, dass etwas mit Ihrem Design nicht stimmt und Sie zum Reißbrett zurückkehren und es neu entwerfen müssen.

3. Personalisierung

Personalisierung ist mehr als nur „Willkommen zurück, %username%“ zu sagen. Bei der Personalisierung geht es darum, die wahren Bedürfnisse und Wünsche der Benutzer zu kennen und Informationen an sie anzupassen. VUI gibt Produktdesignern eine einzigartige Möglichkeit, die gesamte Interaktion des Benutzers zu individualisieren. Das System sollte in der Lage sein, neue und wiederkehrende Benutzer zu erkennen, Benutzerprofile zu erstellen und die Informationen, die das System sammelt, darin zu speichern. Je mehr das System über Benutzer erfährt, desto personalisiertere Erfahrungen sollte es bieten. Produktdesigner müssen entscheiden, welche Arten von Informationen von Benutzern gesammelt werden sollen, um das Erlebnis zu personalisieren.

4. Tonfall

Sprache ist mehr als nur ein Interaktionsmedium. In wenigen Sekunden hören wir auf die Stimme der anderen Person; Wir hinterlassen einen Eindruck bei dieser Person – ein Gefühl für Geschlecht, Alter, Bildung, Intelligenz, Vertrauenswürdigkeit und viele andere Eigenschaften. Wir tun es intuitiv, indem wir einfach auf eine Stimme hören. Aus diesem Grund ist es wichtig, Ihrer VUI eine Persönlichkeit zu verleihen – erstellen Sie die richtige Markenpersönlichkeit, die den Markenwerten entspricht. Eine gute Persönlichkeit ist spezifisch genug, um eine einzigartige Stimme und Persönlichkeit hervorzurufen.

Erstellen Sie einen Marken-Persona-Vortrag von Wally Brill. (Video-Credits: Google)

5. Nutzungskontext

Sie müssen verstehen, wo und wie das sprachaktivierte Produkt verwendet wird. Wird es von einer Person verwendet oder von vielen Personen geteilt? Im öffentlichen oder privaten Bereich? Wie laut ist die Umgebung? Der Nutzungskontext wirkt sich auf viele Produktdesign-Entscheidungen aus, die Sie treffen werden.

6. Vertrauensgefühl

Vertrauen ist ein grundlegendes Prinzip für eine gute Benutzererfahrung – Benutzerengagement basiert auf Vertrauen. Eine gute Interaktion mit dem Voice User Interface sollte immer zum Aufbau von Vertrauen führen.

Hier sind einige Dinge, die Produktdesigner tun können, um dieses Ziel zu erreichen:

  • Teilen Sie niemals private Daten mit anderen.
    Achten Sie darauf, vertrauliche Daten wie medizinische Daten zu verbalisieren, da Benutzer möglicherweise nicht allein sind.
  • Vermeiden Sie anstößige Inhalte.
    Führen Sie anstößige oder heikle Änderungen nach Alter und Region/Land ein.
  • Versuchen Sie, rein werbliche Inhalte zu vermeiden.
    Erwähnen Sie Produkte oder Markennamen nicht aus dem Kontext heraus, da Benutzer dies als Werbeinhalt wahrnehmen könnten.

Designempfehlungen

Bei der Gestaltung von VUI lassen sich zwei Hauptbereiche definieren:

  1. Gesprächsdesign
  2. Visuelle Gestaltung

1. Gestaltung des Gesprächs

Der wesentliche Unterschied zwischen GUI und VUI ist auf den ersten Blick das Interaktionsmedium. In GUI verwenden wir eine Tastatur, Maus oder einen Touchscreen, während wir für VUI Sprache verwenden. Wenn wir jedoch genauer hinschauen, werden wir sehen, dass der grundlegende Unterschied zwischen den beiden Arten von Schnittstellen ein Interaktionsmodell ist. Mit der Stimme können Benutzer einfach fragen, was sie wollen, anstatt zu lernen, wie man durch die App navigiert und ihre Funktionen lernt. Wenn wir für Sprache entwerfen, entwerfen wir Gesprächsinteraktionen.

Erfahren Sie mehr über Ihre Benutzer

Gespräche mit einem Computer sollten sich nicht unangenehm anfühlen. Benutzer sollten in der Lage sein, mit einer Sprachbenutzeroberfläche so zu interagieren, wie sie es mit einer anderen Person tun würden. Aus diesem Grund sollte der Prozess des Konversationsdesigns immer damit beginnen, etwas über die Benutzer zu erfahren. Sie müssen Antworten auf die folgenden Fragen finden:

  • Wer sind Ihre Benutzer?
    (Demographie, psychologisches Porträt)
  • Wie sind sie mit sprachbasierten Interaktionen vertraut? Verwenden sie derzeit Sprachprodukte?
    (Niveau der technischen Expertise)

Verstehen Sie den Problemraum und definieren Sie die wichtigsten Anwendungsfälle

Wenn Sie wissen, wer Ihre Benutzer sind, müssen Sie ein tiefes Verständnis für Benutzerprobleme entwickeln. Was sind ihre Ziele? Erstellen Sie Empathiekarten, um die wichtigsten Schmerzpunkte der Benutzer zu identifizieren. Sobald Sie den Problembereich verstehen, wird es Ihnen leichter fallen, Funktionen zu antizipieren, die Benutzer wünschen, und spezifische Anwendungsfälle zu definieren. (Was kann ein Benutzer mit dem Sprachsystem machen?)

Denken Sie sowohl an das Problem, das Ihr Benutzer zu lösen versucht, als auch daran, wie die Sprachbenutzeroberfläche dem Benutzer helfen kann, dieses Problem zu lösen. Hier sind ein paar Fragen, die Ihnen dabei helfen können:

  • Was sind die Aufgaben des Key-Users? (Erfahren Sie mehr über die Bedürfnisse/Wünsche der Benutzer.)
  • Welche Situationen lösen diese Aufgaben aus? (In welchem ​​Kontext Benutzer mit dem System interagieren.)
  • Wie erledigen Benutzer diese Aufgaben heute? (Was ist die User Journey?)

Es ist auch wichtig sicherzustellen, dass eine Sprachbenutzeroberfläche die richtige Lösung für das Benutzerproblem ist. Beispielsweise kann die Sprachbenutzeroberfläche gut für die Suche nach einem Restaurant in der Nähe funktionieren, während Sie unterwegs sind, aber es kann sich für Aufgaben wie das Durchsuchen von Restaurantbewertungen unhandlich anfühlen.

Dialogablauf schreiben

Im Kern geht es beim Konversationsdesign um den Gesprächsfluss. Der Dialogfluss sollte kein nachträglicher Einfall sein; Stattdessen sollte es das erste sein, was Sie erstellen, da es sich auf die Entwicklung auswirkt.

Hier sind einige Tipps zum Erstellen einer Grundlage für Ihren Dialogablauf:

  • Beginnen Sie mit einem Beispieldialog, der den glücklichen Weg darstellt.
    Der glückliche Weg ist der einfachste Weg zum Erfolg, dem ein Benutzer folgen kann. Versuchen Sie in diesem Schritt nicht, den Beispieldialog perfekt zu machen.
  • Konzentrieren Sie sich auf das gesprochene Gespräch.
    Versuchen Sie, Situationen zu vermeiden, in denen Sie Dialoge anders schreiben, als die Leute ihn sprechen. Dies führt normalerweise zu gut strukturierten, aber längeren und formelleren Dialogen. Wenn Menschen eine bestimmte Aufgabe lösen wollen, sind sie eher auf den Punkt gebracht, wenn sie sprechen.
  • Lesen Sie einen Beispieldialog laut vor, um sicherzustellen, dass er natürlich klingt.
    Idealerweise sollten Sie Personen einladen, die nicht zum Designteam gehören, und Feedback einholen.

Der Beispieldialog hilft Ihnen, den Kontext der Konversation (wann, wo und wie der Benutzer die Sprachschnittstelle auslöst) und die üblichen Äußerungen und Antworten zu identifizieren.

Nachdem Sie mit dem Schreiben von Beispieldialogen fertig sind, müssen Sie als Nächstes verschiedene Pfade hinzufügen (berücksichtigen Sie, wie das System in zahlreichen Situationen reagiert, fügen Sie Wendungen in Gesprächen hinzu usw.). Das bedeutet nicht, dass Sie alle möglichen Variationen in Dialogen berücksichtigen müssen. Berücksichtigen Sie das Pareto-Prinzip (80 % der Benutzer folgen den häufigsten 20 % der möglichen Pfade in einer Diskussion) und definieren Sie die wahrscheinlichsten logischen Pfade, die ein Benutzer einschlagen kann.

Prinzipien der Gesprächsgestaltung. (Video-Credits: Google)

Es wird auch empfohlen, einen Konversationsdesigner einzustellen – einen Fachmann, der Ihnen helfen kann, natürliche und intuitive Konversationen für Benutzer zu erstellen.

Design für die menschliche Sprache

Je mehr eine Schnittstelle menschliche Konversation nutzt, desto weniger Benutzer müssen in ihrer Verwendung geschult werden. Investieren Sie in die Benutzerforschung und lernen Sie das Vokabular Ihrer echten oder potenziellen Benutzer. Versuchen Sie, dieselben Ausdrücke und Sätze in der Antwort des Systems zu verwenden. Es wird eine benutzerfreundlichere Konversation schaffen.

  • Lehren Sie keine Befehle.
    Lassen Sie die Benutzer in ihren eigenen Worten sprechen.
  • Vermeiden Sie Fachjargon.
    Ermöglichen Sie Benutzern die natürliche Interaktion mit dem System, indem sie die von ihnen bevorzugten Ausdrücke verwenden.

Der Benutzer beginnt immer das Gespräch

Egal wie ausgefeilt das sprachbasierte System ist, es sollte niemals das Gespräch beginnen. Es wird unangenehm, wenn das System den Benutzer mit einem Thema erreicht, das er nicht diskutieren möchte.

Vermeiden Sie lange Antworten

Berücksichtigen Sie beim Entwerfen von Systemreaktionen immer eine kognitive Belastung. VUI-Benutzer lesen nicht, sie hören zu, und je länger Sie Systemantworten geben, desto mehr Informationen müssen sie in ihrem Arbeitsgedächtnis behalten. Einige dieser Informationen sind möglicherweise für den Benutzer nicht verwendbar, aber es gibt keine Möglichkeit, Antworten vorzuspulen, um vorwärts zu springen.

Lassen Sie jedes Wort zählen und gestalten Sie es für kurze Gespräche. Wenn Sie Systemantworten skripten, lesen Sie sie laut vor. Die Länge ist wahrscheinlich gut, wenn Sie die Wörter in einem Gesprächstempo mit einem Atemzug sagen können. Wenn Sie einen zusätzlichen Atemzug brauchen, schreiben Sie die Antworten neu und reduzieren Sie die Länge.

Minimieren Sie die Anzahl der Optionen in Systemeingabeaufforderungen

Es ist auch möglich, die kognitive Belastung zu minimieren, indem die Anzahl der Optionen, die Benutzer hören, reduziert wird. Wenn Benutzer nach einer Empfehlung fragen, sollte das System im Idealfall sofort die bestmögliche Option anbieten. Wenn dies nicht möglich ist, versuchen Sie, die drei bestmöglichen Optionen anzubieten und die relevanteste zuerst zu verbalisieren.

Bieten Sie endgültige Auswahlmöglichkeiten

Vermeiden Sie offene Fragen in Systemantworten. Sie können dazu führen, dass Benutzer auf eine Weise antworten, die das System nicht erwartet oder unterstützt. Wenn Sie beispielsweise eine Vorstellungsaufforderung entwerfen, sagen Sie nicht „Hallo, ihr Unternehmen ACME, was möchten Sie tun?“. Sie sollten sagen: „Hallo, seine Firma ACME, Sie können [Option A], [Option B] oder [Option C] tun.“

Fügen Sie Pausen zwischen der Frage und den Optionen hinzu

Pausen und Satzzeichen ahmen den tatsächlichen Sprachrhythmus nach und sind in Situationen von Vorteil, in denen das System eine Frage stellt und einige Optionen zur Auswahl anbietet.

Fügen Sie nach dem Stellen der Frage eine Pause von 500 Millisekunden ein. Diese Pause gibt den Benutzern genügend Zeit, um die Frage zu verstehen.

Geben Sie den Benutzern Zeit zum Nachdenken

Wenn das System den Benutzer etwas fragt, muss er möglicherweise über die Beantwortung der Frage nachdenken. Das Standardzeitlimit für Benutzer zum Antworten auf die Anfrage beträgt 8–10 Sekunden. Nach dieser Zeitüberschreitung sollte das System die Anforderung wiederholen oder erneut anfordern. Angenommen, ein Benutzer reserviert einen Tisch in einem Restaurant. Der Beispieldialog könnte so klingen:

Benutzer : "Assistent, ich möchte ins Restaurant gehen."

System : „Wo möchten Sie hin?“

(Keine Antwort für 8 Sekunden)

System : „Ich kann Ihnen einen Tisch in einem Restaurant reservieren. Welches Restaurant möchten Sie besuchen?”

Fordern Sie bei Bedarf weitere Informationen an

Es ist ziemlich üblich, dass Benutzer etwas anfordern, aber nicht genügend Details angeben. Wenn Benutzer beispielsweise den Sprachassistenten bitten, eine Reise zu buchen, sagen sie möglicherweise etwas wie „Assistent, buche eine Reise zur See“. Der Benutzer geht davon aus, dass das System sie kennt und die bestmögliche Option anbietet. Wenn das System nicht über genügend Informationen zur Verwendung verfügt, sollte es nach weiteren Informationen fragen, anstatt eine Option anzubieten, die möglicherweise nicht relevant ist.

Benutzer : "Ich möchte einen Ausflug an die Küste buchen."

System : „Wann möchten Sie gehen?“

Stellen Sie niemals rhetorische oder offene Fragen

Indem Sie rhetorische oder offene Fragen stellen, setzen Sie den Benutzern eine hohe kognitive Belastung aus. Stellen Sie stattdessen direkte Fragen. Anstatt den Benutzer beispielsweise zu fragen: „Was möchten Sie mit Ihrer Einladung machen?“ Sie sollten sagen: „Sie können Ihre Einladung stornieren oder verschieben. Was funktioniert für Sie?“

Lassen Sie die Leute nicht schweigend warten

Wenn Leute kein Feedback vom System hören/sehen, denken sie vielleicht, dass es nicht funktioniert. Manchmal benötigt das System mehr Zeit, um mit der Benutzeranfrage fortzufahren, aber das bedeutet nicht, dass Benutzer in absoluter Stille/ohne visuelles Feedback warten sollten. Zumindest sollten Sie ein Vorhörsignal anbieten und es mit visuellem Feedback kombinieren.

visuelles Feedback von mazon Echo
Visuelles Feedback von Amazon Echo. (Bildnachweis: Tenor)

Benutzerdateneingabe minimieren

Versuchen Sie, die Anzahl der Fälle zu reduzieren, in denen Benutzer Telefonnummern, Straßenadressen oder alphanumerische Passwörter angeben müssen. Es kann für Benutzer schwierig sein, dem Sprachsystem Zahlenfolgen oder detaillierte Informationen mitzuteilen. Dies gilt insbesondere für Benutzer mit Sprachbehinderungen. Bieten Sie alternative Methoden zur Eingabe dieser Art von Informationen an, z. B. die Verwendung der begleitenden mobilen App.

Unterstützungswiederholung

Unabhängig davon, ob Benutzer das System in einer lauten Umgebung verwenden oder nur Probleme haben, die Frage zu verstehen, sollten sie das System jederzeit bitten können, die letzte Aufforderung zu wiederholen.

Erkennbarkeit von Funktionen

Die Auffindbarkeit von Funktionen kann ein massives Problem bei sprachbasierten Schnittstellen sein. In der GUI haben Sie einen Bildschirm, den Sie verwenden können, um neue Funktionen zu präsentieren, während Sie in Sprachbenutzeroberflächen diese Option nicht haben.

Hier sind zwei Techniken, die Sie verwenden können, um die Auffindbarkeit zu verbessern:

  • Solides Onboarding. Ein Erstbenutzer muss in das System einsteigen, um seine Funktionen zu verstehen. Machen Sie es praktisch – lassen Sie Benutzer einige Aktionen mit Sprachbefehlen ausführen.
  • Bei der ersten Begegnung mit einer bestimmten Voice-App möchten Sie vielleicht besprechen, was möglich ist.

Benutzeranfragen bestätigen

Menschen genießen ein Gefühl der Anerkennung. Lassen Sie den Benutzer also wissen, dass das System ihn hört und versteht. Es ist möglich, zwei Arten von Bestätigungen zu definieren – implizite und explizite Bestätigung.

Für risikoreiche Aufgaben wie Geldtransfers sind ausdrückliche Bestätigungen erforderlich. Diese Bestätigungen erfordern die mündliche Zustimmung des Benutzers, um fortzufahren.

Benutzer : „Überweisen Sie Alice 1000 Dollar.“

System : „Sie wollen Alice Young tausend Dollar überweisen, richtig?“

Gleichzeitig erfordert nicht jede Aktion die Bestätigung des Benutzers. Wenn ein Benutzer beispielsweise darum bittet, die Musikwiedergabe zu stoppen, sollte das System die Wiedergabe beenden, ohne zu fragen: „Möchten Sie die Musik stoppen?“.

Gehen Sie mit Fehlern elegant um

Es ist fast unmöglich, Fehler bei der Sprachinteraktion zu vermeiden. Locker gehandhabte Fehlerzustände können den Eindruck eines Benutzers vom System beeinträchtigen. Unabhängig davon, was den Fehler verursacht hat, ist es wichtig, ihn mit Anstand zu handhaben, was bedeutet, dass der Benutzer eine positive Erfahrung bei der Verwendung eines Systems machen sollte, selbst wenn er mit einer Fehlerbedingung konfrontiert wird.

  • Minimieren Sie die Anzahl der „Ich verstehe Sie nicht“-Situationen.
    Vermeiden Sie Fehlermeldungen, die nur besagen, dass Sie den Benutzer nicht richtig verstanden haben. Ein gut gestalteter Dialogablauf sollte alle möglichen Dialogverzweigungen berücksichtigen, einschließlich Verzweigungen mit falscher Benutzereingabe.
  • Führen Sie einen Mechanismus kontextbezogener Reparaturen ein.
    Helfen Sie der Systemsituation, wenn etwas Unerwartetes passiert, während der Benutzer spricht. Beispielsweise konnte das Spracherkennungssystem den Benutzer aufgrund der lauten Geräusche im Hintergrund nicht hören.
  • Sagen Sie deutlich, was das System nicht kann.
    Wenn Benutzer mit Fehlermeldungen wie „Ich kann Sie nicht verstehen“ konfrontiert werden, beginnen sie zu überlegen, ob das System etwas nicht kann, oder sie formulieren die Anfrage falsch. Es wird empfohlen, in Situationen, in denen das System etwas nicht tun kann, eine explizite Antwort zu geben. Zum Beispiel: „Das kann ich leider nicht. Aber ich kann Ihnen mit [Option] helfen.“
  • Korrekturen akzeptieren.
    Manchmal nehmen Benutzer Korrekturen vor, wenn sie wissen, dass das System etwas falsch gemacht hat, oder wenn sie sich entschieden haben, ihre Meinung zu ändern. Wenn Benutzer ihre Eingabe korrigieren möchten, sagen sie etwas wie „Nein“ oder „Ich sagte“, gefolgt von einer gültigen Äußerung.

Testen Sie Ihre Dialoge

Je früher Sie mit dem Testen Ihres Gesprächsflusses beginnen, desto besser. Beginnen Sie im Idealfall mit dem Testen und Iterieren Ihrer Designs, sobald Sie Beispieldialoge haben. Das Sammeln von Feedback während des Designprozesses deckt Usability-Probleme auf und ermöglicht es Ihnen, das Design frühzeitig zu korrigieren.

Der beste Weg, um zu testen, ob Ihr Dialog funktioniert, besteht darin, ihn nachzuspielen. Sie können Techniken wie Wizard of Oz verwenden, bei denen eine Person vorgibt, ein System und die andere ein Benutzer zu sein. Sobald Sie anfangen, das Skript zu üben, werden Sie feststellen, ob es gut oder schlecht klingt, wenn es laut gesprochen wird.

Denken Sie daran, dass Sie verhindern sollten, dass Personen nonverbale Hinweise weitergeben. Wenn wir mit anderen Menschen interagieren, verwenden wir normalerweise nonverbale Sprache (Augenblick, Körpersprache). Nonverbale Hinweise sind äußerst wertvoll für die Übermittlung von Informationen, aber leider können VUIs-Systeme sie nicht verstehen. Versuchen Sie beim Testen Ihrer Dialoge, die Testteilnehmer Rücken an Rücken zu sitzen, um Augenkontakt zu vermeiden.

Der nächste Teil des Testens besteht darin, das reale Benutzerverhalten zu beobachten. Idealerweise beobachten Sie Nutzer, die Ihr Produkt zum ersten Mal verwenden. Es wird Ihnen helfen zu verstehen, was funktioniert und was nicht. Das Testen mit 5 Teilnehmern wird Ihnen helfen, die meisten Ihrer Usability-Probleme aufzudecken.

2. Visuelles Design

Ein Bildschirm spielt bei Sprachinteraktionen eine untergeordnete Rolle. Dennoch ist es wichtig, einen visuellen Aspekt der Benutzerinteraktion zu berücksichtigen, da hochwertige visuelle Erlebnisse einen besseren Eindruck bei den Benutzern hinterlassen. Außerdem eignen sich visuelle Elemente gut für bestimmte Aufgaben wie das Scannen und Vergleichen von Suchergebnissen. Das ultimative Ziel ist es, ein angenehmeres und ansprechenderes multimodales Erlebnis zu gestalten.

Design zuerst für kleinere Bildschirme

Wenn Sie Inhalte bildschirmübergreifend anpassen, beginnen Sie zuerst mit der kleinsten Bildschirmgröße. Es wird Ihnen helfen, die wichtigsten Inhalte zu priorisieren.

Skalieren Sie bei der Ausrichtung auf Geräte mit größeren Bildschirmen nicht nur den Inhalt. Versuchen Sie, den zusätzlichen Platz auf dem Bildschirm voll auszunutzen. Achten Sie auf die Qualität von Bildern und Videos – Bilder sollten ihre Qualität nicht verlieren, wenn sie vergrößert werden.

Optimieren Sie Inhalte für schnelles Scannen

Wie bereits erwähnt, sind Bildschirme sehr praktisch, wenn Sie einige Vergleichsoptionen bereitstellen müssen. Unter allen Inhaltscontainern, die Sie verwenden können, eignen sich Karten am besten für schnelles Scannen. Wenn Sie eine Liste mit Optionen zur Auswahl bereitstellen müssen, können Sie jede Option auf die Karte setzen.

Nest Hub verwendet Karten
Nest Hub verwendet Karten als Inhaltscontainer. (Bildnachweis: Google) (Große Vorschau)

Design mit Blick auf einen bestimmten Betrachtungsabstand

Gestalten Sie Inhalte so, dass sie aus der Ferne betrachtet werden können. Die Sichtweite von sprachgesteuerten Geräten mit kleinen Bildschirmen sollte zwischen 1 und 2 Metern liegen, während sie bei großen Bildschirmen wie Fernsehern 3 Meter betragen sollte. Sie müssen sicherstellen, dass die Schriftgröße und die Größe der Bilder und UI-Elemente, die Sie auf dem Bildschirm anzeigen, für Benutzer angenehm sind.

Google empfiehlt die Verwendung einer Mindestschriftgröße von 32 pt für primären Text wie Titel und von mindestens 24 pt für sekundären Text wie Beschreibungen oder Textabsätze.

Auf dem Bild steht Echo Show auf einem Küchentisch neben einem Schneidebrett mit etwas Essen darauf.
Ein typischer Nutzungskontext für Echo Show, das Voice-First-Gerät von Amazon. (Bildnachweis: Amazon) (Große Vorschau)

Informieren Sie sich über die Erwartungen der Benutzer an ein bestimmtes Gerät

Sprachfähige Geräte können von fahrzeuginternen Geräten bis hin zu TV-Geräten reichen. Jeder Gerätemodus hat seinen eigenen Verwendungskontext und eine Reihe von Benutzererwartungen. Zum Beispiel werden Home-Hubs typischerweise für Musik, Kommunikation und Unterhaltung verwendet, während Systeme im Auto typischerweise für Navigationszwecke verwendet werden.

Weiterführende Literatur : Gestaltung von Mensch-Maschine-Schnittstellen für Fahrzeuge der Zukunft

Informationshierarchie auf Bildschirmen

Wenn wir Website-Seiten entwerfen, beginnen wir normalerweise mit der Seitenstruktur. Beim Entwerfen für VUI sollte ein ähnlicher Ansatz verfolgt werden – entscheiden Sie, wo sich jedes Element befinden soll. Die Informationshierarchie sollte vom Wichtigsten zum Unwichtigsten gehen. Versuchen Sie, die Informationen, die Sie auf dem Bildschirm anzeigen, zu minimieren – nur erforderliche Informationen, die Benutzern helfen, das zu tun, was sie tun möchten.

Klare visuelle Informationshierarchie auf dem Portal, Voice-First-Gerät von Sber.
Klare visuelle Informationshierarchie auf dem Portal, Voice-First-Gerät von Sber. (Bildnachweis: Sber) (Große Vorschau)

Halten Sie Bild und Stimme synchron

Es sollte keine signifikante Verzögerung zwischen Sprach- und visuellen Elementen geben. Die grafische Benutzeroberfläche sollte wirklich reaktionsschnell sein – direkt nachdem der Benutzer die Sprachansage hört; Die Benutzeroberfläche sollte mit relevanten Informationen aktualisiert werden.

Bewegungssprache spielt eine wichtige Rolle dabei, wie Benutzer Informationen verstehen. Es gilt, harte Schnitte zu vermeiden und fließende Übergänge zwischen einzelnen Zuständen zu verwenden. Wenn Benutzer sprechen, sollten wir auch visuelles Feedback geben, das bestätigt, dass das System dem Benutzer zuhört.

Klare Informationshierarchie des Sprachdateimanagers. (Bildnachweis: Gleb Kuznetsov)

Zugängliches Design

Ein gut gestaltetes Produkt ist inklusiv und allgemein zugänglich. Benutzer mit Sehbehinderung (Menschen mit Behinderungen wie Blindheit, Sehbehinderung und Farbenblindheit) sollten keine Probleme haben, mit Ihrem Produkt zu interagieren. Um Ihr Design zugänglich zu machen, befolgen Sie die WCAG-Richtlinien.

  • Stellen Sie sicher, dass der Text auf dem Bildschirm lesbar ist. Stellen Sie sicher, dass Ihr Text ein ausreichend hohes Kontrastverhältnis hat. Die Textfarbe und der Kontrast entsprechen AAA-Verhältnissen.
  • Benutzer, die sich auf Screenreader verlassen, sollten verstehen, was auf den Bildschirmen angezeigt wird. Fügen Sie Beschreibungen zu Bildern hinzu.
  • Entwerfen Sie keine Bildschirmelemente, die flackern, blinken oder blinken. Im Allgemeinen kann alles, was mehr als drei Blitze pro Sekunde blinkt, Benutzern Kopfschmerzen durch Reisekrankheit verursachen.

Verwandte Lektüre : Wie ein Screenreader-Benutzer auf das Web zugreift

Fazit

Wir stehen am Beginn der nächsten digitalen Revolution. Die nächste Generation von Computern wird Benutzern eine einzigartige Gelegenheit bieten, mit Sprache zu interagieren. Aber der Grundstein für diese Generation wird heute gelegt. Es liegt an den Designern, Systeme zu entwickeln, die für Benutzer selbstverständlich sind.

Empfohlene verwandte Lektüre

  • „Alexa Design Guide“, Amazon-Entwicklerdokumentation
  • „Conversation Design Process“, Google Assistant Docs
  • „Gestaltung von Sprachbenutzeroberflächen: Prinzipien der Gesprächserfahrung“, Cathy Pearl (2017)
  • „Eingebaute Konversations-Hacks auf Ihre Voice-UI anwenden“, James Giangola (Video)
  • „Erstellen einer Persona: Wie klingt Ihr Produkt? “, Wally Brill (Video)
  • „Voice Principles“, eine Sammlung von Ressourcen, die von Clearleft erstellt wurde.