Das Unsichtbare entwerfen: 3 Dinge, die ich beim Designen für die Stimme gelernt habe

Veröffentlicht: 2022-03-10

Kurze Zusammenfassung ↬ Es gibt Menschen auf der ganzen Welt, die alltägliche Aufgaben nicht ohne weiteres selbst erledigen können. Glücklicherweise können Entwickler und Designer helfen, indem sie mit Sprachtechnologie experimentieren, die sie befähigt, Aufgaben zu erledigen, die andere für selbstverständlich halten.

Die aktuelle Iteration sprachgesteuerter digitaler Assistenten hat immer noch Schwierigkeiten, sich so nahtlos zu integrieren, wie es die großen drei Voice-Player von Amazon, Google und Apple hoffen würden. Ein Bericht von Voicelabs aus dem Jahr 2017 besagt, dass es nur eine 3-prozentige Chance gibt, dass ein Benutzer in der zweiten Woche nach dem Herunterladen einer Sprachanwendung aktiv ist, und 62 Prozent der Fähigkeiten von Alexa müssen noch irgendeine Bewertung in seinem Store erhalten (Stand: September 2017).

Als Designer haben wir eine echte Chance, diesen Assistenten wertvolle Bedeutung zu verleihen, aber wir versuchen immer noch herauszufinden, wo die Technologie dem Benutzer echte Vorteile bringen kann. Für viele kann der Einstieg in ein Voice UI (VUI)-Projekt ein bisschen wie der Eintritt ins Unbekannte sein . Es gibt nur wenige Erfolgsgeschichten, von denen sich Designer oder Ingenieure inspirieren lassen könnten, insbesondere in Kontexten, die veranschaulichen, wie diese aufkommende Technologie Menschen helfen könnte, auf neue Weise erfolgreich zu sein.

Experimentieren mit `speechSynthesis`

Die Web Speech API gibt Ihnen die Möglichkeit, Ihre Website in zwei Richtungen sprachfähig zu machen: Ihren Benutzern über die SpeechRecognition -Schnittstelle zuzuhören und ihnen über die speechSynthesis -Schnittstelle zu antworten. All dies erfolgt über eine JavaScript-API, sodass der Support einfach getestet werden kann. Lesen Sie einen verwandten Artikel →

Als Teil der Big Life Fix-Dokumentationen von BBC2, in denen Erfinderteams neue und lebensverändernde Lösungen für Menschen in Not entwickeln, hatte ich die Gelegenheit, einen sprachgesteuerten Assistenten für eine Frau namens Susan zu testen und zu bauen. Susan lebt seit über 20 Jahren mit einer fortschreitenden Form der Multiplen Sklerose und ist nun nicht mehr in der Lage, alltägliche Aufgaben ohne weiteres selbst zu erledigen. Da sie Vollzeitpfleger ist, verlässt sie sich darauf, dass andere sie waschen und anziehen, und kann ohne Hilfe nicht einmal den Fernsehkanal wechseln.

Während die Sprachtechnologie den reibungslosesten Weg zur Überwindung von Susans körperlichen Schwierigkeiten zu bieten schien, hat Susan noch nie ein Smartphone benutzt, sodass es nie einfach sein würde, sie direkt in eine Interaktion mit einem Sprachassistenten zu treiben – wir mussten klug denken, um ihr zu helfen lernen, mit einer unglaublich fremden Technologie zu kommunizieren.

Mehr nach dem Sprung! Lesen Sie unten weiter ↓

Das Ergebnis für Susan ist ein hochgradig angepasster sprachgesteuerter Assistent, der es ihr jetzt ermöglicht, alltägliche Aufgaben mit der Freiheit zu erledigen, die andere für selbstverständlich halten – vom Telefonieren mit der Familie bis zum Musikhören. Susans Sprachassistent wurde als verbesserte Version der Amazon Alexa-Technologie auf ihrem Echo Dot-Gerät entwickelt und beinhaltete auch eine physische Anpassung, da wir ein Gehäuse in Form ihres Lieblingstiers, einer Eule, in 3D druckten.

Während wir schnell an einer Lösung für Susan experimentierten und iterierten, entdeckten mein Team und ich Dutzende von Feinheiten, die mit einem umfassenderen und zugänglicheren Design für Sprache einhergehen. Obwohl es sich um ein einzigartiges Projekt handelte, gab es drei wichtige Erkenntnisse, die für jedes VUI-Projekt gelten.

1. Machen Sie es persönlich

Die Technik funktioniert. Es geht nicht nur darum, sich zurückzulehnen und darauf zu warten, dass die Rechenleistung entsprechend der Benutzererwartung steigt. Wir fanden die Spracherkennung, -erkennung und -synthese der einzelnen Geräte weitaus leistungsfähiger, als wir erwartet hatten. Und es ist nicht so, dass es an Auswahl mangelt. Auf Amazon gibt es über 30.000 Alexa-Skills, von denen täglich durchschnittlich 50 neue veröffentlicht werden. Skills sind spezifische Fähigkeiten, die es Designern und Entwicklern ermöglichen, ein personalisierteres Spracherlebnis zu schaffen, wenn sie Geräte wie den Amazon Echo Dot verwenden. Sie funktionieren ähnlich wie eine App im App Store auf Ihrem Smartphone, sodass Sie Ihren Sprachassistenten nach Ihren Wünschen anpassen können .

Allerdings gibt es derzeit eine große Zugangsbarriere. Fähigkeiten müssen über die App und nicht über das Gerät hinzugefügt werden, was häufig die Vorteile einer VUI zunichte macht und den Gesprächsfluss unterbricht (ganz zu schweigen von denen, die kein Smartphone verwenden können/wollen). Dadurch fühlt sich der Prozess im besten Fall ungeschickt und unzusammenhängend an, im schlimmsten Fall völlig isolierend. Selbst wenn eine Fertigkeit installiert ist, führen fehlende Sichtbarkeit der Fertigkeit und ein begrenzter Zeitrahmen für die Interaktion zu einem Mangel an Selbstvertrauen und Angst; kann es tun, was ich will? Wie rede ich damit? Hat es mich gehört? Also, wie baut man diese Verbindung und dieses Vertrauen auf?

Für Susan bedeutete dies, das Unnötige wegzulassen und eine kuratierte Auswahl an Kernfunktionen zu präsentieren. Durch die Personalisierung des Inhalts an die einzigartigen Verhaltensweisen und Anforderungen haben wir die dringend benötigte Klarheit und ein sinnvolleres Erlebnis geschaffen. Susan wollte Schlüsselaufgaben erfüllen: Telefonieren, Anrufe tätigen, Fernsehsender wechseln, Musik abspielen und so weiter. Indem wir sie und ihre Bedürfnisse verstanden haben, haben wir einen Assistenten geschaffen, der sich immer relevant und nützlich anfühlte . Dies war ein ziemlich manueller Prozess, aber hier gibt es eine große Chance für maschinelles Lernen und KI. Wenn jeder Sprachassistent ein Element der Personalisierung bieten könnte, könnte sich das Erlebnis für alle relevanter anfühlen.

Da wir für eine Einzelperson entworfen haben, konnten wir die physischen Elemente des Produkts problemlos für Susan anpassen. Das bedeutete, einen Lichtdiffusor in Form einer Eule (ihr Lieblingstier und etwas mit einer bedeutenden Bedeutung für sie) zu entwerfen – und dann in 3D zu drucken. Die Eule fungierte als visuelle Manifestation der Technologie und gab ihr etwas, mit dem sie sprechen und auf das sie projizieren konnte. Es war ihr Führer, der ihr den Zugang zu den Fähigkeiten verschaffte, die sie wollte, wie zum Beispiel das Hören von Musik. Da es für sie persönlich war , fühlte sich die potenziell fremde, einschüchternde Technologie viel zugänglicher und vertrauter an .

Humanisierte Technologie hilft, sie zugänglicher zu machen: Susans personalisierte Eule leuchtet als Reaktion auf ihre Stimme und lässt sie wissen, dass sie gehört und verstanden wird. (Große Vorschau)

Obwohl ein vollständig benutzerdefiniertes 3D-gedrucktes Gehäuse nicht für jedes VUI-Projekt eine Option ist, besteht die Möglichkeit, ein relevanteres Gerät für die Kommunikation zu schaffen, insbesondere wenn ihre Bedürfnisse oder die Verwendung von Heimassistenten sehr spezifisch sind. Beispielsweise können Sie mit einer sprachgesteuerten Leuchte über Ihre Beleuchtung zu Hause und mit einem Kühlschrank über Ihre Einkäufe sprechen.

2. Denken Sie an Audio-Angebote

Derzeit erledigt der Benutzer das ganze schwere Heben. Mit einem verdeckten mentalen Modell und ohne Händchenhalten durch die Technik sind wir gezwungen, uns unseren gewünschten Endpunkt vorzustellen und die erforderlichen Befehle rückwärts durchzuarbeiten. Abgesehen von den einfachsten Aufgaben (einen Timer auf 5 Minuten stellen, Abba auf Spotify spielen usw.), ist das unglaublich schwer zu bewerkstelligen, besonders wenn Sie unter „nebligen Momenten“ leiden, was Susan uns erklärt hat – Schwierigkeiten, die richtigen Worte zu finden.

Als Apple bekanntermaßen skeuomorphe visuelle Elemente für seine frühen iPhone-Apps verwendete, gewann der Benutzer wertvolle, vertraute Referenzpunkte, die seine Verwendung und Interaktionsmethode ermöglichten. Erst als sich das mentale Modell etabliert hatte, hatten sie die Freiheit, sich von dieser wörtlichen Darstellung zu ihrer aktuellen flachen Benutzeroberfläche zu bewegen.

Beim Entwerfen unserer VUI haben wir uns entschieden, uns auf das etablierte Menüsystem zu stützen, das in der digitalen und Web-Navigation zu finden ist. Es ist ein vertrautes Werkzeug, das vom Benutzer weniger kognitive Verarbeitung erfordert und es uns ermöglichte, Methoden zur Wegfindung zu integrieren, die nicht dazu führten, dass wir von vorne anfangen, wenn etwas schief geht.

Als Beispiel empfand Susan das Verbalisieren dessen, was sie wollte, in dem Zeitrahmen, den aktuelle digitale Assistenten bieten, als stressige und oft unangenehme Erfahrung; oft verbunden mit einer Fehlermeldung vom Gerät am Ende. Anstatt zu erwarten, dass sie einen expliziten Befehl wie „Alexa, spiele Abba aus meiner Spotify-Wiedergabeliste“ gibt, haben wir uns entschieden, ein geführtes Menü-Tool zu erstellen, das ihr helfen könnte, langsam zu beginnen und schrittweise genauer zu werden, was Alexa tun soll.

Susans Eule fordert sie jetzt mit einer kuratierten Liste von Optionen auf, wie „Musik abspielen“ oder „Etwas ansehen“. Wenn sie sich für Musik entscheidet, wird es spezifischer, je weiter sie durch jedes Entscheidungstor geht, um das Genre aufzudecken, das sie gerne hören möchte; im Fall von Abba würde sie „Musik der 60er“ auswählen. Dadurch kann Susan viel einfacher und in einem für sie passenden Tempo zum gewünschten Ergebnis navigieren. Die ganze Zeit über leuchtete die Eule und reagierte auf ihre Stimme, ließ sie wissen, dass sie gehört und verstanden wurde.

Susans Sprachassistent gibt ihr etwas von der Unabhängigkeit zurück, die sie durch ihren Zustand verloren hat, von der Ermächtigung über das Telefonieren mit der Familie bis hin zum einfachen Musikhören. (Große Vorschau)

3. VUIs bieten mehr als Sprache

Die nicht-lexikalischen Komponenten der verbalen Kommunikation verleihen einem Gespräch eine große Bedeutung. Einige können von der synthetisierten Stimme nachgebildet werden (Intonation, Tonhöhe und Sprechgeschwindigkeit, Zögergeräusche, um nur einige zu nennen), viele jedoch nicht (z. B. Gestik und Gesichtsausdruck). Die greifbaren Elemente des Produkts müssen diese traditionellen visuellen Hinweise ersetzen, damit sich die Interaktion auch nur ein wenig natürlich anfühlt. Aber es steckt noch mehr dahinter.

Erstens, wenn jemand mit einem Produkt interagiert, das menschliche Verhaltensweisen nachbilden soll, werden die visuellen Komponenten durch die vorgefassten Vorstellungen des Benutzers von der Welt (sowohl angeboren als auch erlernt) interpretiert und beeinflussen seine emotionalen Reaktionen. Wenn etwas imposant und kühl aussieht, kommt man viel seltener ins Gespräch als mit etwas, das süß und kuschelig aussieht.

Da die Technologie in unserem Fall dem Benutzer so fremd war, mussten wir sie so vertraut und einladend wie möglich wirken lassen – eine Eule. Auf diese Weise hofften wir, die Gefühle von Angst und Frustration, die wir mit anderen Produkten erlebt hatten, zu beseitigen. Wir haben auch die visuelle Seite davon verstärkt – es gibt eine Farbe für einen Ruhezustand – ein sanftes Leuchten, fast wie Atmen, aber wenn Susan die Weckworte sagt, ändert sich das Licht zu Wach und Zuhören.

Sie können weiter gehen. Apple hat beispielsweise ein Vollfarbdisplay auf seinem Homepod, das der Interaktion und Visualisierung ein höheres Maß an Nuancen verleiht. Das Hinzufügen einer visuellen Erfahrung mag kontraintuitiv klingen, aber Visualisierungen können für den Benutzer sehr hilfreich sein.

Fazit

Obwohl sie auf einen individuellen Anwendungsfall angewendet werden, können diese erstklassigen Erkenntnisse jedem Projekt helfen, das hofft, die inhärenten Vorteile zu nutzen, die die Stimme bietet. Die Personalisierung des Inhalts (wo möglich) sorgt für die dringend benötigte Klarheit und ein logisches, zuordenbares Navigationssystem reduziert die kognitive Belastung. Unterschätzen Sie schließlich nicht die Bedeutung der visuellen Komponenten ; Wenn sie gut gemacht sind, liefern sie nicht nur grundlegende Gesprächshinweise, sie geben den Ton für die gesamte Interaktion an.

Für diejenigen, die mit Sprache experimentieren möchten, präsentiert Amazon jetzt Zehntausende von Fähigkeiten von Unternehmen wie Starbucks und Uber sowie von anderen innovativen Designern und Entwicklern. Das Alexa Skills Kit (ASK) ist eine Sammlung von Self-Service-APIs, Tools, Dokumentation und Codebeispielen, die es Ihnen leicht machen, Alexa Skills hinzuzufügen und mit der Erstellung Ihrer eigenen Lösungen zu beginnen. Sie fragen sich, ob Stimme überhaupt Sinn macht? Hier sind einige Überlegungen, bevor Sie beginnen.