Progettare l'invisibile: 3 cose che ho imparato Progettando per la voce

Pubblicato: 2022-03-10

Riassunto veloce ↬ Ci sono persone in tutto il mondo che non sono in grado di completare facilmente le attività quotidiane da sole. Fortunatamente, sviluppatori e designer possono aiutare sperimentando la tecnologia vocale che consente loro di completare attività che altri potrebbero dare per scontate.

L'attuale iterazione degli assistenti digitali a controllo vocale sta ancora lottando per integrarsi perfettamente come sperano i tre grandi lettori vocali di Amazon, Google e Apple. Un rapporto del 2017 di Voicelabs afferma che c'è solo il 3% di possibilità che un utente sia attivo nella seconda settimana dopo aver scaricato un'applicazione vocale e il 62% delle competenze di Alexa devono ancora ottenere qualsiasi tipo di valutazione sul suo negozio (a partire da settembre 2017).

Come designer, abbiamo una reale opportunità di fornire un significato prezioso a questi assistenti, ma stiamo ancora cercando di capire dove la tecnologia può aggiungere reali vantaggi all'utente. Per molti, intraprendere un progetto di Voice UI (VUI) può essere un po' come entrare nell'Unknown . Ci sono poche storie di successo a cui i designer o gli ingegneri possono ispirarsi, specialmente in contesti che illustrano come questa tecnologia nascente potrebbe aiutare le persone a prosperare in nuovi modi.

Sperimentazione con `speechSynthesis`

L'API Web Speech ti offre la possibilità di abilitare la voce al tuo sito Web in due direzioni: ascoltare i tuoi utenti tramite l'interfaccia SpeechRecognition e rispondere loro tramite l'interfaccia speechSynthesis . Tutto ciò viene eseguito tramite un'API JavaScript, semplificando la verifica del supporto. Leggi un articolo correlato →

Nell'ambito della docuserie Big Life Fix della BBC2 in cui team di inventori creano soluzioni nuove e che cambiano la vita per le persone bisognose, ho avuto l'opportunità di testare e costruire un assistente vocale per una donna di nome Susan. Susan convive con una forma progressiva di sclerosi multipla da oltre 20 anni e ora non è in grado di completare facilmente le attività quotidiane da sola. Con assistenti a tempo pieno, fa affidamento sugli altri per lavarla e vestirla e non ha nemmeno la possibilità di cambiare canale in TV senza aiuto.

Mentre la tecnologia vocale sembrava fornire il percorso più agevole per superare le difficoltà fisiche di Susan, Susan non ha mai usato uno smartphone, quindi spingerla direttamente in un'interazione con un assistente vocale non sarebbe mai stato facile: dovevamo pensare in modo intelligente per aiutarla impara a comunicare con una tecnologia incredibilmente aliena.

Altro dopo il salto! Continua a leggere sotto ↓

Il risultato per Susan è un assistente vocale altamente personalizzato che ora le consente di completare le attività quotidiane con la libertà che gli altri danno per scontata: dal fare una telefonata alla famiglia, all'ascoltare musica. Costruito come una versione migliorata della tecnologia Amazon Alexa sul loro dispositivo Echo Dot, l'assistente vocale di Susan ha comportato anche la personalizzazione fisica mentre abbiamo stampato in 3D un involucro a forma del suo animale preferito, un gufo.

Mentre sperimentavamo e ripetevamo rapidamente una soluzione per Susan, io e il mio team abbiamo scoperto dozzine di complessità che derivano dalla progettazione della voce in un modo più inclusivo e accessibile. Sebbene fosse un progetto unico, c'erano tre aspetti chiave applicabili a qualsiasi progetto VUI.

1. Rendilo personale

La tecnologia funziona. Non è solo questione di sedersi e aspettare che la potenza di calcolo aumenti in linea con le aspettative degli utenti. Abbiamo riscontrato che il rilevamento vocale, il riconoscimento e la sintesi di ciascuno dei dispositivi sono molto più potenti di quanto ci aspettassimo. E non è che manchi la scelta. Ci sono oltre 30.000 abilità Alexa su Amazon con una media di 50 nuove che vengono pubblicate ogni giorno. Le competenze sono funzionalità specifiche che consentono a progettisti e sviluppatori di creare un'esperienza vocale più personalizzata quando utilizzano dispositivi come Amazon Echo Dot. Funzionano in modo molto simile a un'app all'interno dell'App Store sul tuo smartphone, consentendoti di personalizzare il tuo assistente vocale come preferisci .

Tuttavia, attualmente esiste una grande barriera all'accesso. Le competenze devono essere aggiunte tramite l'app piuttosto che il dispositivo, vanificando spesso i vantaggi di una VUI e interrompendo il flusso conversazionale (per non parlare dell'esclusione di chi non può/non vuole utilizzare uno smartphone). Questo fa sembrare il processo goffo e sconnesso nel migliore dei casi, completamente isolante nel peggiore dei casi. Anche una volta che un'abilità è stata installata, nessuna visibilità dell'abilità e un lasso di tempo limitato per l'interazione si traducono in mancanza di fiducia e ansia; può fare quello che voglio? Come gli parlo? Mi ha sentito? Quindi, come costruisci quella connessione e fiducia?

Per Susan, significava eliminare il superfluo e presentare una selezione curata di funzionalità principali. Personalizzando il contenuto in base ai comportamenti e ai requisiti unici, abbiamo presentato la chiarezza tanto necessaria e un'esperienza più significativa. Susan voleva svolgere compiti chiave: rispondere al telefono, effettuare una chiamata, cambiare canale TV, riprodurre musica e così via. Comprendendo lei e le sue esigenze, abbiamo creato un assistente che si è sempre sentito pertinente e utile . Questo è stato un processo piuttosto manuale, ma qui c'è un'enorme opportunità per l'apprendimento automatico e l'intelligenza artificiale. Se ogni assistente vocale potesse offrire un elemento di personalizzazione, potrebbe rendere l'esperienza più rilevante per tutti.

Poiché stavamo progettando per un individuo, potevamo facilmente adattare gli elementi fisici del prodotto per Susan. Ciò significava progettare, quindi stampare in 3D, un diffusore di luce a forma di gufo (il suo animale preferito e qualcosa con un significato significativo per lei). Il gufo ha agito come una manifestazione visiva della tecnologia e le ha dato qualcosa con cui parlare e verso cui proiettarsi. È stata la sua guida a darle accesso a quelle abilità che desiderava, come ascoltare la musica. Poiché era personale per lei, rendeva la tecnologia potenzialmente aliena e intimidatoria molto più accessibile e familiare .

La tecnologia umanizzante aiuta a renderlo più accessibile: il gufo personalizzato di Susan si illumina in risposta alla sua voce, facendole sapere che viene ascoltata e capita. (Grande anteprima)

Sebbene un alloggiamento stampato in 3D completamente personalizzato non sia un'opzione per ogni progetto VUI, c'è un'opportunità per creare un dispositivo più pertinente con cui le persone possono comunicare, soprattutto se le loro esigenze o l'utilizzo degli assistenti domestici sono piuttosto specifici. Ad esempio, potresti parlare con una luce a comando vocale dell'illuminazione della tua casa e un frigorifero dei tuoi generi alimentari.

2. Pensa ai vantaggi audio

Attualmente, l'utente fa tutto il lavoro pesante. Con un modello mentale oscurato e nessun intervento da parte della tecnologia, siamo costretti a immaginare il nostro punto finale desiderato e lavorare all'indietro attraverso i comandi necessari. A parte i compiti più semplici (impostare un timer per 5 minuti, riprodurre Abba su Spotify, ecc.), è incredibilmente difficile da fare, soprattutto se soffri di "momenti di nebbia" qualcosa che Susan ci ha spiegato: difficoltà a trovare le parole giuste.

Quando Apple ha utilizzato notoriamente elementi visivi skeuomorfici per le sue prime app per iPhone, l'utente ha ottenuto punti di riferimento preziosi e familiari che ne hanno consentito l'uso e il metodo di interazione. Solo una volta che il modello mentale è diventato più consolidato, hanno avuto la libertà di allontanarsi da questa rappresentazione letterale, nella loro attuale interfaccia utente piatta.

Durante la progettazione della nostra VUI, abbiamo deciso di affidarci al consolidato sistema di menu presente nella navigazione digitale e web. È uno strumento familiare che richiede meno elaborazione cognitiva da parte dell'utente e ci ha permesso di incorporare metodi di orientamento che non si traducono in un inizio dall'inizio se le cose sono andate storte.

Ad esempio, Susan ha trovato il verbalizzare ciò che voleva, nel lasso di tempo offerto dagli attuali assistenti digitali, un'esperienza stressante e spesso spiacevole; spesso aggravato da un messaggio di errore dal dispositivo alla fine di esso. Invece di aspettarci che lei dia un comando esplicito come "Alexa, riproduci Abba dalla mia playlist di Spotify", abbiamo deciso di creare uno strumento di menu guidato che potesse aiutarla a iniziare lentamente e diventare sempre più specifica su ciò che voleva che Alexa facesse.

Il gufo di Susan ora le chiede un elenco curato di opzioni come "Riproduci musica" o "Guarda qualcosa". Se sceglie la musica, diventa più specifica man mano che avanza attraverso ogni cancello decisionale, per scoprire il genere che ha voglia di ascoltare; nel caso di Abba, avrebbe selezionato "musica anni '60". Ciò consente a Susan di raggiungere il risultato desiderato molto più facilmente e a un ritmo che le si addice. Per tutto il tempo, il gufo brillava e rispondeva alla sua voce, facendole sapere che veniva ascoltata e capita.

L'assistente vocale di Susan le restituisce parte dell'indipendenza che ha perso a causa della sua condizione, dal potenziarla al fare una telefonata alla famiglia o semplicemente ascoltare musica. — L'assistente vocale di Susan le restituisce un po' dell'indipendenza che ha perso a causa della sua condizione, dall'averla autorizzata a fare una telefonata alla famiglia o semplicemente ad ascoltare musica. (Grande anteprima)

3. C'è di più nelle VUI che nella voce

Le componenti non lessicali della comunicazione verbale conferiscono molto significato a una conversazione. Alcuni possono essere replicati dalla voce sintetizzata (intonazione, tono e velocità di parlare, rumori di esitazione, solo per citarne alcuni), ma molti non possono (come i gesti e l'espressione facciale). Gli elementi tangibili del prodotto devono sostituire questi segnali visivi tradizionali affinché l'interazione sembri anche leggermente naturale. Ma c'è di più.

In primo luogo, quando qualcuno interagisce con un prodotto progettato per replicare i comportamenti umani, le componenti visive vengono interpretate dalle nozioni preconcette del mondo dell'utente (sia intrinseche che apprese) e influenzano le sue risposte emotive. Se qualcosa sembra imponente e freddo, è molto meno probabile che inizi una conversazione rispetto a qualcosa che sembra carino e coccolone.

Nel nostro caso, poiché la tecnologia era così estranea all'utente, dovevamo farla sentire il più familiare e invitante possibile : un gufo. In tal modo, speravamo di eliminare i sentimenti di ansia e frustrazione che avevamo sperimentato con altri prodotti. Abbiamo anche amplificato il lato visivo - c'è un colore per uno stato di inattività - un bagliore delicato, quasi come respirare, ma quando Susan pronuncia le parole di veglia, la luce cambia in sveglio e in ascolto.

Puoi andare oltre. Apple, ad esempio, ha un display a colori sul proprio Homepod che offre un livello più elevato di sfumature alla loro interazione e visualizzazione. L'aggiunta di un'esperienza visiva potrebbe sembrare controintuitivo, ma le visualizzazioni possono essere molto utili per l'utente.

Conclusione

Sebbene applicati a un caso d'uso individuale, questi apprendimenti di livello superiore possono aiutare qualsiasi progetto che spera di utilizzare i vantaggi intrinseci offerti dalla voce. La personalizzazione del contenuto (ove possibile) fornisce la chiarezza necessaria e un sistema di navigazione logico e facilmente riconoscibile riduce il carico cognitivo. Infine, non sottovalutare l'importanza delle componenti visive ; se fatti bene, non solo forniscono spunti di conversazione fondamentali, ma danno il tono all'intera interazione.

Per coloro che desiderano sperimentare con la voce, Amazon ora mette in mostra decine di migliaia di competenze di aziende come Starbucks e Uber, oltre a quelle create da altri designer e sviluppatori innovativi. L'Alexa Skills Kit (ASK) è una raccolta di API self-service, strumenti, documentazione ed esempi di codice che ti consentono di aggiungere facilmente competenze ad Alexa e iniziare a creare le tue soluzioni. Ti chiedi se la voce ha anche un senso? Ecco alcune considerazioni prima di iniziare.