J’ai suivi l’adoption de la technologie vocale depuis que j’ai eu mon premier appareil Echo vers Thanksgiving de 2014 et j’ai commencé 20% de mes phrases avec « Alexa… ». Et de temps en temps, j’aime que des invités se joignent à moi pour cette série pour voir où en sont les choses aujourd’hui avec ces appareils et comment ils sont utilisés. Mais je ne me suis pas vraiment concentré sur la conception de contenu vocal auparavant, c’est pourquoi j’étais vraiment ravi de parler avec Preston So. Preston est directeur principal de la stratégie produit chez Oracle, mais plus important encore pour cette conversation, il est également l’auteur du livre « Voice Content and Usability ».
Vous trouverez ci-dessous une transcription éditée de notre récente conversation LinkedIn Live. Cliquez sur le lecteur SoundCloud intégré pour entendre la conversation complète.
smallbiztrends · Quelques bonnes minutes sur la conception de contenu vocal avec Preston So
Brent Leary : Quel a été l’impact de la pandémie sur le rôle de la voix dans le développement de contenu dans le contexte de la transformation numérique ?
Preston So : C’est une question vraiment intéressante. Je vais y répondre sous deux angles différents. La première est que lorsque nous avons commencé à travailler et que je viens de réaliser que je n’avais pas encore mentionné cette étude de cas, même à ce sujet, dans l’émission, c’est qu’il y a 5 ou 6 ans, j’ai eu l’opportunité de travailler dans une équipe qui a construit AskGeorgia.gov, qui a été la toute première interface vocale pour les résidents de l’État de Géorgie. De plus, c’était vraiment l’une des toutes premières interfaces vocales basées sur le contenu ou informatives.
Les deux raisons pour lesquelles nous avons voulu construire ceci et piloter ce projet étaient de servir ces données démographiques, que j’ai mentionnées plus tôt, sont souvent ignorées ou souvent mal servies par les sites Web que nous avons créés. Et il s’agit particulièrement de la presse, car nous connaissons une préoccupation très pressante dans le secteur public, une préoccupation très, très pressante au sein du gouvernement local et des deux publics que nous voulions desservir, le mot numéro un, les Géorgiens âgés, qui pourraient ne pas être nécessairement en mesure d’utiliser un site Web aussi facilement. Il n’est peut-être pas nécessairement en mesure d’utiliser un ordinateur aussi rapidement et n’a peut-être pas nécessairement la mobilité nécessaire pour se rendre dans un bureau du gouvernement du comté ou dans un bureau d’agence. Dans le même temps, nous voulions également nous concentrer sur les Géorgiens handicapés. Ceux qui pourraient ne pas être en mesure d’utiliser un sur un site Web aussi rapidement que ceux qui utilisent le site Web grâce à son approche visuelle. Et aussi ceux qui n’ont vraiment pas la capacité à cause de ces problèmes de mobilité, excusez-moi, de se rendre dans un bureau d’agence et d’y obtenir des réponses à leurs questions. Dans le même temps, nous étions également confrontés à cette époque, bien sûr, et continuons encore aujourd’hui, au manque de budget, à la nature des restrictions financières des gouvernements étatiques et locaux aujourd’hui, où les budgets sont réduits à gauche et à droite et souvent ces hotline attendent les temps grandissaient et grandissaient et grandissaient au téléphone.
La raison pour laquelle j’ai évoqué cette étude de cas est que je pense que la pandémie de coronavirus a vraiment amplifié à quel point certains publics sont confrontés non seulement à ce genre de systèmes d’oppression très, très problématiques dans la société, mais aussi à des obstacles très profonds pour accéder à l’information, au contenu et aux transactions. dont ils ont besoin. Et si vous pensez, bien sûr, à ceux qui ont été le plus touchés par l’impact de la pandémie et les effets de la pandémie, ce sont les personnes handicapées ou les personnes âgées. Et surtout si vous ne pouvez même pas sortir de chez vous, comment obtenez-vous réellement les informations dont vous avez besoin ? Je pense donc que, d’une certaine manière, nous avons pré-enregistré une grande partie du travail qui se déroule actuellement avec la transformation numérique d’aujourd’hui, ce que de nombreuses organisations réalisent maintenant, et cela module bien sûr une grande partie du travail que nous avons maintenant. vu sur le travail à distance sur des effectifs distribués tout cela, mais aussi maintenant comment mieux servir les clients dans cet angle B to C, comment nous assurer réellement que ceux qui sont nos clients, ceux qui sont des utilisateurs, ceux qui sont notre démographie réelle peuvent interagir avec notre contenu d’une manière qui ne les oblige pas potentiellement à faire des choses qui les mettent en danger.
Et je pense qu’il y a plusieurs choses qui se sont accélérées à cet égard. Le premier concerne l’accès vocal, comme nous l’avons vu, je pense que c’était l’année dernière, les systèmes de maison intelligente, les ventes d’enceintes intelligentes ont explosé. Je veux dire, c’est maintenant, 35% des Américains ont maintenant un haut-parleur intelligent à la maison, mais du même coup, nous avons également eu une croissance incroyable dans les casques de jeu et les technologies de jeu. Donc, les casques de réalité virtuelle, les appareils portables et ceux-ci présagent vraiment, je pense que le changement de contenu du support écrit au support visuel, auquel nous sommes vraiment habitués au cours des dernières décennies, dans un type de contexte beaucoup plus multiforme où maintenant, nous pourrions potentiellement interagir avec notre contenu via un Oculus Rifts ou via nos smartphones, via notre téléviseur Samsung, via nos iPhones et nos iPads, mais aussi bien sûr via Amazon Alexa et c’est vraiment un peu, pour moi, je pense que le La chose la plus importante qui s’est produite avec la pandémie de coronavirus est que cela a vraiment accéléré l’arrivée de cette époque, où les organisations doivent maintenant comprendre qu’il n’y a plus que le Web.
Ce n’est pas seulement mobile, c’est 15 choses différentes. C’est, toutes ces différentes considérations et si vous commencez tout juste à penser au Web et au mobile, vous êtes déjà en retard.
Progrès à ce jour sur le développement de contenu vocal
Brent Leary : Sommes-nous là où vous vous attendiez à ce que nous soyons, la voix faisant partie du canal d’interaction entre les consommateurs et les fournisseurs ?
Preston Donc : Oui et non. Je pense qu’il y a du point de vue du fabricant, je pense que oui. Et ce que je veux dire par là, comme je l’ai mentionné plus tôt, nous avons ces très bons outils qui existent, Botsociety, ces nouvelles startups qui développent des outils vraiment conviviaux pour les concepteurs qui vous permettent de faire comme le vieux Dreamweaver ou Approche de la page d’accueil de Microsoft pour la création de sites Web. Vous transférez cela à une interface vocale et tout à coup, vous n’avez plus besoin d’écrire, disons du code matériel de très bas niveau ou d’écrire, disons un traitement du langage naturel ou une compréhension du langage naturel dans un bot. En même temps, je pense que le chemin est encore long et je pense que nous ne sommes pas vraiment là où je pensais que nous serions à ce stade, mais je pense que c’est en grande partie parce que l’IA elle-même n’est pas aussi loin comme beaucoup de gens le pensaient nécessairement.
L’une des raisons à cela est que nous vivons cette période en ce moment où beaucoup d’interfaces vocales que nous avons construites sont fondamentalement encore clairement automatisées numériques qui n’ont pas vraiment de moyen réel de communiquer d’une manière que nous pouvons vraiment Un exemple de ceci est que vous regardez certaines des communautés bilingues dans le sud du Texas ou dans la ville de New York et vous entendez des gens basculer littéralement entre l’espagnol et l’anglais au milieu d’une phrase ou des gens qui oui, exactement des gens qui sont à Mumbai ou à New Delhi qui ont basculé entre l’hindi et l’anglais au milieu de la phrase ou un changement entre le marathi et l’anglais au milieu de la phrase.
Et ce sont des populations qui ne s’entendent pas au sein de ces interfaces vocales, sans parler de toutes les communautés de couleur qui ne sentent pas non plus qu’elles peuvent entendre leur propre genre de dialectes et leur propre genre d’expressions familières et leurs propres manières de parler au sein de ces interfaces vocales. Il y a quelques étapes intéressantes dans la bonne direction qui vont en partie là, mais pas vraiment. Je veux dire, la première, bien sûr, c’est que je pense avoir été très surpris et heureux de ce que l’on fait pour vous permettre de configurer en quelque sorte ces voix qui lisent ces déclarations comme la police signalée devant ou le véhicule sur l’épaule, ou gardez la gauche.
Il y a aussi bien sûr de nouveaux services qui émergent comme Amazon Polly, Amazon Polly est vraiment intéressant car il faudra une entrée de textes écrits comme un paragraphe ou une page ou autre et il le lira avec un accent britannique ou un accent sud-africain ou un accent américain, une voix de femme et toutes sortes de jauges différentes avec lesquelles vous pouvez tordre et jouer. Mais encore fondamentalement, bien sûr, ce sont des textes écrits qui ne sont pas nécessairement optimisés pour la parole.
Il n’y a pas de moyen algorithmique de transformer des textes écrits en quelque chose qui est écrit dans un style plus parlé, mais il y a aussi ce genre de gros souci que j’ai, c’est-à-dire quand il s’agit d’interfaces vocales, c’est en fait d’être génial et d’atteindre ce point d’excellence qui nous nous attendons à certains égards, je pense que c’est presque impossible. Je pense que c’est presque une déclaration paradoxale de dire que les interfaces vocales seront à ce niveau de comportement optimal pour tout le monde. Parce que la façon dont une interface vocale sonne pour moi va être très différente de la façon dont une interface vocale sonne pour quelqu’un d’autre. Je pense que c’est vraiment genré par le fait que si vous regardez Alexa ou Siri ou Cortana ou Google Home, en général, la voix par défaut, l’identité par défaut qui sort de cette interface vocale est quelqu’un qui ressemble beaucoup à un cisgenre tout blanc les femmes qui parlent avec le dialecte américain général ou moyen-américain.
Et il n’y a pas nécessairement beaucoup d’espace pour les personnes qui parlent anglais comme langue seconde ou les personnes qui changent de code. Comme je l’ai déjà mentionné, qui a basculé entre l’anglais et l’espagnol, en plein milieu de la phrase ou les communautés trans et non binaires qui ont basculé entre des modes de discours directs et en quelque sorte en termes de la façon dont ils interagissent réellement les uns avec les autres jusqu’à ce que nous entendions ces sortes de bascules jusqu’à ce que nous entendions ce genre de réalité que nous avons reflétée dans ces interfaces vocales. Je ne pense pas que nous ayons réellement atteint ce noble objectif.
Ce qui m’inquiète aujourd’hui, c’est que nous sommes confrontés à une situation sans précédent avec la pandémie où beaucoup de ces agents du service client, beaucoup de ces employés du service client de première ligne perdent leur emploi au profit d’une approche d’interface vocale mécanique plus automatisée. Mais la plupart de ces personnes qui perdent leur emploi qui sont licenciées qui sont remplacées par des interfaces vocales dans ces entreprises, ce sont généralement des personnes qui vivent dans le sud du monde, généralement des personnes originaires des Philippines ou d’Indonésie ou l’Inde qui parlent anglais d’une manière qui devrait également se refléter dans les interfaces vocales que nous avons aujourd’hui si nous le voulons.
Quelqu’un qui est philippin américain devrait être capable d’entendre une interface vocale qui sonne également philippin américain sur une interface vocale. Donc, même si je pense qu’à certains égards, les choses sont devenues vraiment géniales pour les concepteurs d’interfaces vocales, je pense que pour les utilisateurs d’interfaces vocales, nous avons encore un long chemin à parcourir, et cela va prendre quelques décennies, je pense avant que nous peut même en quelque sorte arriver à ce point.
Le futur proche de la conception de contenu vocal
Brent Leary : À quoi ressembleront les prochaines années pour la conception de contenu vocal ?
Preston So : Je pense certainement qu’il va y avoir des améliorations à certains égards. Il y aura certainement des améliorations en ce qui concerne ce que j’appelle la démocratisation de la conception des interfaces vocales. Si vous êtes quelqu’un qui ne sait pas comment créer un site Web, si vous êtes quelqu’un qui n’écrit pas de code, si vous êtes quelqu’un qui ne fait rien qui soit lié à l’informatique, vous pouvez aujourd’hui créer une interface vocale, ce qui est vraiment la première fois que nous le faisons auparavant.
Je pense que nous sommes toujours très concentrés sur l’idée des interfaces vocales comme quelque chose qui est utilisé pour éteindre nos lumières, lorsque nous en avons fini avec elles pour allumer le démarreur et préchauffer si vous avez un système de maison intelligente. Laissez quelqu’un à la porte, qui est la publicité la plus récente que j’ai vue. Et faire d’autres choses qui ne sont pas vraiment ce genre de concierge complet, que les interfaces vocales étaient censées être, n’est-ce pas ?
Si vous regardez certains des médias les plus ambitieux sur les interfaces vocales, par exemple, vous regardez 2001: A Space Odysseys HAL ou vous regardez un Star Trek, la voix de Majel Barrett dans Star Trek, ou si vous regardez surtout certains du genre d’épisodes de Black Mirror qui sont sortis récemment, ce n’est pas seulement que nous voulons un assistant qui puisse nous parler de faire cette transaction ou cette transaction ou de faire cette tâche en notre nom.
Nous voulons aussi pouvoir leur faire programmer potentiellement notre journée, faire des choses beaucoup plus complexes et multiformes. Par exemple, je ne veux pas simplement acheter des billets pour un film. Je ne veux pas simplement acheter des billets pour voir Cruella ou In the Heights. Je veux vraiment en savoir plus sur ce film. Je veux savoir quel était ce score dans Rotten Tomatoes. Je veux savoir qui sont les acteurs et l’équipe. Et bien souvent, ces interfaces vocales ne sont toujours pas équipées de ce type de capacité.
Il y a un paradoxe cependant; il y a cependant un conflit vraiment intéressant ici, car en ce moment, nous avons vu un peu de segmentation se produire. Par exemple, si vous allez, disons, dans les cinémas AMC, n’est-ce pas ? Ou vous allez dans les hôtels Hilton ou Delta Airlines, si vous voulez poser des questions à Delta sur Hilton, ou si vous voulez poser des questions aux cinémas AMC sur une sorte d’autre chaîne de cinéma, ils ne peuvent pas vous aider.
Ce que nous voyons ici, c’est ce conflit intéressant entre la façon dont ces assistants vocaux et interfaces vocales tentent de se concurrencer, pour être de plus en plus larges en termes de couverture d’informations sur le Web et de transactions sur le Web. Mais aussi le fait que vous ayez demandé où aller, par exemple, ne répondra qu’à vos questions sur l’état de Géorgie ou sur des sujets pertinents pour les citoyens géorgiens, pour les résidents en Géorgie. C’est donc une question vraiment intéressante. Je pense que nous allons voir une sorte de prochaine phase d’interfaces vocales ici dans un avenir très proche qui va essayer d’effacer certaines de ces lignes dans le sable entre les considérations d’actualité et transactionnelles. Et nous commencerons également à voir beaucoup plus d’interfaces vocales axées sur le contenu.
Cet article, « Preston So d’Oracle : Bien que les choses soient meilleures pour le développement d’interfaces vocales, il reste encore du chemin à parcourir pour ceux qui les utilisent » a été publié pour la première fois sur Small Business Trends.