Voice User Interface(VUI)の現在の利用と可能性

UX DAYS TOKYO　スタッフのかじしまさちこです。 2018年に続いてUX DAYS TOKYO 2019もVoice User Interface(VUI)のセッションとワークショップが予定されています。UX DAYS TOKYO2018で取り上げられる頃に、日本でもVUIが注目されていたので、私もワークショップに参加しました。

スマートスピーカーは、世界的にも浸透したデバイスではありません。中には購入に二の足を踏んでいる方や、購入したけれどすぐに使わなくなってしまったというユーザーの声も聞きます。しかし、VUIの可能性は偉大です。便利になれば年配の方や身体の不自由な方、シーンによっては、すごく便利なツールになることは間違いありません。

現状のスマートスピーカーは、会話が断片的で、少し難しいことを言うとすぐに「わかりません」という回答が返ってきたり、質問に沿わない返答がきたりして話が噛み合わないことがあります。ゆえに、簡単なタスクや質問のみにしか使えないという状況になっています。

例えば、天気を聞いたり、ニュースの読み上げ、目覚まし設定、音楽をかけたりといった単純な用途です。機械的でない人間らしい会話になれば、もっと複雑な用途に使われるはずです。

新しい技術は技術の理解と設計が必要

私が、以前関わった仕事で「音声で株価を教えてくれる」サービスというのがあります。「XXXの株価を教えて」というと「今日の株価はXXXX円です」と答えてくれるのですが、残念なことに活発な利用がありません。

株取引を行う人に、「なぜ使わないか」「なぜ使おうと思わないか」をインタビューしたところ、以下の回答が返ってきました。

株価だけ知っても取引は行わない
保有している株式の損益を知りたいのに、今日の株価だけでは算出できない
今日の株価ではなく、これから値上がりしそうなのか（値動き）を知りたい

ユーザーインタビューから、ユーザーの声（やりたいこと）が設計されていないことに気が付き、サービス提供側のVUIを実装したいという思いだけが先行しているのではないか？と感じたので、担当者に尋ねてみると「新しい試みをしたく、とりあえずVUIの導入を目的にやってみた。」という答えが返ってきました。

折角の新しい技術を使うと思っても、その技術がどのようなもので、何がができ、どのように設計するのかを理解していないと、ユーザーの利用がないサービスを企画開発してしまうことになります。

現状のVUIは「天気を教えてもらう」など、答えが短いものや「電気をつける」などの動作が多く、「VUIは簡単な質問に答えるだけだから、フローチャートが設計されていれば良い。UXは必要ない。別物。」と考えられがちですが、そうではありません。

質問に答えることで、ユーザーの何を解決できるか、そして、「VUIに話しかけてくるユーザーが置かれているコンテキストは何かということを考える必要があります。出勤前に「今日の天気は何？」と質問してくるユーザーに対して、のんびりとした口調で「日本の南海上には1000ヘクトパスカルの低気圧がいて。。。」というように天気図の詳細を解説をしてくるVUIデバイスは邪魔になるでしょう。

VUIもユーザーのコンテキストを理解して設計しないと、「誰にも使われないもの」になってしまいます。

はじめてのVUIの設計講座に受講して

UX DAYS TOKYO 2018では、元Alphabet社の社員で、Google HOMEを始めとするVUI関連の開発者であるアビ・ジョーンズ氏から、VUI製品を作るためのプロセスや音声入力のユースケース作成を主に学びました。スマートスピーカーはAIスピーカーとも呼ばれ、AIが勝手に良い感じにしてくれると思っていましたが、実際には設計が必要でした。私は、全くはじめてだったので一つひとつの設計方法を学ぶことがとっても新鮮でした。

参加者の中には、すでにVUI関係のサービスを製品として出している方もいましたが、自分たちの設計方法とは違っていたことが参考になったとおしゃっていました。

プロダクトやサービスにはブランドがあり、人は音声によって勝手にイメージを持つので、それらの設計も含め、会話の基礎になる設計方法を学ぶことができました。音声で株価を教えてくれるサービスでは、女性でも男性でも良いかと思いますが、少し硬い口調でないと、真実味がわきません。軽いノリの口調では大切な株を取引しようとはしません。

株取引には、いくつかの工程（注文の価格の指定や株数の決定など）がありますが、バカ丁寧でも逆に分かりづらくなります。VUIは的確であり、適切でなければなりません。必要以上の説明をされるだけで人は面倒になります。

音声が株価を教えるサービスの再設計

ワークショップで学んだ工程を元に、音声が株価を教えるサービスの再設計をしました。

製品のブランド決定

株価を教えてくれるサービスなので、誠実で硬いイメージ。

VUIのパーソナリティや声のトーンの設計

落ち着いた感じ。声のトーンは低め。（声は男性でも女性でも可）

音声入力のユースケース作成

株価を教えてくれる（複数回のコミュニケーションが可能）
株を取引する際に参考となる、株価のトレンドや企業の財務状況を答えてくれる
保有している株数と購入した時の価格を登録しておくと、損益を教えてくれる

ユースケースに沿った、シナリオの例

ユーザーのインテント（意図）を組み込んだ自然言語処理が重要

3月1日AM1:00に「明日の9時にミーティングの予約をして」とユーザーがにAmazon Echoに話しかけると、ユーザーのリクエストにある裏の意味（インテント）を理解して、「明日とは、3月1日の午前9時でよろしいでしょうか？」のように問います。通常のプログラムであれば午前1時は3月2日なので、明日という発言は3日を指しますが、翌日になったばかりをユーザーが認識していないのではないか？という想定から、ユーザーのインテントを組んで質問します。

VUI製品は自然言語処理を使って、音声からユーザーの意図を理解する

UIの基本に、ビジニリティシステムステイタスというメソドロジーがあります。ユーザーは現状どのようになっているのかを知りたいので、それを表示させるという原則になります。

VUIもこの原則は必要で、何をどのように理解したのか。「はい」だけではわかりません。そこで、VUIは、「＊＊＊＊ですか？」「＊＊＊＊と理解しました。」などのリアクションをします。

VUI開発でなく、PO（プロダクト・オーナー）に参加していただきたいVUI講座

プレイベントには、VUI関係の開発者が多く参加していたただきました。参加者の多くはすでに開発して実用化しているプロダクトもあるようですが、VUIのテクノロジーをどのように使おうか？という視点から入る方が多くいらっしゃいました。

先程紹介した株式のプロジェクトではないですが、VUIをどのように使おう。と思ってプロダクトを走らせると、ユーザーが置いてけぼりになります。

ユーザーの生活の中で、何が必要なのか？それを見極め、VUIをどのように設計するべきかを考える必要があります。

4月7日に、Amazon Echo Lookの開発者Cherl Platz（シェリル・プラッツ）氏によるワークショップが開催されます。

シェリル氏とVUIの関わりは長く、2006年にDisney FriendsというNintendoDSソフトの音声設計に携わって以来、AmazonのAlexaやAmazon Echo Look（日本未発売）、MicrosoftのCortana (コルタナ)、MicrosoftのAdminCenterといったVUI製品の設計に数多く関わってきました。

Alexaではプロジェクトの途中から音声デザインチームのメンバーとして参画し、当初シングルスレッドだった音声機能をマルチタスクへと改善する役割を果たしました。彼女のUX設計があったことで、Amazon Echo Lookのプロジェクトが立ち上がり、プロダクトデザインの責任を担っていました。サンプルダイアログや発話・スクリプト・処理フローの作成まで、VUIに関しても全て携わっています。

現在ではスマートスピーカーはAmazonが首位となっています。VUIには、ユーザーのインテントや言葉の揺れなど越えなくてはならない壁が多くありますが、VUIは次の時代のUIとして外せないものです。どの時代もユーザー中心にサービスやプロダクトを作っていくプロダクトオーナーにはぜひとも参加していただきたいワークショップです。