[原文]What voice UI is good for. (2017/4)
ついに、人間が持つ「Voice(声)」という素晴らしいを活用する時が来たか?それともブロックチェーンやボットなどで見た「過大評価」と「時間の浪費」ど同じことが起きるか?はたまた、「ゲーミフィケーション」がまた起きるか?
現実はそれほどドラマチックさはなく面白みはありません。日々、新しい入出力インターフェース設計、利用されています。いまプロダクト制作や設計を行う人とって重要なことは「いつ使うべきか」と「どのようにVUIが関連するのか」を学ぶことです。
創案(導入)から成長期に突入
最近の「Alexa(アレクサ)」や「Siri(シリ)」「Cortana(コルタナ)」「OK Google」の登場は、声で操作する時代が”やっと来た”ことを意味しているわけではなく、導入期とは逆の”ついに!作る段階に入った”ことを意味します。
今までのフェーズはコンセプトデモ、誇大宣伝の繰り返しでした。過度な将来への期待をしていましたがそれは終わりです。これからは、現実的な技術を駆使させ実際に使える場面をサポートしていくか、もしくは諦めるかです。
ロングノーズとは?
全ての革新的な新技術は越えなければいけない有名なイノベーションの「ロング・ノーズ」というものがあります。
Microsoft Researchの主任研究員であるBill Buxton(ビル・バクストン)氏は、全ての新しいUIはリサーチの研究プロジェクトから、(巨額な規模のビジネスを生み出す事業)充分にお金を生み出すまで成熟するのに、およそ30年かかることを体験しました。
既存インターフェースの置き換えはほとんど起きない
イノベーションから生まれた新しい技術は身近なものに定着するまで時間がかかり、その時が来たとしても、既存の入力システムを変えてしまうことはほとんどなく、これらの新技術やイノベーションは、既存の入力の仕組みと調和します。
新しい入力デバイスは既存の入力デバイスの代わりにはならず共存します。そのため、音声入力がタッチスクリーンと置き換えられることはありません。今までも、タッチスクリーンがマウスの代わりになることはなく、そのマウスもコマンドラインの代わりにはなりませんでした。
アナリスト達は分かりやすいストーリーに憧れます。例えば、新しい技術が誕生する度に、既存の技術が終わりを迎える兆候がある時などです。しかし、インターフェースとは本質的にマルチモーダルなものです。
インターフェースの種類は多いほど便利になります。それら全ての新技術は、みな新しい気づきから始まり、それが最も適しているポジションを見つけ、徐々に確固たるものにします。そして、音声インターフェースも同様のことが起きるはずです。
プレイソナ
Bill Buxton(ビル・バクストン)氏は「プレイソナ」という概念を紹介しました。場所が持っている作用の数々を、ペルソナの考え方に当てはめたものです。
入出力インターフェースには「ベストなインプット」や「ベストなアウトプット」は存在しません。適したものが何かは、どこにいるかによって異なり、また、自由に何が出来るかによって決まります。分かりやすく言えば、人間は手、目、耳、そして、声を持っています。(揺れを感じるといったものは無視します)
いくつかのシナリオを見てみましょう
「図書館でヘッドフォンをつけている」時のplaceona(プレイソナ)
目、耳、手も自由に使えますが、発声は制限されている。
「料理」のplaceona(プレイソナ)
目、耳、声は自由に使えますが、手は汚れている。
「ナイトクラブ」のplaceona(プレイソナ)
目、手は自由に使えますが、耳は塞がっています(うるさくて聞こえない)。会話も難しい(うるさくて話すことができない/聞こえない可能性が高い)。
「運転」のplaceona(プレイソナ)
手はハンドルを握っていて離せない、目も運転に集中しているので、完全に自由ではない。耳は聴くことは出来る。また、会話をすることも出来る。
となります。上記に基づいて、音声UI(Voice User Interface: VUI)がどのようなシナリオで有用か、また、入力の仕組みとしての音声の役割がどういうものかが分かります。
Benedict Evans(ベネディクト・エヴァンズ)氏のツイート
もしあなたがVUIを未来のものと考えているなら、電話でこれから見て触れるすべてのことを口に出して説明してみてください。
Benedict Evans(ベネディクト・エヴァンズ)氏は、このツイートで独特なユーモアと鋭い洞察力で音声入力への皮肉を言っています。
エヴァンズ氏について
ツイートに書かれているようなことは、音声入力において重要な点ではありません。というのも、音声入力は殆どのプレイソナにおいて最適ではありません。
声による操作は遅くなることがあり、しかも、うまく動作しないことがある
音声インターフェースの入力スピードと精度は、他のすべてのユーザーインターフェイスより劣っています。
音声による入力は、タイピングするよりも速く入力することが出来るはずですが、最も高度な音声認識処理でさえも、喋るスピードを処理に合わせるために遅くする必要があったり、入力エラーが発生することがあります。
また、音声を聞くことは文字を読むスピードよりも遅い点です。特にデジタル合成の音声を聞く場合などです。 その音声を聞いて認識するよりも、早く文字を認識し読むことができます。
こういった難点があるのに、なぜビジュアルボイスメールがヒットしたのか?(ベネディクト氏が以下のように指摘しています)
Benedict Evans(ベネディクト・エヴァンズ)氏のTweet
過去のiPhoneで売りの機能の一つは、ビジュアルボイスメールでした。
そのVUIを捨てることは大きな前進でした。が、もう忘れてしまったのだろうか・・・
以上のことから、2つのことは明らかです。
- VUIは既存のインターフェースよりも劣ったインターフェースです。
- VUIが使える場合においては、最適なシナリオが必要になる。
どのような場面で声による操作が有効ですか?
この問題は無数のカンファレンスで質問されています。そして、これに対する回答は、「ケース・バイ・ケース」が一般的です。そのため質問をする時は、より具体的な質問をする方が良いです。
音声入力が有効な場面はどの程度ありますか?
今日、運転していた時にふと思いました。例えば、「家の周りを歩いている間、音楽を聞く。」場面ではVUIは役に立つと思います。
他のいくつかの利用シーンが生まれたとしても、それらは生産性を高める方向にいくのか、それとも手軽に使う程度に留まるか?どちらでしょうか?
仮に、ユーザーはAirPods(イヤホン)を通してメールの読み上げをしてほしいと思うでしょうか?などです。(きっとないでしょう)
音声入力はどれくらいの精度ですか?
大抵はタイピング入力するよりもしゃべって音声入力する方が早いです。ただし、現在のテクノロジーでは音声入力は信頼性が低く完全に使えるような状態ではありません。
本当のマルチモーダなやり取りはいつから始まりますか?
今日のほとんどのメッセージングアプリはボイスメッセージ機能が入っています。VUIは、それらのメッセージの作成方法と同じです。
ユーザーがコミュニケーションを取るために適切でない、どんな状況(コンテキスト)にいる時でも、ボイスメッセージ機能を使う必要があるからです。これは、私が「ライブラリードライバー問題」と呼んでいます。
Michelle(マイケル)が図書館に居て、Alice(アリス)が運転している場合、どのようにコミュニケーションを取れば良いでしょうか?
Michelle(マイケル)は図書館に居るため、しゃべるまたは音を出すことは出来ません。Alice(アリス)は運転しているので、手と目を使うことは出来ません。
これらのことから、ボイスメッセージ機能は適切でないことが分かります。
ユーザーにとって理想的なメッセージアプリは、任意の方法でメッセージを作成することができ、何らかの理由によって、会話を妨げられないことが必要です。
VUIがユビキタスなメッセージになるには、人々が自分のデバイスに話しかけることが普通になり、今までのようにそれらを制御することでしょう。
プラットフォームもパラダイムも…!?
VUIはプラットフォームではありません。
しばしば新しいUIパラダイムと主張されていますが、我々はそれらをデザインし、提供しなければならない新しいインターフェースなのです。