人間が目や耳、手や声などを自然に組み合わせて対話するように、機械とのやり取りも、より豊かで直感的にしようとする考え方がマルチモーダルである。キーボードや画面タッチだけでなく、音声やジェスチャーといった複数の方法を統合することで、私たちの状況に合わせた、より快適な体験を生み出すことを目指している。
感覚を組み合わせて意図を伝える
マルチモーダルとは、視覚、聴覚、触覚といった複数の感覚や、声、身振りといった表現方法(モダリティ)を組み合わせて、コンピューターなどと情報をやり取りする仕組みや考え方のことだ。一つの入力・出力方法に頼るのではなく、複数の経路を統合することで、より人間の感覚に近い、自然な対話を実現する。例えば、スマートフォンに声で話しかけながら、画面を指し示すような操作がこれにあたる。
語源・提唱者
この概念は特定の誰かが発明したものではなく、コンピューター科学や言語学など、様々な分野で育まれてきた。その象徴的な原点とされるのが、1980年にマサチューセッツ工科大学(MIT)の研究者Richard A. Boltが発表した「”Put-That-There”」システムである。これは、利用者が「そこにあるアレを動かして」と声で指示しつつ、画面上の物体を指し示すと、コンピューターが声と指差しを統合して意図を理解するという画期的な試みだった。キーボード入力が当たり前だった時代に、人間本来の自然なコミュニケーションの可能性を示したのだ。
リチャード・A・ボルト(出典:https://media.sciencephoto.com/image/t4810024/800wm/T4810024-Richard_Bolt_with_computerised_eye-tracker.jpg)
情報の伝わり方が豊かになる
マルチモーダルの価値は、複数の方法を組み合わせることで、情報の伝達をより確実で豊かにできる点にある。この組み合わせ方には、大きく分けて二つの性質がある。
- 補完性: パズルのピースのように、異なる方法が互いの情報を補い合うこと。例えば「アレを取って」という声だけでは何を指すか不明だが、同時に指を差すことで初めて「指差した先にある物を取る」という意図が完成する。
- 冗長性: 同じ情報を複数の方法で同時に伝え、確実性を高めること。スマートフォンの着信が、画面の表示(視覚)、着信音(聴覚)、振動(触覚)で同時に知らされるのが良い例だ。これにより、騒がしい場所でも着信に気づくことができる。
利用者の状況を想像して設計する
製品やサービスを設計する際、マルチモーダルの考え方は、利用者が置かれる多様な状況に対応するための指針となる。単に音声操作のような機能を追加するのではなく、まず利用者の状況を深く想像することから始める。
「料理中で両手が汚れている」「電車の中で声が出せない」といった具体的な場面を洗い出すのだ。そして、それぞれの場面で最も負担が少ない操作方法は何かを考える。例えば、調理アプリなら、画面タッチだけでなく声で操作できる選択肢を用意することで、手が濡れていても使えるようになる。このように、一つの目的を達成するために複数の手段を用意することで、製品は様々な状況で使いやすいものになる。
運転中の安全と便利を両立させる
マルチモーダルの考え方が活かされている身近な例が、自動車のカーナビゲーションシステムだ。運転中は、前方を注意し続ける必要があり、画面の注視や細かい操作は危険を伴う。この課題を解決するため、カーナビは複数の感覚に働きかける工夫がされている。地図という「視覚」情報に加え、「次の交差点を右に曲がります」といった「聴覚」からの音声案内が、視線を逸らすことなく運転を助ける。さらに、重要な分岐点では画面表示と警告音を同時に使い、情報を確実に伝える。近年では、目的地設定などを声で行う音声入力も一般的になり、運転操作を妨げることなく、安全で快適な移動体験を実現している。
関連用語
- モダリティ (Modality)
- マルチモーダル・インタラクション (Multimodal Interaction)
- クロスモーダル (Cross-modal)