川村渇真の「知性の泉」

人間型エージェント:
使いやすさの改良にはほとんど貢献せず


きちんとした分析をせずに使いやすいと思っている

 エージェント指向技術の応用の1つとして注目されているのが、人の姿で画面上に現れる人間型エージェントだ。検索結果やニュースなどを喋って報告したり、いろいろな質問を言葉で受け付けるなど、人間相手と同じようにコンピュータが使えると思われている。
 しかし実際には、そんなレベルまで達するのは容易ではない。人間が言葉で出す命令を理解するのは、非常に困難だ。受け付ける命令を限定するなら、ある程度までは言葉で命令できる。しかし、扱うが内容が単純な場合に限られる。複雑な内容を言葉で説明するのは、非常に難しいからだ。
 技術的な難しさを別としても、本当に使いやすいのだろうか。この点に関しては、非常に疑わしい。きちんと分析せずに、使いやすいと信じている節がある。というわけで、人間型エージェントが持つ特性を分析してみた。

声で対話するインターフェースは欠点が多い

 人間型エージェントが本当に使いやすいかどうかは、そのインターフェースをきちんと分析することで分かる。注目すべきなのは、エージェントとユーザーが、喋り言葉である声を用いて対話する点だ。そのため、喋り言葉の持つ特性に大きな制約を受ける。
 まず最初に、エージェント側が情報を伝える状況を考えてみよう。言葉は、基本的にシーケンシャルな表現方法である。階層構造などの全体像を説明するのは不得意だ。階層や関連を言葉で説明するのは非常に難しいし、もし可能だとしても、聞く側が内容を頭の中で整理しなければならない。もう1つの大きな問題は、喋った内容は音として出力されるので、すぐに消えてしまうこと。画面表示と違って、あとから見直すことができない。言われた内容をすべて覚えるか、再び喋ってもらうように命令するしかない。
 次に、ユーザーが言葉で命令する場合を考えてみよう。数個の項目から何かを選ぶとき、マウスでなら対象物をクリックするだけで済む。ところが言葉なら、その名前か番号を指示しなければならない。番号が付いてなかったり名前がない場合は、言葉で指示するのが途端に難しくなる。ドロー画像の特定オブジェクトを指し示すときなど、いろいろな言葉を組み合わせて表現するしかなく、マウスに比べれば格段に面倒だ。また、ユーザーが喋った言葉を入力する場合にも、少し問題が生じる。日本語のように同音異義語が多い言葉では、入力内容をエージェントに喋らせても、正しいかどうか確認できない。この点では文字のほうが確実で、格段に上だ。
 最後に、エージェント側とユーザー側の両方で言葉を使って対話する場合を考えてみよう。前述の両方の欠点がすべて含まれるので、もっとも最悪の状況になる。エージェントが喋った内容はすぐに消えるし、ユーザーが対象を指示するのが難しい。実際に使ったら、かなりイライラするだろう。たとえば、「鈴木さんから来たメールだけど、たしか3日前の。あの日は3通届いたはずだから、2番目のメールだと思うな。あっ、鈴木さんて、鈴木三郎さんのことだよ...」と喋り続ける。

画面に整理して表示したほうが使いやすい

 以上のように、喋り言葉による伝達方法は相当に使いにくい。実用になるのは、伝える内容が非常に単純な場合だけである。現在のパソコン上で扱っているデータのほとんどは、画面表示のほうが適しているし、喋る方法では実用にならない。画面ならば、構造を表す図で整理して表示できるし、見たい部分や命令を指示するのも容易だ。これは、現在のコンピュータで既に実現している内容である。
 別な実現方法として、人間型エージェントを既存の表示方法と組み合わせることも可能だ。画面表示の上に、小さな人間型エージェントが登場して、喋りながら説明箇所を指さす。この場合でも、情報の分かりやすさから考えて、画面表示のほうがメインとなる。エージェントは補助的に喋っているだけでしかない。喋った内容はすぐに消えるが、画面表示はずっと残ったままだからだ。また、言葉だけでは全体像を表現するのが難しいため、「このような構造で」とか指さして説明する形になる。
 実際には、人間が説明するときも、いろいろな資料を見せながら行う。複雑な内容の場合には、ホワイトボードに構造を描いたり、用意した資料を指し示しながら説明する。人間型エージェントと資料表示の組合せは、人間の説明に近い形といえる。
 では、組み合わせた方式がベストなのだろうか。実は、画面表示よりも欠点が多い。指さして説明するだけなら、指のアイコンだけあればよく、人間が登場する必要はない。また、喋って説明する方法も、周囲に声が伝わるため、オフィスなどは邪魔でしかない。ヘッドフォンで聴く方法もあるが、余分な機器を使う分だけ面倒だ。それよりも、画面上の文章を読むほうが簡単である。つまり、現在の表示方法が、実は便利なのである。文章を読み上げる機能が必要なら、人間を登場させないでも実現できる。
 以上のことをすべて考慮すると、人間型エージェントが登場しなくてもよいという結論に達する。エージェントが喋る内容はメッセージパレットなどで表示し、指差し表示で説明対象を示すだけで十分だ。人間が登場しない分だけ、余分なCPUパワーを必要としないメリットもある。
 唯一実用的なのは、言葉による命令だけだ。命令と言うよりも、抽出条件を指示すると言うほうが適切だろう。何かを表示させるとき、コマンドを選ぶよりも素早くできる場合がある。たとえば、「最近3日分の受信メールを表示」と言葉で喋り、対象となるデータの一覧(この場合は受信メールの一覧)を表示するようなケースだ。このように単純な指示なら、言葉のほうが簡単にできる。ただし、メールの一覧や内容を表示するのは画面のほうが適するので、言葉による指示はあくまで補助的な使い方でしかない。

人間型エージェントでは使いにくさを解消できない

 人間型エージェントが使いやすそうに見えるのは、ある種の思い込みが原因と考えられる。通常の人間と同じように、エージェントも動いてくれると錯覚するのだろう。たとえば、ユーザーの指示内容が不十分あるいは不正確なとき、欠けている部分を補って賢く解釈したり、適切な質問を返してくれるとか。相手が人間のような姿をしていることで、人間と同じ機能を持っていると思い込みやすい。しかし、ユーザーインターフェースの基本ルールである「ユーザーから見える姿は、それが持つ機能を的確に表すべき」に照らし合わせれば、良くない使い方といえる。
 人間型エージェントは、現在の使いにくいコンピュータを改良する手段として、今でも大きな期待を持たれている。ところが、このようにきちんと分析すれば、それが夢物語であると分かる。たしかに、コンピュータの苦手な人が使うときは、拒否反応を減らす効果はあるだろう。しかし、人間型エージェントを用いたとしても、いろいろな機能を使えるようにはならない。つまり、使いにくさの解消方法にはなり得ないのだ。
 使いにくい原因は、実は別なところにある。コンピュータ上での情報の扱い方が根本的に悪いためだ。その改良を基本的な目的としたのが、情報中心システムである。根本原因を改良せずに、人間型エージェントの開発を進めても、使いやすいコンピュータを実現できない。より重要な問題点を解決することに、もっと注目すべきなのだが。

(1997年5月17日)


下の飾り