今やニュースで人工知能(AI)という言葉を聞かない日はない。ビジネス領域から日常生活まで、さまざまなシーンにおいてAI技術が活用されるようになってきた。AIに対して大きな期待が寄せられる「AIブーム」は過去にも何度かあったが、現在の第3次AIブームは単なるブームでは終わらないという見方もある。これは、近年コンピュータの性能が向上してきたこと、デジタル化によって世の中のデータ量が爆発的に増えてきたことが背景にある。AI技術が今後さらに発展していくことで、私たちの生活や社会はどう変わっていくのだろうか。「NTT R&Dフォーラム 2018(秋)」に展示されていた最新テクノロジーから紐解いていきたい。

AIの“おしゃべり”が人間に並ぶ日

AIが音声を認識することによって、話しかけるだけでニュースや音楽が聴けたり、家電製品を操作できたりするなど、私たちの生活をより快適にしてくれるスマートスピーカー。その普及が進むことにより、人とコンピュータとのコミュニケーションのあり方が次第に変わりつつある。

観戦体験のコンピュータとのより自然なコミュニケーションをめざして昨年10月、黒柳徹子さんのアンドロイドとして話題になった「totto」にNTTの音声対話技術が搭載された。

tottoに搭載された音声認識システムの特徴は、名前を呼ばずともいつでも話しかけることができる点。一般的なスマートスピーカーでは、まず名前を呼びかけてから話しはじめる必要があるが、たとえばtottoが喋っている途中にユーザーが割り込んで話しはじめてしまった場合にも、tottoは発話を中断し、話を聞き取ろうとする状態になる。

またtottoは、

totto「あなたどこからいらしたの?」
ユーザー「北海道です」
totto「あら素敵。北海道のどこかしら?」
ユーザー「函館です」
totto「函館は夜景がキレイで素敵よね」

といった具合に、会話の内容に応じて適切なタイミングで相づちを打ったり、関連する言葉を発言したり、さらに深掘りする質問を返したりなど、対話自体も円滑に進むような反応をしてくれる。そのため、まるで黒柳さんのインタビューを受けているかのような感覚を楽しむことができるのだ。

tottoと会話する様子

こうしたtottoの音声対話機能のベースには、AIの基板となるニューラルネットワークという技術がある。数百万ものSNS上の発話データをニューラルネットワークによって学習し、さらにトーク番組『徹子の部屋』の42年にわたる会話データを利用して学習モデルをチューニングすることで、黒柳さん特有のキャラクター性を持った自律的な音声対話が実現されているのだという。

人間関係においては、音声による対話だけでなく、言葉を使わない非言語コミュニケーションも重要となる。tottoでは、人間によく似た見た目を持つアンドロイドならではのメリットを生かし、視線や表情、頭の動きやハンドジェスチャなど、話の内容にあわせた自然な動作を加えることで、より人間らしい豊かなコミュニケーションに近づけている。

スマートスピーカーのようなスピーカー型の音声対話システムが普及するなか、あえてアンドロイドに音声対話機能を搭載した背景には、「長く愛着を持ってもらえるものをつくりたい」という思いがある。会話の相手がスマートスピーカーであるか、アンドロイドかによって、話しかけ方も自然と変わってくるだろう。tottoでは、ユーザーがコンピュータに向かって一方的に話しかけるのではなく、仲を深めていきたくなるようなインターフェースをめざした。

AIやロボットと人間が共存する未来は、もうすでにやってきている。「ロボットやAIが仕事を奪ってしまう」という不安の声もあるなか、tottoのような人間と自然に対話できるテクノロジーによって人間とAIとのコミュニケーションのあり方を考えていくことで、人間の良きパートナーとしてのロボットやAIという世界観をつくっていくことができるかもしれない。

ぐしゃぐしゃになったお札でも画像認識できる技術

買い物かごの中身を分析する変形対応アングルフリー物体検索技術

デジタルカメラやスマートフォンなどさまざまな電子機器に搭載されている「画像認識」。AI技術によって、その性能は近年大きく進歩している。日常生活だけでなく、医療やビジネスの現場でも活用されるようになってきた。

AIによる画像認識は一般的に、対象となる物体の特徴を大量の画像データから学習していくことで、未知の画像を与えたときにそれが何であるかを確率として表現するものだが、包装製品や布製品のような、形がその時々によって変化してしまう物体については、画像上での見え方が大きく変わるために認識精度が低くなってしまうという課題があった。

こうしたさまざまな変形パターンをとる物体の認識精度を保つためには、変形に応じた画像データをあらかじめ参照画像として登録しておかなければならない。これは、変形パターンが無数にあるような物体に対しては、膨大な参照画像の登録が必要になってしまうということでもある。

そこで今回、少数の画像を登録しておくだけで変形する物体を高精度に認識・検索できる技術としてNTTが発表したのが「変形対応アングルフリー物体検索技術」だ。

この技術では、物体全体の類似度のみで同一物体かどうかを判定するのではなく、複数の部分領域ごとに物体の特徴の対応関係をみてクラスタリングしていくことで、物体に未知の変形が加わっていても同一物体かどうかを認識することができる。たとえばぐしゃぐしゃになったお札でも、もとのキレイなお札と同一であるかどうかを判別することが可能だ。

登録が必要となるのは、物体に対して撮影方向を変えた数枚の画像のみ。物体変形後の画像を大量に用意する必要はない。

買い物かごの中身を分析する変形対応アングルフリー物体検索技術

展示では、買い物かごに入れたポテトチップスやカップ麺などの商品を認識して、それらを買い物リストと照らし合わせるデモンストレーションが行われていた。現状では物体の模様を特徴として利用しているため、模様がない物体の認識は難しいというが、模様がある物体であれば80%-90%程度の精度で正答できるという。

今後は模様のない物体まで含めて変形を捉えられるようにこの技術を拡張していくことで、生鮮食品などにも対象範囲を広げていくことが期待されている。こうして対象範囲が広がり、さまざまな製品が認識できるようになれば、店舗でのレジ打ち業務の省力化や、将来的には無人店舗への応用にもつながっていくと考えられる。また、仕分け業務や在庫管理の効率化など商品管理にも活用できることから、「働き方改革」を実現するために重要な技術の一つになるともいえるだろう。

Photos : Tadayuki Uemura
Text:Hitomi Suto