画像認識

画像認識とは?

画像認識イメージ

人間の脳は賢く、画像に写っているモノを理解することができますが、コンピュータには難しいことです。
「画像認識」は、コンピュータに「画像に何が写っているのか?」を理解させる技術であり、近年非常に注目されています。

画像はコンピュータ上でピクセル(=画素)という単位で表現されています。 ピクセルはデジタル画像を構成する最小の要素で、写真などのデジタル画像は色と階調(輝度)の情報(色情報)を持つ四角い点(=ピクセル)で構成されています。

コンピュータはピクセルごとの色情報のみを判断しているため、画像に何が写っているかまでは理解ができません。 画像に何が写っているかをコンピュータに理解させる技術が、「画像認識」です。

近年、スマートフォンやSNSの普及により、膨大な写真(画像データ)が日々撮影されています。 また、カメラを搭載した無人航空機やロボットの普及も進み、画像の蓄積が加速します。これに伴い、画像をコンピュータで認識するニーズは一層強まっていくと考えられます。 さらに今後は、農業、製造などの産業をはじめ、さまざまな分野での活用が期待されます。

「人の視覚判断」と「コンピューターの画像判断」のイメージ

特定物体認識は、対象とする物体の画像の「模様」を事前に登録しておき、入力された画像に写っている被写体の模様から「それが何か」を特定します。

ドコモが開発したシステムでは、被写体の「模様=特徴量」をデータベースの画像と比較し、瞬時に、高精度で、類似性の高い物体を特定します。
例えば、多数の商品ラベルを登録しておくことで、ラベルの模様からどの商品かを識別することができ、模様が同一であるモノ(本、CD、DVD、TV ゲームソフト、食品パッケージなど)の認識を得意としています。

また被写体の画像のボケ、回転、傾き、拡大・縮小、隠れ、白とびなどに頑健で、登録している画像と大きくかけ離れていなければ認識することができます。

「特定物体認識」の画像

一般物体認識は、模様や見え方は異なるが「一定の画像特徴を持つ」被写体を、定められた「カテゴリ」に分類します。
例えば、さまざまなファッション、花、料理、風景など、商品ラベルのように固定でなくても、画像としての見え方に一定の特徴があるそれらのカテゴリを認識する技術です。

ドコモは、これまで困難とされていたファッションのカテゴリのような抽象的な概念を画像から認識することを、「Deep Learning」を用いることで解決しました。
また「一般物体認識」は、ユースケースごとに学習データを最新化することで、汎用的なユースケースの認識が実現可能です。

「一般物体認識」技術の画像
  • Deep Learning(ディープラーニング):人が何かの画像を見たときには、過去に学習した特徴と照らし合わせ、脳内で無意識のうちにプロセスをたどった結果として近いモノを関連付け、画像が何かを判断します。この脳神経での情報処理メカニズムを参考に作られたのが「ニューラルネットワーク」という機械学習手法であり、これを多層にして組み合わせたものを「Deep Learning」と呼びます。
  • 画像認識のより詳しい解説記事を、こちらでご紹介しています。
このページのトップへ