科研費成果報告用ページ


助成状況
科学研究費補助金(研究代表分)
年度 種別 テーマ名 補助金額
2011(H23) 基盤研究C 文字スポッティングを導入した情景中の文字情報探索システムの開発 910,000 ここをクリック
2010(H22) 基盤研究C 文字スポッティングを導入した情景中の文字情報探索システムの開発 780,000 ここをクリック
2009(H21) 基盤研究C 文字スポッティングを導入した情景中の文字情報探索システムの開発 780,000 ここをクリック

研究目的
 我々の日常の行動において,何気ない情景中から文字情報を見つけ出し,それを理解して利用することが多い.また,文字情報が障害物や遠方で読むことが困難である場合,視点を変えたり,見えるところまで移動して文字情報を取得することもある.

 本研究では,我々が文字情報を取得する何気ない行動プロセスを,OCRを用いた情景中の文字パターンを認識するシステムに導入することを目的とする.

 オフライン文字認識の基本技術は,パターン理解・認識・文書画像処理の分野に属し,様々な研究結果が国内外で報告されている【文献①②】.実際に,FA(Factory Automation)やOCR(Optical Character Reader)が実用レベルに達している状況から見ても,オンライン文字認識同様に文字認識の基本技術を応用された汎用製品例は数多い.

図1に一般的なOCRの処理手順を示す.

現状のOCRでは,入力となる文書画像に必ず文字パターンが存在していることを前提としている.そして,文字パターンだけを抜き出して切り出す処理,正規化,2値化が前処理で行なわれ,文字パターンは,認識部に送られる.この認識部においては,自由手書き文字のレベルにおいても,認識率が得られるようになったが,これはあくまで辞書に登録された学習パターンに対してであり,辞書にない未知パターンが入力されると,大幅に認識率が低下する.また,OCRでは,文字でないパターンが認識部に入力されても,何らかの文字コードを出力してしまう問題がある【文献③④】.つまり,学習パターンで,かつ,必ず文字パターンのみ入力されることが,OCRを実用的に利用するための制約条件である.これに関連して,ある程度の制約条件を与えることで,情景中の文字をOCRで認識する研究も行なわれている【文献⑤⑥⑦】.この情景中の文字をOCRで認識するには,前述した前処理における文字の切り出し,正規化の性能が認識結果に大きく影響する.しかも,文書と異なり,文字切り出し以前において文字の存在位置の確定,文字以外の雑音パターンの除去,文字パターンに類似した雑音パターンの排除等の処理も必要となる.
これに対して,研究代表者(松尾)は,OCRを利用した情景中の文字情報の認識の実現に向けて,前処理における切り出し以前の処理である「情景画像からの文字パターン抽出手法」を提案【文献⑧】し,良好な抽出結果を得ている.

その処理手順の概略を図2に示す.

 この手法の提案によって,図1の前処理部分に改良を加えることで,情景画像中の文字をOCRで認識させることを可能にした.しかしながら,この手法においても,OCRの認識を前提とするならば,情景画像中に必ず文字が存在しているという文書画像と同様の制約条件を課す必要がある.それ以外に,抽出精度の面からでは,情景画像の質が出力結果である文字パターンに大きく影響を与えるため,以後の認識部において高い認識率が得られない問題があった.この問題は,他の研究においても同様の(入力された情景画像に対するシステムのロバスト性)問題として結論付けられていることが多い.【文献⑥】
ここで,誤認識を増加させる情景画像の質の低下の原因として,入力時のぶれ,焦点ボケ,シェーディング,解像度不足等があげられる.また,高解像度に撮影しても画像の見かけ上,遠方に存在するため文字パターン自体の大きさが微小であるときも誤認識を誘発しやすくなる.これに対して,情景中に文字情報が存在するか否かの判定も含め,文字情報が存在するであろうと考えられる位置や領域に対して着目する技術の開発の着想に至った.図3に示すような文字情報への着目技術(図中では①から⑨の基本手順であるが,②と⑤を独立に処理しても良い)が実現すれば,着目領域に対する認識結果を受けて入力装置(図中ではカメラ)の制御にフィードバックできるため,OCRで誤認識となったパターンに対して,ズーミングやカメラ視点の変更を行い,画像や映像を再入力することで詳細なパターンを再取得できる.これによって,情景画像の質の影響によるOCRの認識精度の低下を回避させることができる.
 
この研究は,OCR(既存の文字認識技術)の適用範囲を拡張するために必要な知見を社会に提供するものであり,研究テーマそのものが入力装置の制御によって文字抽出,認識精度を高めるという独創的でかつ学術的にみても推進すべき重要な研究課題といえる.

 ここで,本研究の特色,独創的な点及び予想される結果と意義は,従来から研究されている本研究で取り扱う前処理以降の特徴抽出および認識手法の技術や改良については取り扱わず,従来の研究での課題であった入力環境の制約そのものを本研究によって緩和させ,既存のOCRや従来研究で得られた数多くの文字認識技術の知見を最大限に活用できるようにすることである.これによって,キーボード入力に頼っていた情景中の様々な文字情報の電子化への支援,文字情報の電子化作業における労力の低減が図れる.また,情景中の様々な文字情報の位置を探索し,認識できれば,ロボット制御等において,形状情報だけでは取得できない対象物の意味情報を取得することが可能となるため,文字情報駆動型ロボットの開発へと研究対象を拡張することが可能になる.

 このように,本研究で得られる成果の波及効果は広く,文字情報のディジタル化という側面から見ても,我々社会生活に非常に貢献するものである.さらに,我々が情報を得るために,あらゆるシーンから文字情報を探し出して,次の行動への足がかりにするプロセスの実現も達成することができる.これ以外にも,授業の板書内容を自動的にe-Learningコンテンツ化する研究や,自走ロボットを用いた書籍背表紙の認識による図書管理の研究等への応用技術としても利用可能である.
参考文献
美濃:“文書画像処理の現状と動向”,信学誌,Vol.76,No.5,pp.502-509 (1993)
中野康明:“文字認識・文書理解の最新動向[Ⅰ]~[Ⅵ]”,電子情報通信学会誌,Vol.83 No.2,pp.143-148(2000)
Michio UMEDA “Advances in Recogniion Methods for Handwritten Kanji Characters”,IEICE Transactions on Information and Systems,Vol.E79-D.No.5,pp.401-410(1996)
小川:“パターン認識・理解の新たな展開”,電子情報通信学会 (1994)
J.Ohya,A.Shio,S.Aakamatsu:“Recognizing character in scene images”,IEEE transactions on pattern analysis and machine intelligence,Vol.16,No2,pp.214-220(1994)
後藤,阿曽:“様々な画像に適応できる文字パターン抽出手法について~サーベイおよび一構成例~”,信学技報,PRMU99-234,pp.23-30 (2000)
劉,山村,大西,杉江:“シーン内の文字列領域の抽出について”,信学論,Vol.J81-DⅡ, No.4,pp.641-650 (1998)
松尾,上田,梅田:“適応しきい値法を用いた情景画像からの看板文字列領域の抽出”,信学論,Vol.J80-DⅡ,No.6,pp.1617-1626 (1997)

〒639-1080 大和郡山市矢田町22
奈良工業高等専門学校 情報工学科 
教授  松尾 賢一
E-mail:matsuo□info.nara-k.ac.jp
(巡回ロボット対策のため,□を@に変えています)