文字認識

【論文簡易紹介】An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

文字認識

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌IEEE Trans. Pattern Analysis and Machine Intelligence 2016
発行日2015年7月21日
リンクhttps://arxiv.org/pdf/1507.05717.pdf

要約

  • 可変長の文字列を End-to-End で学習できる CRNN を提案
  • IIIT-5K, Street View Text と ICDAR datasets で SOTA な精度を達成
  • 楽譜認識(OMR)においても高い精度を達成
CRNN のアーキテクチャ(論文より引用)

先行研究と比較した優位性

既存の研究では画像の特徴を HOG で抽出してから RNN へと入力して系列を出力する手法や、事前に文字の切れ目を定義して 1 文字ずつ画像分類を行う手法が提案されていたが、前処理なく End-to-End で学習する手法はほとんど存在しなかった。

本論文では CNN – RNN – CTC の 3 つのモジュールを組み合わせることでセグメンテーションをはじめとする特別な前処理を行うことなしに学習が可能な手法を提案している。

学習・評価

学習データ

全ての実験で、800万枚の合成画像(Synth)を利用。

評価データ

  • ICDAR 2003(IC03)
  • ICDAR 2013 (IC13)
  • IIIT 5k-word (IIIT5k)
  • Street View Text (SVT)

関連論文

所感

画像内に描画される可変長の文字を認識する CRNN の論文を読みました。

画像を文字列に変換するマルチモーダルなタスクを CNN + LSTM + CTC の組み合わせで End-to-End に認識可能にしています。

研究領域としては比較的ニッチな文字認識ですが、ビジネスニーズはそれなりにあるようなので紹介してみました。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました