文字検出

【論文簡易紹介】FOTS: Fast Oriented Text Spotting with a Unified Network

文字検出

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌CVPR 2018
発行日2018年1月5日
リンクhttps://arxiv.org/pdf/1801.01671v2.pdf

要約

  • 文字の検出と文字の認識を End-to-End で行う FOTS を提案
  • 畳み込み特徴を共有するため従来 2-stage の手法の 2 倍近い速度
  • ICDAR 2013, 2015, 2017 MLT で SOTA な精度を達成
FOTS のアーキテクチャ図(論文より引用)

先行研究と比較した優位性

従来の研究では文字領域の検出モデルで領域を検出した後に文字認識モデルで文字を認識する 2-stage の手法が主流だった。

これは、文字検出と文字認識を完全に独立したタスクとして解くため、畳み込み特徴量を 2 度抽出することになり非効率かつ認識に時間がかかってしまう課題があった。

提案手法は画像の畳み込み特徴量を文字検出と文字認識で共有する End-to-End なモデルのため、効率的かつ認識を高速に実行できる。

また、 ROI Rotate と呼ばれるテクニックを導入することによって傾きのあるテキストの特徴量を効率的に抽出できる。

学習・評価

ImageNet データセットで事前学習した model の重みを利用して学習を実施した。

まず synth800k データセットで学習し、後に ICDAR 2015, ICDAR2017 MLT で追加学習を行なった。

各手法毎の精度は以下の通り。提案手法である FOTS が Detection 、 End-to-End 双方で最高の精度を達成している。

各手法の精度比較表(論文より引用)

関連論文

所感

文字の検出と文字の認識を End-to-End で行う FOTS の論文を読みました。

紙の帳票を多く所有する政府組織や大企業は情報を電子化するために多大なコストを払っているため、画像内の文字を検出して認識する技術(Text Spotting と呼ばれます)はビジネスドメインで強い注目を集めています。

利用者の観点からも End-to-End な手法はチューニングするパラメータ数の低下、アノテーションコストの低下と言った恩恵が多くあり、データさえ持っていれば検証がしやすい点もありがたいですね。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました