論文紹介

【論文簡易紹介】Show and Tell: A Neural Image Caption Generator

論文紹介

メタ情報

学会・論文誌※ IEEE(論文誌)に掲載
発効日2014年11月17日
論文リンクhttps://arxiv.org/pdf/1411.4555.pdf

アーキテクチャ

論文より引用

要約

  • CNN、LSTM を利用して画像からキャプション(説明文)を生成する手法を提案。
  • 画像を入力、説明文を正解として訓練を実施。
  • PASCAL2012 に対して BLUE-1 精度が先行研究の 25 から 59 まで向上。
  • その他のデータセットでも SOTA な精度達成。

先行研究と比較した優位性

先行研究は、人手で作成した特徴量を利用したルールベースの手法がほとんどだった。

本稿では画像の特徴量抽出に CNN、文章の生成に LSTM を利用したディープラーニングベースの手法である点が優位。

ディープラーニングの登場によって為された画像分類における大幅な精度向上、文章生成における大幅な精度向上を利用している。

関連論文

所感

発効日が 2014 年と、かなり古い論文を読んでみました。

2020 年 1 月現在で被引用数 3000 超えの非常に著名な論文です。

ディープラーニングを用いて画像からキャプションを生成するタスクの先駆けですね。

当時のハンドクラフトな手法をディープラーニングベースの手法に置き換えて、 CNN による画像エンコード → LSTM による系列長デコード の流れを採用したことが非常に大きいかと思います。

今の知識で見るとネットワークのアーキテクチャは比較的シンプルに見えますが、先行研究に対する精度の向上は非常に大きく、ディープラーニングの強さが窺えます。

関連論文にも、非常に著名な論文が複数並んでいるため一読の価値ありです。

以上です。
ここまでご覧いただき、ありがとうございました。

コメント

タイトルとURLをコピーしました