Technology

ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks

Technology

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌ECCV2018
発行日2018年9月1日
リンクhttps://arxiv.org/abs/1809.00219

要約

  • RRDB(Residual-in-Residual Dense Block)アーキテクチャ + Batch Normalization なしの ESRGAN を提案
  • RaGAN(Relativistic acerage GAN) の Descriminator 採用により現実的な画像を生成する表現力を獲得
  • PIRM2018-SR Challenge にて優勝

先行研究と比較した優位性

Batch Normalization は学習データと評価データの性質が異なる場合にモデルの表現力が制限される副作用があることを突き止め、その利用をやめることでモデルの表現力を向上させている。

また、二段階にわたって残差項の加算を行う Residual-in-Resudial Dense Block の採用により表現力を大きく向上させることに成功している。

Residual Block と Residual in Residual Dense Block の比較

さらに、従来の discriminator のように画像が「本物か偽物か」を判定するのではなく、画像が「より他の画像よりもリアルか」を判定する descriminator (アイディアは RaGAN にて提案された)に変更しており、これも出力画像の解像度向上に寄与したと主張している。

学習・評価

前提として、入力となる低解像度画像は正解となる高解像度画像を 1 / 4 して作成している。

学習データ

学習には以下のデータセットを利用している。

  • DIV2K Dataset 800 枚
  • FLickr2k Dataset 2650 枚
  • OST(Outdoo rScenTraining) Dataset

評価データ

評価には以下のデータセットを利用している。

  • Set5
  • Set14
  • BSD100
  • Urban100
  • PIRM self-validation Dataset

視覚的にも、先行手法より高画質に再現されていることが見てわかる。また、各指標(左がPSNR、右が perceptual Index)においても、ESRGAN が最も良いスコアを獲得していることがわかる。

なお、論文中には 4 枚の画像に対する結果のみが記載されているため、都合の良い画像をピックアップしたようにも見えるが、付録にデータセット毎の精度も記載されており、全てのデータセットに対して SOTA なスコアを獲得していることがわかる。

各超解像手法の適用結果を比較した図(論文より引用)

関連論文

所感

比較的新しい超解像の論文を読みました。

結果を見るとかなり荒く細かい部分を精密に復元できているように見受けられます。

ただ、例示で拡大されていた画像は幾何学模様っぽい物質(毛や草の集まり)がほとんどだったので、人の手のような物体の場合にうまく境界が復元できるのかは気になるところです。

アルゴリズムの部分で見ると Batch Normalization に悪影響があるとの結果が意外でした。

ほとんどの画像認識タスクで例外なく利用されている印象でしたが、正規化の制約によって表現力が低下してしまうようです。

何事も過信は禁物ですね。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました