濫読した論文の概要をメモしています。
斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | ECCV2018 |
発行日 | 2018年9月1日 |
リンク | https://arxiv.org/abs/1809.00219 |
要約
- RRDB(Residual-in-Residual Dense Block)アーキテクチャ + Batch Normalization なしの ESRGAN を提案
- RaGAN(Relativistic acerage GAN) の Descriminator 採用により現実的な画像を生成する表現力を獲得
- PIRM2018-SR Challenge にて優勝
先行研究と比較した優位性
Batch Normalization は学習データと評価データの性質が異なる場合にモデルの表現力が制限される副作用があることを突き止め、その利用をやめることでモデルの表現力を向上させている。
また、二段階にわたって残差項の加算を行う Residual-in-Resudial Dense Block の採用により表現力を大きく向上させることに成功している。

さらに、従来の discriminator のように画像が「本物か偽物か」を判定するのではなく、画像が「より他の画像よりもリアルか」を判定する descriminator (アイディアは RaGAN にて提案された)に変更しており、これも出力画像の解像度向上に寄与したと主張している。
学習・評価
前提として、入力となる低解像度画像は正解となる高解像度画像を 1 / 4 して作成している。
学習データ
学習には以下のデータセットを利用している。
- DIV2K Dataset 800 枚
- FLickr2k Dataset 2650 枚
- OST(Outdoo rScenTraining) Dataset
評価データ
評価には以下のデータセットを利用している。
- Set5
- Set14
- BSD100
- Urban100
- PIRM self-validation Dataset
視覚的にも、先行手法より高画質に再現されていることが見てわかる。また、各指標(左がPSNR、右が perceptual Index)においても、ESRGAN が最も良いスコアを獲得していることがわかる。
なお、論文中には 4 枚の画像に対する結果のみが記載されているため、都合の良い画像をピックアップしたようにも見えるが、付録にデータセット毎の精度も記載されており、全てのデータセットに対して SOTA なスコアを獲得していることがわかる。

関連論文
- Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
- Second-Order Attention Network for Single Image Super-Resolution
所感
比較的新しい超解像の論文を読みました。
結果を見るとかなり荒く細かい部分を精密に復元できているように見受けられます。
ただ、例示で拡大されていた画像は幾何学模様っぽい物質(毛や草の集まり)がほとんどだったので、人の手のような物体の場合にうまく境界が復元できるのかは気になるところです。
アルゴリズムの部分で見ると Batch Normalization に悪影響があるとの結果が意外でした。
ほとんどの画像認識タスクで例外なく利用されている印象でしたが、正規化の制約によって表現力が低下してしまうようです。
何事も過信は禁物ですね。
本日は以上です。ここまでご覧いただきありがとうございました。
コメント