濫読した論文の概要をメモしています。
斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
なお、誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | – |
発行日 | 2018年5月21日 |
リンク | https://arxiv.org/pdf/1805.08318.pdf |

要約
- Self-Attention 機構を利用することで画像の大局的な特徴を捉える SA-GAN を提案
- Spectral 正規化、TTUR(Two Timescale Update Rule)の利用により学習を安定化・高速化
- Inception Score の SOTA を 36.8 から 52.52 まで更新
- Frechet Inception Score の SOTA を 27.62 から 18.65 まで更新
先行研究と比較した優位性
従来の GAN は CNN をベースとしているため、局所的な領域の特徴抽出はうまくできるが大局的な特徴の抽出が難しく、手や足など、空間的な配置が重要なパーツの生成場所が安定しない課題があった。
本手法では Self-Attention 機構の利用により各 pixel を生成する際に「画像のどの領域に注目すべきか」を知覚することで安定した画像の生成を可能にした。
また、生成器と識別器の学習率を異なる値にするテクニックである TTUR(Two Timescale Update Rule)を採用することで生成器と識別器がナッシュ均衡に到達しやすくなっている。
さらに、従来の研究では識別器のみに利用していた Spectral Normalization を生成器にも利用することで学習の安定化につながった。
学習・評価に利用したデータセット
学習、評価ともに ImageNet データセットを利用。
関連論文
- Large Scale GAN Training for High Fidelity Natural Image Synthesis
- A Style-Based Generator Architecture for Generative Adversarial Networks
所感
Self-Attention 機構が導入された GAN の論文を読みました。
2017 年に機械翻訳の世界で登場した Self-Attention 機構が徐々に画像認識の世界にも適用されてきており メディア処理領域はお互い学び合うことが多いようですね。自然言語の論文には今までほとんど手を出せていませんでしたがこれからは積極的に読んでいきたいと思います。
以上です。ここまでご覧いただきありがとうございました。
コメント