濫読した論文の概要をメモしています。
斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。
メタ情報
論文・学会誌 | CVPR2019 |
発行日 | 2018年12月12日 |
リンク | https://arxiv.org/pdf/1812.04948.pdf |
要約
- スタイル変換のテクニックを利用した新たな画像生成モデル Style-GANを提案
- 新たなデータセット FFHQ を提案
- 新たな評価指標 Perceptual path length とLinear Separability を提案

先行研究と比較した優位性
上記の図を見ると明らかだが、過去の研究では潜在空間 z を直接 CNN の入力としているのに対し、提案手法では全結合層により潜在空間を中間特徴空間へと埋め込んでいる。これにより従来の GAN で利用している潜在空間 z では表現が難しかった特徴の表現が可能になり、生成の質が向上している。
また、生成において各層にノイズを付与しており、このノイズによって生成される画像にバリエーションを持たせることができる。具体的には、髪の毛の揺れ、シミやそばかすが表現できるようになる。
学習・評価に利用したデータセット
学習・評価に CelebA-HQ データセット、 FFHQ データセット(本論文にて提案されたデータセット)を利用。
評価指標には FID を利用。
また、Disentanglement を定量化するための評価指標である Perceptual path length とLinear Separability を採用し、それぞれの手法における数値を評価している。
関連論文
- On self modulation for generative adversarial networks
- https://arxiv.org/pdf/1810.01365.pdf
- self modulation と呼ばれる AdaIN とよく似た手法が提案されている。
- Progressive Growing of GANs for Improved Quality, Stability, and Variation
- https://arxiv.org/pdf/1710.10196.pdf
- 著者らが発表した論文で、徐々にCNN の解像度を上げていく PG-GAN が提案されている。
所感
CVPR 2019 に採択された比較的新しい画像生成の論文を読みました。
潜在空間を一度異なる特徴空間に写像することで、潜在空間の分布からでは表現の難しかった特徴を表現できるようになった、と理解しました。
また、スタイル変換の分野で採用された技術(AdaIN)を利用して特徴空間を正規化することで安定した画像の生成が可能になっているようです。
以上です。
ここまでご覧いただきありがとうございました。
コメント