画像生成 論文紹介

【論文簡易紹介】LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

画像生成

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
なお、誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌ICLR2019
発行日2018年9月28日
リンクhttps://arxiv.org/pdf/1809.11096.pdf
BigGAN の生成画像(論文より引用)

要約

  • SA-GAN を巨大化(バッチサイズ 8 倍、 フィルタ数 1.5 倍)した BigGAN を提案
  • Shared Embedding, Hierarchical latent spaces, Orthogonal Regularization を採用
  • Inception Score の SOTA を 52.52 から 166.3 に更新
  • FID の SOTA を 18.65 から 9.6 に更新

先行研究と比較した優位性

先行研究で提案された SA-GAN のネットワークに対し、バッチサイズを 256 から 2048 に増やし、各層の CNN のフィルタ数を 1.5 倍にして学習を実施している。

また、先行研究の一部で取り入れられていたテクニックのうちいくつか(Shared Embedding、 Hierarchical latent spaces、 Orthgonal Regularization)を利用することでさらなる精度向上を達成している。

学習・評価に利用したデータセット

学習・評価に ImageNet データセットを利用。

様々な解像度(128×128, 256×256, 512×512)で実験を行なっている。

関連論文

所感

本日は SA-GAN の後継である Big GAN の論文を読みました。

精度の向上度合いを見ると非常にインパクトが強いですが、ネットワークの巨大化(バッチサイズ 8 倍、 フィルター数 1.5 倍)が大きな改善点のように感じました。

なお、精度向上しているものの学習の不安定さは残るらしく、Early Stoping によりモード崩壊直前のモデルを評価に利用しているようです。

Truncated Trick と呼ばれるテクニックも利用していますが、こちらも設定する閾値によってずいぶん結果が変わることが記されており、学習の安定化は依然として課題があると思われます。

GAN 全般に言えることですが、タスクが「モード崩壊に陥らずにナッシュ均衡を目指す」ことになるため学習がセンシティブであり、正規化や多少のテクニックの導入が必要になるケースが多い印象です。

この辺りについてより詳細に理解するために、しばらく GAN に関連する論文を見ていきたいと思います。

以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました