画像生成 論文紹介

【論文簡易紹介】Progressive Growing of GANs for Improved Quality, Stability, and Variation

画像生成

濫読した論文の概要をメモしています。

斜め読みした情報を記載しているため、誤りを含んでいる可能性があります。
誤りを見つけていただいた場合は修正いたしますのでコメント等いただければ幸いです。

メタ情報

論文・学会誌ICLR 2018
発行日2017年10月27日
リンクhttps://arxiv.org/pdf/1710.10196.pdf

要約

  • 低解像度の画像生成から開始し、層を徐々に追加して高解像な画像を生成する PG-GAN を提案
  • CIFAR-10 における IS(Inception Score)で SOTAとなる 8.80 を達成
  • 高画質な画像データセット CelebA-HQを提案
PG-GAN のアーキテクチャ(論文より引用)

先行研究と比較した優位性

従来の GAN において、高解像度な画像を生成することには大きな課題が 2 つあった。

1 つ目の問題は、高解像度な画像を生成しようとすると勾配問題が増幅されてしまうため、学習に失敗しやすいことである。

もう 1 つは、物理リソースの問題である。高解像度な画像を扱う場合は GPU でまとめて演算可能な枚数(バッチサイズ)を小さくせざるを得ないため、バッチノーマライゼーションによる学習安定化の恩恵が受けづらくなり、やはり学習に失敗しやすい。

提案手法では、まず低解像度な画像生成から学習を開始し、徐々に層を追加することで生成する画像の解像度を上げていく学習スキームを採用することで、上記の問題をある程度解決することに成功した。

また、このスキームを採用することによって学習の安定化(低画質な画像生成は比較的安定している)・学習の高速化(学習のほとんどが低画質な画像生成に費やされるため相対的に速い)の恩恵も同時に受けることができた。

学習・評価

SWD / MS-SSIM の評価

SWD(Sliced Wasserstein distance )と呼ばれる、学習データと生成される結果画像の分布の近さを図る指標と出力分布のバリエーションを図る MS-SSIM を精度評価の指標に採用している。

出力のばらつきの小ささを評価する MS-SSIM における精度の向上は大きくないが、学習データとの分布の近さを図る SWD は大きく向上することを示しており、より学習データに近い画像が生成できることを示している。


各手法とデータセットにおける SWD と MS-SSIM の比較(論文より引用)

Inception Score 評価

学習・評価には CIFAR-10 データセットを利用し、評価指標には Inception Score を採用した。

SOTA な精度である Inception Score 8.80 を達成した。

関連論文

所感

レイヤを徐々に追加することで高解像度な画像生成を可能にした PG-GAN の論文を読みました。

徐々に問題の難易度を上げていく学習の方法はいくつか前例(カリキュラム・ラーニング等)がありましたが、画像生成のタスクにうまく適用されたのは本論文が初めてのケースかと思います。

本論文でも新たな指標を用いて提案手法の良さを主張していますが、画像生成の分野は評価の指標を選定するのが非常に難しいように感じます。

「人が見て違和感がない」ことを数値化するのは困難ですし、そもそも人が見て違和感がないことが良いことなのか、学習データに近い画像が生成できれば良いのかなども議論の余地がありそうです。

提案された手法に注目するのはもちろんのこと、どのような評価指標を利用しているのかについても注目していきたいですね。

本日は以上です。ここまでご覧いただきありがとうございました。

コメント

タイトルとURLをコピーしました