メタ情報
学会・論文誌 | CVPR 2015 |
arxiv 提出日 | 2015年5月12日 |
論文リンク | https://arxiv.org/pdf/1503.03832.pdf |
要約
- ある画像に対し、同じカテゴリの画像と異なるカテゴリの画像をピックアップして損失を計算する Triplet loss を提案
- 顔認識に必要な情報を 1 人あたり 128 bytes で表現可能
- LFW で 99.63 % の精度、 YouTube Faces DB で 95.12 % の精度 (先行研究よりも誤認識率が 30 % 改善)
Triplet loss の考え方は以下の図の通りです。Negative な関係にある画像を遠く、 Positive な関係にある画像同士を近くに写像するよう学習します。

先行研究と比較した優位性
先行研究の手法は複数の CNN 出力を結合してから PCA で次元削減するものや CNN 出力を SVM にかけて分類を行うものなど、 CNN によって得た特徴を後処理する必要があった。
本稿の手法は画像をユークリッド距離空間に埋め込んでいるため後処理は不要であり、単に距離を比較することで同一のクラスなのか異なるクラスなのかがわかる。(End-to-End な手法である)
また、顔の領域周辺をクロップして入力すれば十分に精度が担保できるため、画像に対して特別高いコストのかかる前処理が不要である点も大きい。(先行研究では 3 次元方向の向きを揃えた上で学習する必要がある手法もあったため。)
学習・評価に利用したデータセット
学習データ
- Personal Photos (12 K ** 2)
- 参照元分からず。
- 100M – 200M の画像 / 8M の分類
評価データ
- LFW (Labelled Faces in the Wild)
- Youtube Faces DB
関連論文
- DeepFace: Closing the Gap to Human-Level Performance in Face Verification
- Deeply learned face representations are sparse, selective, and robust
所感
本日も少し古めの論文を読んでみました。 Triplet Loss が初めて提案された論文です。
Triplet loss 自体とても納得感のある考え方のように感じました。3 つのサンプルで精度が上がるなら、もっとたくさんのサンプルをまとめて学習した方が良い結果になるのかが少し気になりました。
ユークリッド空間に埋め込むことで認識だけでなく、クラスタリングや Verify にも利用できる点が実用的にもありがたいですね。
今回は以上です。ここまで読んでいただきありがとうございました。
コメント