科學也可以如此靠近

人臉識別常用數據集大全(長期更新中)

3月
08
2018

2018年3月08日07時 今日科學 知乎專欄

知乎專欄

本文由極視角整理,所有數據集均為網上公開數據集。

原文首發地址:

1.PubFig: Public Figures Face Database(哥倫比亞大學公眾人物臉部資料庫)

The PubFig database is a large, real-world face dataset consisting of 58,797 images of 200 people collected from the internet. Unlike most other existing face datasets, these images are taken

in completely uncontrolled situations with non-cooperative subjects.

這是哥倫比亞大學的公眾人物臉部數據集,包含有200個人的58k+人臉圖像,主要用於非限制場景下的人臉識別。

2.Large-scale CelebFaces Attributes (CelebA) Dataset

CelebFaces Attributes Dataset (CelebA) is a large-scale face attributes dataset with more than 200K celebrity images, each with 40 attribute annotations. The images in this dataset cover large

pose variations and background clutter. CelebA has large diversities, large quantities, and rich annotations, including

10,177 number of identities,

202,599 number of face images, and

5 landmark locations, 40 binary attributes annotations per image.

這是由香港中文大學湯曉鷗教授實驗室公布的大型人臉識別數據集。該數據集包含有200K張人臉圖片,人臉屬性有40多種,主要用於人臉屬性的識別。

3.Colorferet

The database is used to develop, test, and evaluate face recognition.

為促進人臉識別算法的研究和實用化,美國國防部的Counterdrug Technology Transfer Program(CTTP)發起了一個人臉識別技術(Face Recognition Technology 簡稱FERET)工程,它包括了一個通用人臉庫以及通用測試標準。到1997年,它已經包含了1000多人的10000多張照片,每個人包括了不同表情,光照,姿態和年齡的照片。

4.Multi-Task Facial Landmark (MTFL) dataset

This dataset contains 12,995 face images collected from the Internet. The images are annotated with (1) five facial landmarks, (2) attributes of gender, smiling, wearing glasses, and head

pose.

該數據集包含了將近13000張人臉圖片,均采自網絡。

5.BioID Face Database - FaceDB

1521 images with human faces, recorded under natural conditions, i.e. varying illumination and complex background. The eye positions have been set manually.

這個數據集包含了1521幅解析度為384x286像素的灰度圖像。
每一幅圖像來自於23個不同的測試人員的正面角度的人臉。為了便於做比較,這個數據集也包含了對人臉圖像對應的手工標註的人眼位置文件。
圖像以 "BioID_xxxx.pgm"的格式命名,其中xxxx代表當前圖像的索引(從0開始)。類似的,形如"BioID_xxxx.eye"的文件包含了對應圖像中眼睛的位置。

6.Labeled Faces in the Wild Home (LFW)

More than 13,000 images of faces collected from the web. Each face has been labeled with the name of the person pictured. 1680 of the people pictured have two or more distinct photos in the

data set.

LFW數據集是為了研究非限制環境下的人臉識別問題而建立的。這個數據集包含超過13,000張人臉圖像,均採集於Internet。

每個人臉均被標準了一個人名。其中,大約1680個人包含兩個以上的人臉。

這個集合被廣泛應用於評價Face Verification算法的性能。

7.Person identification in TV series

Face tracks, features and shot boundaries from our latest CVPR 2013 paper. It is obtained from 6 episodes of Buffy the Vampire Slayer and 6 episodes of Big Bang Theory.

該數據集所選用的人臉照片均來自於兩部比較知名的電視劇,《吸血鬼獵人巴菲》和《生活大爆炸》。

8.CMUVASC & PIE Face dataset

The face datasets were provided by the face reserch group at CMU.

CMU PIE人臉庫建立於2000年11月,它包括來自68個人的40000張照片,其中包括了每個人的13種姿態條件,43種光照條件和4種表情下的照片,現有的多姿態人臉識別的文獻基本上都是在CMU PIE人臉庫上測試的。

9.YouTube Faces

The data set contains 3,425 videos of 1,595 different people. The shortest clip duration is 48 frames, the longest clip is 6,070 frames, and the average length of a video clip is 181.3

frames.

YouTube Video Faces是用來做人臉驗證的。在這個數據集下,算法需要判斷兩段視頻裡面是不是同一個人。有不少在照片上有效的方法,在視頻上未必有效/高效。

10.CASIA-FaceV5

CASIA Face Image Database Version 5.0 (or CASIA-FaceV5) contains 2,500 color facial images of 500 subjects.

該數據集包含了來自500個人的2500張亞洲人臉圖片.

11.The CNBC Face Database

This database includes multiple images for over 200 individuals of many different races with consistent lighting, multiple views, real emotions, and disguises (and some participants returned

for a second session several weeks later with a haircut, or a new beard, etc.).

該數據集採集了200個人在不同狀態下(不同的神情,裝扮,髮型等)的人臉照片。

12.CASIA-3D FaceV1

4624 scans of 123 persons using the non-contact 3D digitizer, Minolta Vivid 910, as shown in figure.

該數據集包含了來自123個人的4624張人臉圖片,所有圖片均由下圖的儀器進行拍攝。

13.IMDB-WIKI

In total we obtained 460,723 face images from 20,284 celebrities from IMDb and 62,328 from Wikipedia, thus 523,051 in total.

IMDB-WIKI人臉資料庫是有IMDB資料庫和Wikipedia資料庫組成,其中IMDB人臉資料庫包含了460,723張人臉圖片,而Wikipedia人臉資料庫包含了62,328張人臉資料庫,總共523,051張人臉資料庫,IMDB-WIKI人臉資料庫中的每張圖片都被標註了人的年齡和性別,對於年齡識別和性別識別的研究有著重要的意義。

14.FDDB

A data set of face regions designed for studying the problem of unconstrained face detection. This data set contains the annotations for 5171 faces in a set of 2845 images taken from the Faces

in the Wild data set.

FDDB是UMass的數據集,被用來做人臉檢測(Face Detection)。這個數據集比較大,比較有挑戰性。而且作者提供了程序用來評估檢測結果,所以在這個數據上面比較算法也相對公平。


延伸閱讀

神秘女孩木乃伊在木箱裡被發現,穿戴完好頭上還有花

6種神秘詭異的未知生物, 第3種極有可能真實存在

恐龍遺體中居然發現它:狂吸血

心酸 | 北極熊骨瘦如柴 垃圾桶翻食物畫面看哭網

什麼是量子計算,現在知道還不算晚


熱門內容

友善連結