⼈体姿态估计数据集整理(PoEstimationKeypoint):
MSCOCO(逐年。。。
样本数:2K
关节点个数:14
全⾝,单⼈
Leeds Sports Datat [12]及其扩展[13],我们将通过LSP共同表⽰。它们包含11000个训练和1000个测试图像。这些是来⾃体育活动的图像,因此在外观和特别是关节⽅⾯⾮常具有挑战性。
样本数:2W.
关节点个数:9
全⾝,单⼈,FLIC由从电影中拍摄的5003张图像(3987次训练,1016次测试)组成。 图像在上半⾝注释,⼤多数图形直接⾯向相机。
样本数:25K
关节点个数:16
全⾝,单⼈/多⼈,40K people,410 human activities
MPII Human Po由⼤约25k个图像组成,为多⼈提供注释,提供40k注释样本(28k训练,11k测试)。
样本数:>= 30W
《春天》
关节点个数:18
全⾝,多⼈,keypoints on 10W people。118,287.张
样本数:21W Training, 3W Validation, 3W Testing
关节点个数:14
全⾝,多⼈,38W people
打分标准Metrics:
LSP、FLIC、MPII:
Percentage of Correct Parts (PCP)
学党史心得感悟
Percent of DetectedJoints (PDJ).(pcp改进版本)
COCO:
MAP
mask rcnn 是把2014组合了,也就是coco 2017,包括对应的annotations具体为:
train2014:person_keypoints_train2014.json (80k)
124号令val2014: ①person_keypoints_val2014.json
②person_keypoints_minival2014.json (5k ,常⽤验证集)
③ person_keypoints_valminusminival2014.json (35k)
train 2017=person_keypoints_train2014.json +person_keypoints_valminusminival2014.json
也就是训练集有 115k张图⽚。准确数字为118,287.张
1 gpu下,2img/gpu;⼀个epoch 为57500iters。作者是12.17个epoch,也就是约为 72万。
"keypoints_coco_2014_train": {
"img_dir": "coco/train2014",
"ann_file": "coco/annotations/person_keypoints_train2014.json",
},
"keypoints_coco_2014_val": {
"img_dir": "coco/val2014",
"ann_file": "coco/annotations/person_keypoints_val2014.json"
},
"keypoints_coco_2014_minival": {
"img_dir": "coco/val2014",
"ann_file": "coco/annotations/person_keypoints_minival2014.json",
force},
"keypoints_coco_2014_valminusminival": {
"img_dir": "coco/val2014",
"ann_file": "coco/annotations/person_keypoints_valminusminival2014.json",
},
此数据集要求在具有挑战性、不受控制的条件下定位⼈员关键点。
train: trainval datat (57k图像和15万个⼈实例)。
validated: minival datat (5000 图像)。
testing ts :test-dev t(20k imgs) +test-chanllenge t(20k imgs)
are evaluated in OKS-bad mAP.(object keypoints similarity 不同⼈姿态的相似性)
那么:
img_batch==2,num_GPU=1, 57000/2=28500 iters/epoch 72000 才 2.79 个epoch img_batch==2,num_GPU=8, 57000/16=3562.5 iters/epoch 90000 约为 25 个epoch 25个epoch 我需要 712500 也就是所谓的 720000
MSCOCO 2014: 包含150 k多个train实例和8万多个test实例,250k个带有17个关键点的Person实例。该数据集中的⼈员的重叠频率低于众包,并且它的⼈群索引集中在接近于零的地⽅。cs鼠标
keypoints-challenge2016:(弃)它包括105 698次train和⼤约80 000次testing human instances。训练集包含100多万个标有标签的关键点。测试集分为四个⼤致相同⼤⼩的划分:测试挑战、测试开发、测试标准和测试保留。
MSCOCO 2017: 包括trainval datat(57k图像和15万个⼈实例。我们评估了我们在val2017集和test-dev2017集上的⽅法,分别包含5000张图像和20k图像。
COCO 2014+minival ==2017
2018 : 训练集和验证集的标注是公开的(超150k个⼈和170万已标注关键点)。数据集包括超200k张图⽚和250k个标注有关键点信息的⼈物实例(COCO中⼤部分⼈物都是中等或⼤尺⼨),这⾥是。
mpii⼈体姿态数据集[2]包括从⼴泛的真实世界活动中拍摄的图像,并附有全⾝姿态注释。⼤约有25k张有40k个主题的图⽚,其中有12k个测试对象和其余的训练对象。数据增强和训练策略与ms coco相同,但与其他⽅法相⽐,输⼊⼤⼩为256×256。
下⾯是转载的,不记得转谁的了 侵权请告知。
在 2017 年之前,测试集有四个拆分 (dev / standard / rerve / challenge)。 从 2017 年开始,将测试集简化为只有 dev / challenge 拆分,其他两个拆分被删除。
2017 Test Set Splits
2017测试集拆分
形容雪花
2017 年 COCO 测试集包含 ~40K 个测试图像。 测试集被分成两个⼤致相同⼤⼩的分割约 20K 的图像: test-dev 和 test-challenge。
split#imgs submit limit scores available leaderboard
Val~5K no limit immediate none
Test-Dev~20K 5 per day immediate year-round
Test-Challenge~20K 5 total workshop worksho
Test-Dev: test-dev split (拆分) 是在⼀般情况下测试的默认测试数据。通常论⽂中提供的结果应该来⾃于 test-dev 集,以便公正公开⽐较。每位参与者的提交次数限制为每天上传 5 次以避免过拟合。请注意,每个参与者只能向公众排⾏榜发布⼀次提交 (然⽽,论⽂可能会报告多个测试开发结果)。测试开发服务器将保持全年开放。
Test-Challenge: test-challenge split 被⽤于每年的 COCO ⽐赛。结果在相关研讨会 (通常是 ECCV 或 ICCV) 中公布。每个参与者的提交数量限制在挑战过程中最多5次上传。如果您提交多个条⽬,则基于 test-dev AP 的最佳结果将被选中作为参赛者的参赛作品。请注意,每个参与者只能向公众排⾏榜发布⼀次提交。测试挑战服务器将在每年的⽐赛前保持⼀段固定的时间。
属于每个 split 的图像在 image_info_test-dev2017 (⽤于 test-dev)和 image_info_test2017 (⽤于 test-dev 和test-challenge) 中定义。test-challenge 图像的信息没有明确提供。相反,在参与挑战时,必须在完整的测试集 (包括test-dev 和test-challenge) 上提交结果。这有两个⽬标。⾸先,参与者在挑战研讨会之前通过在 test-dev 中看到评估结果,获得关于他们提交的⾃动反馈。其次,在挑战研讨会之后,它为未来的参与者提供了⼀个机会,可以与test-devsplit 的挑战条⽬进⾏⽐较。我们强调,当提
交到完整的测试集
(image_info_test2017) 时,必须在所有图像上⽣成结果⽽不区分拆分。最后,我们注意到,2017年的 dev / challenge 分组包含与2015年 dev / challenge 分组相同的图像,因此跨越多年的结果可以直接进⾏⽐较。
2015 Test Set Splits
该测试集⽤于 2015 年和 2016 年的检测和关键点⽐赛。它不再使⽤,评估服务器关闭。
2014 Test Set Splits
The 2014 test t is only ud for the captioning challenge. Plea e the caption eval page for details.
We evaluate our network on two benchmark datats, FLIC [1] and MPII HumanPo [21]. FLIC is compod of 5003 images (3987 training, 1016 testing) takenfrom films. The images are annotated on the upper body with most figures facingthe camera straight on. MPII Human Po consists of around 25k images withannotations for multiple people providing 40k annotated samples (28k training,11k testing). The test annotations are not provided so in all of our experimentswe train on a s
ubt of training images while evaluating on a heldout validationt of around 3000 samples. MPII consists of images taken from a wide range ofhuman activities with a challenging array of widely articulated full-body pos.
我们在两个基准数据集FLIC [1]和MPII HumanPo [21]上评估我们的⽹络。 FLIC由从电影中拍摄的5003张图像(3987次训
练,1016次测试)组成。 图像在上半⾝注释,⼤多数图形直接⾯向相机。 MPII Human Po由⼤约25k个图像组成,为多⼈提供注释,提供40k注释样本(28k训练,11k测试)。 没有提供测试注释,因此在我们的所有实验中,我们训练⼀部分训练图像,同时评估约3000个样本的保持验证集。 MPII由来⾃各种各样的⼈类活动的图像组成,具有⼴泛关注的全⾝姿势。
Evaluation is done using the standard Percentage of Correct Keypoints (PCK)metric which reports the percentage of detections that fall within a normalized distance of the ground truth. For FLIC, distance is normalized by torso size, andfor MPII, by a fraction of the head size (referred to as PCKh).
使⽤标准的正确关键点百分⽐(PCK)度量进⾏评估,该度量报告落在地⾯实况的标准化距离内的检测百分⽐。 对于FLIC,距离通过躯⼲⼤⼩标准化,对于MPII,通过头部⼤⼩的⼀⼩部分(称为PCKh)
标准化。
FLIC:Results can be en in Figure 6 and Table 1. Our results on FLIC arevery competitive reaching 99% PCK@0.2 accuracy on the elbow, and 97% onthe wrist. It is important to note that the results are obrver-centric, whichis consistent with how others have evaluated their output on FLIC.
FLIC:我们对FLIC的结果⾮常有竞争⼒,达到99%PCK 肘部精确度为0.2,腕部精度为97%。 值得注意的是,这些结果是以观察者为中⼼的,这与其他⼈如何评估其在FLIC上的输出⼀致。
飞天扫帚
We achieve state-of-the-art results across all joints on the MPII Hu-man Po datat. All numbers can be en in Table 2 along with PCK curves inFigure 7. On difficult joints like the wrist, elbows, knees, and ankles we improveupon the most recent state-of-the-art results by an average of 3.5% (PCKh@0.5)with an average error rate of 12.8% down from 16.3%. The final elbow accuracyis 91.2% a
MPII:我们在MPII Hu-man Po数据集的所有关节上实现了最先进的结果。 表2中可以看到所有数字以及图7中的PCK曲线。在⼿腕,肘部,膝盖和脚踝等困难关节上,我们将最新的最新结果平均提⾼3.5%(PCKh @ 0.5)平均错误率为12.8%,低于16.3%。 最终肘关节准确率为91.2%,腕关节准确度为87.1%。 ⽹络MPII做出的⽰例预测可以在图5中看到nd wrist accuracy is 87.1%. Example predict
ions made by the networkon MPII can be en in Figure 5
DatatsThere is a wide variety of benchmarks for hu-man po estimation. In this work we u datats, which have large number of training examples sufficient to train alarge model such as the propod DNN, as well as are real-istic and challenging.The first datat we u is Frames Labeled In Cinema(FLIC), introduced by [19], which consists of 4000 train-ing and 1000 test images obtained from popular Hollywood movies. The images contain people in diver pos and es-pecially diver clothing. For each labeled human,10 upper body joints are labeled.The cond datat we u is Leeds Sports Datat [12]and its extension [13], which we will jointly denote by LSP.Combined they contain 11000 training and 1000 testing im-ages. The are images from sports activities and as such are quite challenging in terms of appearance and especially articulations. In addition, the majority of people have 150pixel height which makes the po estimation even more challenging. In this datat, for each person the full body is labeled with total 14 joints.
数据集⼈体姿势估计有各种各样的基准。在这项⼯作中,我们使⽤数据集,其中有⼤量的训练样例⾜以训练⼤型模型,如建议的DNN,以及真实和具有挑战性。我们使⽤的第⼀个数据集是Frames Labeled In Cinema(FLIC),介绍由[19]组成,其中包括从好莱坞流⾏电影中获得的4000张训练图像和1000张测试图像。这些图像包含各种姿势的⼈和各种各样的服装。对于每个标记的⼈,标记了10个妈妈怎么画
上⾝关节。我们使⽤的第⼆个数据集是Leeds Sports Datat [12]及其扩展[13],我们将通过LSP共同表⽰。它们包含11000个训练和1000个测试图像。这些是来⾃体育活动的图像,因此在外观和特别是关节⽅⾯⾮常具有挑战性。此外,⼤多数⼈的⾝⾼为150像素,这使得姿势估计更具挑战性。在该数据集中,对于每个⼈,全⾝标记有总共14个关节。
We refer to this metric as Percent of DetectedJoints (PDJ).