NLP+VS︱深度学习数据集标注⼯具、图像语料数据库、实验
室搜索
~~因为不太会使⽤、matlab⼯具,所以在找⼀些⽐较简单的⼯具。
.
.
⼀、NLP标注⼯具BRATaglow
.
.
⼆、VS标注⼯具——LabelImg
1、PyQt
2、Vatic
参考:
视频标注⼯具vatic,Vatic源⾃MIT的⼀个研究项⽬(Video Annotation Tool from Irvine, California)。输⼊⼀段视频,⽀持⾃动抽取成粒度合适的标注任务并在流程上⽀持接⼊亚马逊的众包平台Mechanical Turk。
kakiVatic源⾃MIT的⼀个研究项⽬(Video Annotation Tool from Irvine, California)。输⼊⼀段视频,⽀持⾃动抽取成粒度合适的标注任务并在流程上⽀持接⼊亚马逊的众包平台Mechanical Turk。除此之外,其还有很多实⽤的特性:
1.简洁使⽤的GUI界⾯,⽀持多种快捷键操作
2.基于opencv的tracking,这样就可以抽样的标注,减少⼯作量
具体使⽤时,可以设定要标注的物体label,⽐如:⽔果,⼈,车,等等。然后指派任务给到众包平台(也可是⾃⼰的数据⼯程师)。现阶段⽀持的标注样式是框(box)。⼀个⽰例,下图标注了NBA直播⽐赛中的运动员
.
3、BBox-Label-Tool
.
4、图像标注VS2013项⽬
有⼈⾃⼰写了⼀个版本:
打框的代码(c++)我封装成了dll,下载地址:(我的环境是win7vs2013旗舰版,win8 win10好像不能运⾏)
别⼈封装的opencv动态库,现在修改为opencv2.4.10,64位,vs2013,按⽹上教程配置好opencv,资源地址:
上⾯的代码好像忘写操作说明了,这⾥写⼀下:
(1)图⽚显⽰出来后,输⼊法切换到英⽂;
prospects
(2)在⽬标的左上⾓按下⿏标左键,拉⼀个包围框到⽬标右下⾓,然后键盘输⼊标签(⼀个字符)
(3)继续(2)操作,直到框完该张图⽚上的⽬标;
(4)按n进⼊下⼀张,esc退出。
注意:标签只能输⼊⼀个字符,你可以在⽣成的txt⽂件中替换成你实际的标签。
.
5、Yolo_mark
YOLO V2 准备数据的图形界⾯⽬标边界框标注⼯具关于英语的手抄报
.
6、视频标注⼯具
.
.
三、Amazon’s Mechanical Turk 离线⼯作框架
四、⽤已训练来进⾏图像标注
《使⽤和Fisher 向量进⾏图⽚标注》()
beni
主讲⼈Lior Wolf ,特拉维夫⼤学的教员在⼀次伦敦深度学习会议上的⼀次公开演讲:
为了实现图像标注和搜索,他们最开始⽤CNNs 将图⽚转换成向量,⽤Word2Vec 将词语转换成向量。⼤部分研究⼯作都集中于如何将词语向量结合到语句向量之中,由此产⽣了基于Fisher 向量的模型。⼀旦他们得到了语句向量,他们使⽤典型相关分析(CCA )将图⽚表⽰和语句表⽰投射到同⼀空间⾥,使图像和句⼦可以匹配,找到最近邻的部分。
参考⾃博客:
.
五、snape
⼈⼯数据集⽣成⼯具,来看⼀段有趣的独⽩:
Snape is primarily ud for creating complex datats that challenge
students and teach defen against the dark arts of machine learning.
专门是针对领域⾃动⽣成数据集。
安装:
Via Github .
.延伸⼀ 国内⼀些众包的数据标注服务商
1、
1git clone /mbernico/snape.git 2cd snape 3python tup.py install
1
2
3
⾥⾯确实有⼀些图像分类、图像标注的任务。但是也不是很多。
2、
我的技能时间交易平台⼩鱼⼉⽹成⽴最晚,但却⾛了最具互联⽹思维的盈利之路,增值服务盈利,平台在整个过程交易中不收取费⽤,提供分析,筛选服务者等增值服务,主动权完全交给⽤户,互联⽹
时代,流量为王,⽤户为王,⼩鱼⼉⽹的盈利模式⽆疑向这个宗旨贴近的,长期来看,这种盈利模式或许最聪明。
挺⼤的,但是没有看到有图像的任务。
3、月份英文缩写>juice的复数
送渤海王子归国中国最专业威客⽹站⼀品威客⽹借鉴了猪⼋戒盈利模式的短板,对⽤户划分普通⽤户和vip⽤户,对普通⽤户实⾏免费,对VIP⽤户收取会员费,在互联⽹时代,有效的笼络住了⼤批⽤户的⼼,不失为⼀种好的盈利模式。
国内最⼤的众包了吧,但是图像标识项⽬很少,商家也⼏乎没有看到..
4、
确确实实有数据标注,⽽且有⽂本、语⾳、图⽚采集项⽬。
blue collar5、百度众包
⾥⾯有很多任务与案例,⽂本、语⾳、图⽚都有。
6、阿⾥众包
图像采集任务?
.
.
六、图像数据集少儿读物排行榜
⼀部分来源:
1、LSUN:⽤于场景理解和多任务辅助(房间布局估计,显着性预测等)。
2、⾏⼈检测DataSets
(1).基于背景建模:利⽤背景建模⽅法,提取出前景运动的⽬标,在⽬标区域内进⾏特征提取,然后利⽤分类器进⾏分类,判断是否包含⾏⼈;
(2).基于统计学习的⽅法:这也是⽬前⾏⼈检测最常⽤的⽅法,根据⼤量的样本构建⾏⼈检测分类器。提取的特征主要有⽬标的灰度、边缘、纹理、颜⾊、梯度直⽅图等信息。分类器主要包括神经⽹络、SVM、adaboost以及现在被视为宠⼉的深度学习。