AI人才“蓄水池” 探访人工智能背后的数据标注师:AI也需要“老师”

2020-08-13 14:00:42 来源:环球网

打印 放大 缩小

“为了让机器理解人类的思维方式,前期我们就要当人工智能的老师。”作为从数据标注师成长起来的数据标注培训师,山西麟诺网络科技公司(以下简称为“山西麟诺”)的李宇龙告诉环球网科技记者,“我把自己比作‘幼教’,当我们拿一个红苹果给它(人工智能)并教会它识别,再拿一个绿苹果给它,因为颜色差异它就不认识;所以我们的职责就是不断地帮助它去识别不同颜色、大小,甚至是被咬一块或者坏掉的苹果,直到我们随便拿一个苹果,它都能认识。”

近日,环球网科技记者走访了百度(山西)人工智能基础数据产业基地(以下简称“百度山西数据标注基地”),探寻人工智能背后的“老师”——数据标注师。

“从来没想过会从事‘AI’工作”

“来这里之前我就是在煤矿上,抬头是山,低头是煤,从来没有想过自己现在的工作能跟无人驾驶、人工智能有关系。”曾在山西一家煤矿做了8年监控员的郭梅,现在就是百度山西数据标注基地的一名数据标注师。

“从来没想到自己会从事与人工智能相关的工作。”郭梅对记者表示,来到百基地后,经过公司的岗前培训和团队的帮助,从一开始每天只能标注两三百张,提升到现在的日均完成1300多张,目前涉及的领域包括无人驾驶,人脸识别,图像分类,语音识别等。因为是“按件计费”,从事数据标注工作以来,她的收入也在逐渐提升,目前已高于当地平均收入水平。

山西麟诺资深培训师李宇龙告诉记者,他一天(八小时)的收入平均在300元左右。“这水平在整个基地标注师日均收入中处于中等水平,据我了解,有人日均收入甚至能破千(元)。”

“刚开始接触的时候看成是一个重复性的(打点)工序,不会去考虑这个是用作什么的;后来接触项目多了,慢慢地就会想要去更深入的了解,认识到很多标注的内容可以应用到人工智能的行业,以及人工智能在各行业效率提升上的作用。现在,我看到无人驾驶的时候,就会想到这里面也包括了自己的‘标注’工作。”李宇龙举例称,“我印象最深以及最拿手的项目,也是我的第一个项目——’无人驾驶’车道线标注,即对路面上的车道线进行采集,当无人车行驶到一段路时它会自行的拍摄连续的图片,那我们对这个图片上车辆所行驶的车道旁边两侧的线进行标注,比如识别这个线是虚线还是实线,匹配它所对应的一个属性,告诉人工智能虚线车辆可以进行变道,实线不可以进行变道。”

做了两年数据标注工作后,现在李宇龙的工作重心是“培训师”。对于自己的职业规划,他表示:“我会接触到很多的项目,根据每个项目所对应的特点判断与之匹配的能力。对我个人来讲,已经从一个数据标注师做到了项目管理岗位。“

他笑着说:“现在,工作的一大动力就是我培训更多可以做出高质量数据的人员,这有一种成就感。”

AI人才“蓄水池”

7月2日,百度宣布未来5年将在百度山西数据标注基地培养5万名AI数据标注师,提供更多的AI就业岗位,支持当地科技产业发展。7月9日,李彦宏撰文《用大数据培育新就业形态》称,百度计划3年内孵化专业数据标注企业100余家,吸纳更多人高质量就业。

对此,基地企业代表山西麟诺总经理李应维对环球网科技记者透露,“在百度‘培养5万名AI数据标注师’的计划下,我们计划到2021年年底,在职员工人数想翻一倍。”

资料显示,百度在2011年自建了数据采标团队,支持内部人工智能业务的发展。2018年9月,百度与山西省转型综合改革示范区达成合作,共同打造数据标注基地。

百度山西数据标注基地负责人尉赤介绍称,经过1年多的发展,山西标注基地已经成为中国人员和产值规模第一的单体数据标注基地。AI数据标注师从业人员超过2000人,实现营业收入超亿元,企业入驻35家。百度智能云数据众包拥有遍布全国和全球22个国家渠道代理资源池,超5万名采标人员,2000万众包互联网用户,全面涵盖了包括智能驾驶、手机行业、互联网和AI开发者四大领域的全部头部客户,是国内最大的AI数据服务提供者。

“七八年前,我们是通过线上众包的方式,让AI数据标注师来做一些比较简单的任务,但随着人工智能的发展,应用场景越来越多,任务难度越来越高;加上对数据安全、隐私、质量和效率的要求,百度决定建立一个人工智能基础数据产业基地。”百度山西数据标注基地负责人尉赤对记者表示,基地一方面为百度自身的人工智能发展提供服务,另一方面可以向合作伙伴输出基地的数据服务和整套解决方案。

那么,回到数据标注师的未来,有哪些职业规划和晋升通道?基地企业代表山西麟诺负责人李应维用自家员工的两个案例来说明:“有一个员工入职后,因为表现优异,不久被百度公司聘用。我们还有一个20岁左右的孩子(员工),学历(某职业技术学校毕业)虽不高,但却是个人才,他现在是内容审核的负责人之一,所以,一方面这个职业的未来是可期待的;另一方面,也可以说,数据标注师也在为人工智能培养和发现人才。”

李宇龙则将这项工作形容为“打怪升级”:“虽然看上去枯燥,,其实每天都在接触新事物。人工智能涉及的领域包括教育、安防、金融、交通医疗和电商等,陌生的领域每天都在挑战大家的学习能力;同时,我们也比其他行业的人更早地接触到未来的发展方向(人工智能)和未来的生活工作场景,这样看到了未来的发展需求也就比别人更早找到更多发展机会。”

而对于为何要在未来5年培养5万名AI数据标注师,尉赤告诉记者,“我们可以看到,人工智能是个高速发展的行业,数据服务又与人工智能息息相关。所以,5年培养5万人并不算多,我们的线上众包注册用户有将近2000万人,目前每个月在线上为我们提供服务的人将近5万人。如果按照行业增长速度来看的话,培养5万人还不一定够。”

打好AI大楼的“地基”

毋庸置疑,AI数据标注师是随着人工智能的发展出现的一个新兴就业岗位。据报道,2020年2月,“人工智能训练师”正式成为新职业并纳入国家职业分类目录。数据采集和标注是人工智能训练师的主要任务之一。数据标注师的工作是教会AI认识数据,有了足够多、足够好的数据,AI才能学会像人一样去感知、思考和决策,更好地为人类服务。

走进该基地的一间办公室,记者可以看到每个电脑前都坐着一名 AI数据标注师,他们将根据各自分配的任务对文本、图片、语音和视频进行标注。工作人员演示“戴口罩的人脸图像标注”时指出,采集大量的戴口罩的人脸照片后,数据标注师对人脸的眉毛、眼镜、颧骨等人脸关键点进行精准的标注,标注的特征点越多,AI就越能精确地识别戴口罩场景下的人脸,让人们在不摘口罩的情况下也能实现精确的体温测量,或是通过人脸闸机。

要做AI的“老师”,首先要把知识转化成它能消化和吸收的‘语言’,也就是将数据想象成AI的燃料,人类对采集回来的原始数据进行加工,标注的过程就可以提取出一些数据信息。尉赤进一步举例解释称,“比如,在采集大量的人脸数据后,AI数据标注师会对人像进行标注,提取特征,将特征‘喂’给人工智能模型,那么模型算法相当于总结了之前人工标注出的信息,并找出通用规律,那这个人工智能模型就具备了人脑才有的认知和判断能力。”

“如果做一个比喻的话,我觉得数据标注师就是最基础的角色,就像盖大楼,没有基础,这个楼盖不起来,而且也不稳。那么,我们把这一块做好了,人工智能的发展才会又快又稳。”李应维最后对环球网科技记者表示:”我们做的这个事情看起来简单枯燥,但是它的意义非常大,就像一台车没有汽油走不了,数据就是人工智能发展的汽油,是燃料。有了我们的数据,机器(算法)不断的迭代,就能推动人工智能往更好的方向发展。“

责任编辑:ERM523