文|真故研究室 林秋艺
编辑|龚 正
今年5月,24岁的张娟开始做大模型数据标注的工作。她是甘肃积石山县的一位95后,大专毕业。
积石山县位于甘肃西南部与青海的交界处,经济欠发达。2022年,该县城镇居民人均可支配收入为26258.5元/年,每月平均才2188.2元,农村就更低。但做数据标注的张娟,月薪平均已到7000元,时而上万。
大模型数据标注是国内今年一个热门职业。它的工作内容是,人们为万事万物打上标签,AI通过标签来进行深度学习,从而训练自己的智能。数据标注工,做的就是打标签的工作。
一些简单的标注,技术含量不会那么高。比如张娟做的就是标注照片中是否包含鸟类或者汽车、录音中有哪些词的发音等等,大专毕业的她完全能胜任。
毕业后的张娟本来先是入职了兰州一家测绘公司,但由于心里牵挂母亲和年迈的爷爷奶奶,加上测绘经常要到野外作业,她觉得并不适合自己,更想回到家乡工作。
但老家的工作机会,除了考公就是服务业,工资不高,张娟很犹豫。直到遇到数据标注工作,它属于AI行业的一种新岗位,既解决了年轻人赚钱储蓄的心理,也能够照顾家里。
向积石山县这样经济不发达地区,发包AI标注的是远在杭州的蚂蚁集团。今年,随着大模型热潮,中国包括阿里、百度、腾讯、字节在内的互联网大厂纷纷投入这个被称为“移动互联网时代最后一个机会”的领域。
蚂蚁相关负责人告诉《真故研究室》,做这样的发包,本质是一个与地方政府合作的名为“数字木兰|AI豆计划”的公益项目。蚂蚁在集团内部匀出部分工作需求,与欠发达地区进行合作,希望让新技术普惠到更广泛的人群。
若追溯数据标注工种的诞生,并不是今年才开始,而是可以追到2011年。当年,随着大数据、云计算、互联网和物联网等信息技术发展,针对AI的数据标注外包市场随之开启,2017年数据标注市场进入爆发阶段。
而今年对话大模型的爆火,使得数据标注员的需求量节节攀升,人才供需缺口被迅速放大,这一职业逐渐被人们所熟知。
一些原本对AI抢自身工作很担忧的人们,这才逐渐认识到,AI也在创造新工作。当然自己到底是受益方、还是受损方,不同立场的人们有不同的利益计算。
和蚂蚁集团偏公益的操作不同,在大模型领域迅猛发展的百度,在聚焦技术研发的同时,也在联合各大高校,通过产学研共建的方法培养大模型领域、更具专业度的人才,并致力于为大学生们增加职业选择路径。
6月28日,百度联合广西科技大学举办的“500万AI人才培养计划”系列活动——大数据标注首期训练营,就在广西科技大学计算机学院(软件学院)正式开启。
双方具体的合作是,百度通过在该学院开设的《计算思维导论》这门课程中,设置大模型训练标注实践环节,来培养大学新生的数据标注能力,让大学生们有机会理论与实践相结合。
广西科技大学副校长秦小云向《真故研究室》表示,希望通过开设数据标注的实践课程,培养本校学生的在大模型方面更高阶的思维,打好专业基础,为其增加能贯穿职业发展与晋升路径的能力模型,提高就业竞争力。
部分学生在访谈中透露,自己的心仪工作岗位是算法工程师、建模工程师这类传统工作岗位,但随着AI的不断发展,数据标注的能力或将在就业市场中越来越被看重,且未来还能依靠专业学历与实践能力不断进阶。“希望能借学校与百度开设的这门实践课,为自己的职业生涯增添砝码。”
AI给普通人带来机会,不只发生在中国,在国际上也正在进行一些国际分工。
Open AI的一家外包数据标注公司Sama,员工就来自乌干达、肯尼亚、印度等工资水平相对较低的国家。
在肯尼亚,Sama最初级的数据标注员每月工资有2.1万肯尼亚先令(约合1057元),虽然低于国内数据标注员的工资水平,但无疑对人均GDP只有2000美元的当地而言,这工作不算差。
同时,数据标注也给聪明人带来了新的创业机会。
如Open AI的另一家外包数据标注公司Scale AI(提供数据标注服务的公司,创始人为华裔Alexandr Wang ),位于旧金山,靠承包数据标注这一工作起家和得势,估值已达73亿美元。
值得关注的是,该公司比较推行让AI给AI标注数据,也就是自动化标注。这给人们又带来了另一层隐忧,即:未来数据标注是否会全部由模型代劳,不再需要人工标注工?
目前行业的判断是不会,认为没有任何数据标注公司、能够完全摆脱人工参与,毕竟AI没办法识别它没见过的东西。
综合种种,从数据标注的行业现状来看,该行业还能出现外包企业的创业机会。
广西科技大学计算机学院院长李春贵判断,国内的数据标注行业将会涌现大批初创企业,其中,为科技、医学等专业领域进行数据标准的、这样小而精的公司更有希望在行业中拔得头筹。
评论