编者的话:数据标注,被称为人工智能的“基石”,这一行业90%以上的从业人员是由数据标注员构成。随着大模型的兴起,不少年轻人加入这一行业。数据标注是指对图片、语音、文本、视频等数据进行处理,旨在将非结构化数据进行标注处理,以供机器学习,为算法提供优质养料,从而提升机器学习能力。近日,《环球时报》记者来到位于宁夏回族自治区吴忠市的宁夏人工智能产业园,通过访谈多位数据标注行业的从业者,探讨了这一行业的工作内容、挑战及未来前景。
对图片、视频等进行标注,应用于自动驾驶等领域
走进位于宁夏吴忠人工智能产业园的众梦智能科技有限公司,200多名年轻人正坐在电脑屏幕前,对着眼前所观察的每一个细节不断进行着拉框、标点等操作。这些图片、视频、文本等数据,构成了他们每一天的标注工作。
宁夏人工智能产业园于2024年1月30日正式揭牌运营,可以说是吴忠市乃至整个西北地区积极拥抱人工智能和数字经济发展的缩影。
“从OpenAI推出人工智能大模型产品ChatGPT以来,似乎所有的事情都与AI有关。数据标注行业起源于大数据采集,随着人工智能技术的发展,逐渐演变为今天的数据标注。整个发展过程大概有10多年的时间。”众梦智能科技的负责人刘仁明向《环球时报》记者介绍道,“我是国内第一批加入这个行业的人。最初的数据标注工作主要集中在语音、方言和小语种的采集,后来扩展到文本类数据,再到如今的自动驾驶和垂直文本领域。数据标注师的工作是将原始数据通过标注转化为可供机器学习的训练数据,这一过程对于AI的训练和优化至关重要。”
“我以前是幼师,现在是数据标注公司的预备项目经理。每月有4000元的稳定收入。”入职近半年的26岁数据标注员刘悦告诉《环球时报》记者,自己偶然接触到了数据标注行业,并对此产生了浓厚的兴趣,“在吴忠这样的小城市,父母觉得从事计算机相关的职业还是挺高端和比较体面的”。
“之前我不了解数据标注这个行业,文本识别、拉框、贴合等这些词汇对我而言很陌生。我主要对接的是自动驾驶和应用识别项目,在这个项目中我需要通过点云数据识别并标注车辆、行人、交通标志等。这些标注后的数据将被用于训练AI模型,提高其识别和处理能力。这些都是我过去从未接触过的领域,后来经过理论培训和实操练习,才完成了岗位的竞聘考核。”刘悦说,这个岗位对个人敏感度、专注度和持久性要求很高。
和一些“00后”一样,34岁的范敏也认为数据标注是一个相对新兴的行业。揣着对人工智能的好奇心,这位拥有会计专业背景的两岁孩子的母亲,决定选择数据标注作为自己重返职场的第一份工作。“对于初学者来说,数据标注工作相对简单且容易上手。但每个项目都有不同的规则,需要快速理解和掌握数据提供方的需求。”她所承担的主要工作,是对自动泊车技术提供高质量的标注数据,进而让车载大模型更具学习能力。
数据标注师的日常工作包括但不限于图像识别、语音转写、文本分类等。他们需要根据项目需求,对图片、视频或音频内容进行细致的标注,数据标注广泛应用于自动驾驶、图像识别等多个领域。以自动驾驶为例,数据标注人员需要对车辆行驶过程中的图像和视频数据进行标注,包括道路边界、交通标志、障碍物等信息的识别与定位。这些标注数据为自动驾驶系统的感知和决策提供了重要依据,保障了自动驾驶车辆的安全性和可靠性。
“吴忠基地的标注员大多是本地人,原来主要从事外卖、酒店、餐饮等服务行业,有的人甚至在家待业。”宁夏人工智能产业园负责人梁坤表示,人工智能产业的发展为吴忠这座西北城市提供了大量岗位。以刘悦所在的宁夏众梦智能科技有限公司为例,截至目前,该产业园已解决本地600人就业,其中16—24岁占62%,25—30岁占29%,大专及以上学历占就业人数的90%以上。
谈及薪资水平和行业前景,刘仁明表示,从自动驾驶到医疗、教育等多个领域,数据标注的应用范围正日益扩大。“随着经验的积累,标注员的薪资水平会不断提升,入行前6个月的月收入一两千元,6个月之后的工资可能在三四千元,一年之后的平均工资应该在4000元以上。如果是项目主管,工资基本上都是破万元。此外,一些从业者通过校企合作项目,将理论知识与实践相结合,为行业培养了大量专业人才。”
“目前全国数据标注员缺口在3000万人次左右”
尽管数据标注行业前景广阔,但也面临诸多挑战。刘仁明感叹道,标注行业具有“人才短缺”“用工低龄化”“流动性大”等特点。“我一直与员工开玩笑说,铁打的营盘流水的兵。在这个行业,很多人没有耐力。如果你告诉他需要6个月之后,才给他高工资,他可能两三个月之后就无法支撑。相当于6个月是个试用期和里程碑。只有真正跨过这6个月的坎之后,心性已经定下来,真正接受行业的发展和基调的人才是我们重点培养的人。” 共2页 [1] [2] 下一页
|