10个学生面对电脑一字排开,教室异常安静,只有鼠标的点击声响个不停。
去年年底,专门招收智力障碍儿童的特殊教育学校——杭州市杨绫子学校,在职高部开设了一个孤独症实验班。其中,高一、高二10名“星星的孩子”,成为这个班开设的数据标注课的首批学员,经过一年的学习,毕业后他们或将有能力进入相关公司,独立就业,成为文员甚至是数据标注员。
尽管目前学生的培养路径、教学内容仍处在“摸着石头过河”的阶段,但学生们的表现让专业老师袁圆很开心,“在这件事上,孤独症的孩子有种‘天赋’。”
和其他正全神贯注地盯着电脑的孩子不同,学生小马有些烦躁,他站起身,把教室门关上,确认似地点了点头,回到电脑前继续点击着鼠标。
“孤独症的孩子比较喜欢对他们来说安全的环境。”袁圆是学校孤独症康复老师,职高专业课里教超市服务,上学期她接到通知,要全身心投入到数据标注这个新课程中,“‘数据’‘标注’拆开来每个词都懂,但拼在一起,这件事之前听都没听说过,只能说‘隔行如隔山’。”
数据标注是项新兴行业,即对原始数据进行加工处理,比如分类、拉框、注释、标记等,并将其转换成机器可识别信息的过程。它和人工智能的迅猛发展紧紧捆绑在一起。简单来说,如果人工智能是大厨的话,数据标注员就是负责切配好食材交给大厨烹饪的那个人。自人工智能训练师于2020年纳入国家职业分类目录,《人工智能训练师国家职业技能标准(2021年版)》将数据标注员作为其子工种之一,从一个侧面说明了数据标注在人工智能场景应用中的重要性。
“老师快来看,我做好了!”小马身旁的孩子转过头,袁圆俯下身查看,屏幕上,黄色、红色、绿色的点,精准覆盖在表格的每个节点上,“真棒!老师给你发两个‘橘子’!”在杨绫子学校,“橘子“的作用,类似“小红花”。
练习给表格做标注,是这10个孩子目前的主要学习内容。他们会先领到一张表格的图片。由于是相机拍摄的图片,表格并不横平竖直,需要在专业软件上,用鼠标点击每个节点,来“定义”这张表格,便于让人工智能识别。
“起步总是很难,建立他们的认知花了很长时间。”袁圆需要从头教这些孩子软件在电脑的哪个位置、如何导入图片。
给孩子构建表格的概念也花了她很大功夫,她先把表格打印出来,拿着彩笔在孩子面前演示,“这个是角点,我就用红色点出来,绿色标出来的这个叫‘T点’,因为是‘T’形的,黄色就是交叉点,软件里颜色和点也是这么对应的,孩子只要记住这三种颜色就行。”认知能力稍好的孩子,一学便会。
现在班里的孩子在精确度上还稍有参差,方法也不尽相同,有孩子喜欢把图片放得很大,对比很久后点下一点;有孩子不放大图,点排布得很密。但相同的是,他们做得都很认真,以至于袁圆要不时提醒他们,望一望远处,缓解疲劳。
这跟超市服务专业课完全不同,袁圆的管理压力要小很多,“孤独症的孩子其实是靠视觉建立认知的,所以做标注他们很有优势,加上他们喜欢寻求安全、确定,一个点一个点必须要对齐,所以特别认真。”而超市服务,不仅需要与人交流,还要摆货、收银,反而教学难度更大。

贵州雷山县掌雷完全小学,稍显破旧的红色大门前,孩子们排成几列唱着杭州学生的原创歌曲,透过门能看见,他们身后的大山隐匿在云雾中。
两年前,在当时网易云音乐负责人朱一闻的支持下,郭斌做着这项和音乐有关的公益项目,此后两人合伙在教育数字化领域创业。彼时的他不会想到,一个因这个项目而起的“火花”,会在千里之外的杭州,一所特殊学校里发芽。
“掌雷完小的公益项目告一段落后,我去了天台的一所山区学校,这些学校都有个别特殊孩子,如果在杭州就会进杨绫子,但他们对音乐的热情,相比其他孩子毫不逊色。”
看到了音乐公益项目中孩子们的创造力,以及对特殊孩子积极的影响。去年年底,本就和杨绫子学校有合作的郭斌回到杭州,想在杨绫子学校做这项公益项目,“我来这看了一次他们的汇演,观摩了一次他们上课,还和老师聊了很久,我发现孤独症孩子身上有些很宝贵的特性,他们适合做刻板而重复的事。”
郭斌前一段履历是在海康威视从事人工智能相关工作,他从前同事口中了解过一个现状:人工智能公司需要做大量数据标注的工作,数据标注员门槛相对较低,因为这项工作的重复、刻板、无聊,人员流失也很严重。而他目前的创业公司里,也有数据标注的需求。
两个“刻板”在郭斌的脑海里“重叠”,“我们是不是可以在杨绫子试一下?”当他把这个想法告诉杨绫子学校的俞林亚后,这个执行力颇强的校长详细看过他带来的行业调研数据,便带着他和专业老师,立刻开始谋划这件全国从没特教学校做过的事。2023年底,袁圆经过郭斌所在公司的培训,初步编写好了一套教材、课件,数据标注课开始试水。
袁圆正指导学生
然而孤独症学生到底能不能做好数据标注?这件事在去年12月开课后仍困扰着郭斌。不久前,他带着同事来杨绫子看孩子上课,课堂里他问同事:“一个正常人或者研究生标注这样一批表格要多久?”“2、30分钟吧。”他转过头来问袁圆孩子们花的时间,“可以达到40分钟。”“我当时就觉得,靠谱了!”
虽然还有大量难题要面对,比如脱离了班级,孩子在数据标注团队中如何适应,但郭斌所在的公司愿意敞开大门,让孩子们先来试一试。目前,孩子们正在穿插着学习语音的文字识别纠错,郭斌正在为学校提供一些语音材料,“这些都是我们团队以及行业在做的业务,也是在帮助这些孩子做提前适应。”
俞林亚的日程仍然很繁忙,但在听过郭斌,以及一些相关从业者的讲述后,把数据标注做成专业的事,在她脑海里正慢慢成形。
一所学校新设专业前的调研,需要看职位的供需关系和市场前景,而数据表明,数据标注师确实是一项新兴行业:
相关机构根据国内需求方与供应方营收增长情况曾做过推算,预计2024年数据标注市场规模为130亿—180亿元,一年后市场规模将达200亿—300亿元。猎聘大数据研究院近日发布的《2023年度就业趋势数据报告》显示,当ChatGPT火爆全球后,数据标注人员需求量大幅增长,2023年较2022年增长34.43%。去年,星尘数据、标贝科技、整数智能等行业企业均获新一轮融资。阿里巴巴、百度、京东、字节跳动、科大讯飞等头部企业也与地方持续深化合作,加快推动数据标注产业基地的建设,目前全国已经建立起多座规模超千人的数据标注基地
正着力进行“双新”提能攀登行动和基层治理现代化攀登行动的杭州,数据标注的本土就业市场格外广阔,“之前省公安厅的工作人员来我们这做讲座,公安部门需要标注的数据量非常多,对数据标注师需求量很大。”俞林亚还了解到,在一些公司,这个职位还被冠以“工程师”之名,月薪过万。
杨绫子学校职高部的学生,三年能学6门专业,可供选择的专业里,诸如超市服务、餐厅服务等服务性专业占多数,“当发现孩子们能从事这类工作,在一遍遍论证中,这件事的可行性一点一点在增加,但我们也明白,过程很漫长。”
这件事在俞林亚的眼中,对特教学校办学模式,乃至残疾人事业也都有一定的积极影响,“现在人们往往关注孤独症的小龄康复,义务教育和高中、成人阶段的康复,教育层面研究很少,因为很难有突破,所以到高中阶段,我们更多考量孩子如何与社会接轨,如何体现社会价值。”而孤独症孩子真正走入社会成功就业的案例,并不多见,“国家虽然有政策,但是很多企业其实并不会真正接纳他们,而我们更看重的,是孩子们拥有一份真正的职业,感受到他的价值和尊严。”
价值恰是从孤独症孩子的优势上来,长久以来一个思维定势影响着大众:如果把孤独症孩子和普通孩子放在一条跑道上,孤独症孩子一定是落在后头的那个,“那如果比得是孤独症孩子的优势呢?数据标注的结构化和视觉化,正巧就是他们的优势。”
孩子们对自己能当“工程师”也兴趣浓厚,俞林亚曾问数据标注班上唯一的女孩子,想在学校的“智慧树”咖啡馆实习,还是学数据标注,孩子的答案是后者,因为和科技有关,很时髦、很高大上。
目前,杨绫子学校已经把开设数据标注专业的申请材料报送给浙江省教育厅。未来或有更多“星星的孩子”,独立走入职场,成为人工智能的“启蒙老师”。
