计算机自动阅卷,以及AI的使用是最新教育技术解决方案之一。它能提高阅卷效率、消除主观偏见、准确并跟人类考官一样可靠。随着创新技术的发展,它将真正改变教与学。

然而,自动阅卷技术不可避免受到了质疑——计算机真的可以准确评判口语和阅读能力吗?答案是“可以!”。来自世界各地的学生已经开始使用AI分级测试。例如,培生PTE少儿英语测评(PTE Young Learners)和English Benchmark 少儿英语测评(English Benchmark Young Learners)为口语和写作考试提供了公正、公平和快速的自动评分,不论考生在哪参加考试,其口音或性别如何。






让我们看看人工智能自动评分如何能帮助老师和学生。

人工智能与传统的自动评分


当我们谈到传统的自动评分时,通常是对多项选择题或完形填空题进行评分。无论是为句子重新排序、从下拉列表中进行选择、或是填写一个缺失的单词等等,这些类型的题目是为了测试特定的技能而设计的,自动评分可以确保每次都能快速准确地评分。虽然这样的自动评分项目可以用来评估听力和阅读理解等输入技能,但它们不能标记写作和口语等输出技能。每个学生在写作和口语项目上的回答都是不同的,那么计算机如何标记它们呢?
这就需要AI技术的帮助。我们经常听到人工智能如何越来越多地用于需要处理大量非结构化数据的领域,这些领域需要有效且100%准确地处理数据。在语言测试中,人工智能使用专门的计算机软件对笔试和口试进行评分。


人工智能是如何为口语测试评分的


第一步是为每种语言建立一个声学模型,能够识别语音并将其转换为波形和文本。然后,这些声学模型被训练来为测试中的每个提示或项目打分。我们首先使用人类专家评分员对项目进行评分,进行双重标记。在为每一个项目获得数百个口头回答后,这些“标准”被用来训练引擎。
接下来,我们通过输入更多带有人类标记的项目来验证训练过的引擎,并检查机器得分与人类得分之间的高度相关性。测试将被标记在95%-99%之间,与人类标记的样本完全相同。
与可靠的人类口语测试相比,这个数字高得令人难以置信。本质上,我们使用一组高度专业的人类评分员来训练AI引擎,然后他们的标准一次又一次地被复制。

人工智能是如何为写作测试评分的


突破传统自动评分的局限 看人工智能英语测评如何帮助老师和学生
我们的人工智能写作评分使用了一种叫做潜在语义分析(LSA)的技术。LSA是一种自然语言处理技术,可以基于单词背后的含义而不仅仅是它们的表面特征分析和评分写作。
与我们的语音识别声学模型类似,我们首先建立了一个特定于语言的文本识别模型。我们向系统输入大量文本,而LSA使用人工智能来学习单词之间的相互关系以及单词在英语中使用的模式。一旦建立了语言模型,我们就可以训练引擎在测试中为每个单独的书面项目打分。和口语项目一样,我们首先使用人类专家评分员对项目进行评分,使用双标记。为每一项都得到数百个书面回复,然后这些“标准”被用来训练引擎。接着,我们通过输入更多带有人类标记的项目来验证经过训练的引擎,并检查机器得分与人类得分之间的高度相关性。
这个基准总是人类专家的分数。如果我们的人工智能系统不能很好地匹配人类标记给出的分数,我们将删除该项目,因为匹配人类标记设置的标准非常重要。


人工智能自动评分的好处


教师了解学生并提供个人反馈和建议是非常重要的。然而,每天或每周手工批改数百份考卷可能是重复的、耗时的,而且并不总是可靠的,还会占用与学生一起上课的时间。在形成性和总结性评估中使用人工智能可以增加学生的评估实践时间,减少教师的评分负担。语言学习需要长时间的积累才能达到熟练程度。使用AI可以:
  • 解决形成性评估对驱动个性化学习和诊断性评估反馈日益重要的问题

  • 允许学生在分配的教学时间内外进行练习并获得即时反馈

  • 解决教师工作量的问题

  • 创造人与机器之间的良性结合,各取人和机器所长

  • 在高厉害测试中提供公平、快速和公正的总结性评估分数

在形成性和总结性评估中,人工智能永远不会取代教师的角色。人工智能将为教师提供支持,为学生提供不断提高的机会,并为缓慢、不可靠、往往不公平的高厉害评估提供解决方案。



英语教学中人工智能自动评分的例子


在培生,我们利用人工智能技术开发了一系列评估系统。

English Benchmark

English Benchmark也使用了自动评估技术。这个测试是在平板电脑上进行的,针对的是年轻的学习者,采用的是一种有趣的、类似游戏的测试形式。本测评系统涵盖了听、说、读、写的技能,不仅衡量学生的能力,而且对后续活动和下一步教学提出了建议。测评对标全球英语水平测试标准(简称GSE)和欧洲语言学习、教学、评估共同参考框架(简称CEF或CEFR)。

PTE少儿英语测评

采用独特阅卷方式(E-PEN)快速高效地评阅每一张测评卷,确保了评分的准确及公正。听、说、读、写四种能力的测评符合全球英语水平测试标准(简称GSE)和欧洲语言学习、教学、评估共同参考框架(简称CEF或CEFR)的标准。

Versant测试

Versant测试是帮助任何学校、组织或企业建立语言能力基准的好工具。是专门设计的分级考试,用以为学习者确定适当的水平。

节选自文章 "Can a computer really mark an exam? The benefits of automated assessment in ELT",作者Rose Clesham (培生集团学术标准和测量主任),原文发布于english.com。

Rose Clesham

培生集团学术标准和测量主任

领导培生集团评估设计和研究团队,进行国家和国际校准和基准研究,并在主要国际会议上发言。Rose还广泛参与了经合组织的PISA评估,参与编写了2015年科学素养框架。

Rose拥有剑桥大学形成性和终结性评估硕士学位和教育评估博士学位。她是欧洲教育评估协会(AEA-E)的成员,也是伦敦大学学院(UCL)的成员。

关于英语测评解决方案及其在国内的落地组织流程和相关服务,请关注我们近期相关主题的在线讲座。


在线研讨会




完成在线研讨会报名后,您会通过邮件收到专属链接以及ZOOM下载和使用指导。会议开始时,直接点击链接进入会议,无需注册,直接登录!
友情提示:ZOOM支持手机移动端参会,推荐您使用电脑以保证您的参会体验。

会议主题

GSE框架下的英语语言能力测试及PTE青少儿英语考试介绍

会议时间

2020年3月3日(周二),3:00-4:30 PM

线上ZOOM 参会对象

小学或培训机构教师、学术负责人、校长

会议安排

专家介绍

Evangeline Zhou (周雯瑾)

培生大中华区 产品战略部 

产品市场专家


上海外国语大学英语语言文学学士,有十余年英语教育和国际教育行业工作经验,曾在美国著名的教育服务公司ELS Educational Services,INC 中国总部担任学术顾问一职。

Tara Yan (严艺丹)

培生EFL专家


澳大利亚悉尼大学双硕士,培生PTE YL英语能力中国总部测评中心教研组长,爱德思考试局PTE英语国际考官培训师,原好未来雪地阅读项目区教研主任,模拟联合国大赛中国区教研组成员。从事一线教育教研多年,熟悉国内外英语测评标准,擅长国际测评/赛事、英语分级阅读及雅思托福听说教学。


完成在线研讨会报名后,您会通过邮件收到专属链接以及ZOOM下载和使用指导。会议开始时,直接点击链接进入会议,无需注册,直接登录!

友情提示:ZOOM支持手机移动端参会,推荐您使用电脑以保证您的参会体验。


扫码关注“培生教育”,

和我们一起

通过学习取得生活中的进步

ALWAYS LEARNING