你的自动评分软件比五年级学生还聪明吗?

伟德1946英国

一台自动阅卷机可以在20秒内审阅16000篇文章。一个人工阅卷员需要三个多月的朝九晚五的工作才能给这么多的分数,而且是每两分钟写一篇文章。对于面临经济衰退时期预算的州和地区领导人来说,自动化论文评分的可能性肯定是非常诱人的。

在一项新的研究中,由两个州的财团组成,他们的任务是开发与共同核心州标准,研究人员向九个不同的自动阅读器提交了数千篇预先评分的文章,对比它们的可靠性。软件程序之间确实存在轻微的差异,但所有程序在0-3分范围内的平均得分都在人类得分的0.10分以内,在0-60分范围内的平均得分都在1分以内。在整个研究过程中,自动阅读器面临着几种类型的后勤挑战,这使得研究人员认为,它们的表现实际上只代表了可能的最低限度。

这并不是说没有什么大问题需要解决。比如,最近《纽约时报》描述了利用自动读卡器是多么容易,并暗示只使用自动读卡器是愚蠢的。(这就是计算机编程的本质:有一个网络漏洞就有一个黑客。)但在编程的世界里,试图破解代码只是最终使软件更加健壮的过程的一部分。例如,目前自动评分系统的一个弱点是对事实准确性和抄袭视而不见。然而,由于计算机已经可以可靠地击败人类危险并找出剽窃在大学论文中,解决方案可能在这两个方面。

自动评分的地区和州规定的考试本身在成本和成绩的处理时间方面是革命性的,但真正的胜利可能是教师的。这项研究中的几个软件包不需要进一步编程,其中一个是开源的,这意味着该软件既可获得又便宜。对于一名每当布置论文时都要考虑批改一堆论文的老师来说,使用自动评分系统可能会带来一个全新的视角。像这样的软件可以给一些作业打分,让老师可以自由地处理更丰富和不那么公式化的写作作业。

这项研究是三个研究中的第一个。后续工作将涉及计算机对简短回答和数学项目的能力。此外,新开发的评分引擎还有现金奖励。所以,怀疑者们,请对机器人评分的局限性发出你们的声音,因为在某个地方,一个饥渴的程序员已经在开发一种聪明的变通方法了。