大数据文摘出品来源:VICE编译:张睿毅、邢畅马上就是大学入学季了,六月的一场高考让昔日的同窗走向了不同的城市。考试是每一个人都绕不开的一道坎,虽然未必都是“一考定终身”,但是人生轨迹总不免被各种考试改变。在美国,每年都有数百万学生进行标准化测试。在美国,研究生入学考试(GRE)这样的国家考试是高等教育的守门人,从学生是否毕业到学校的联邦资助、教师薪酬等各方面,标准化考试都有重要意义。传统的纸笔测试已经让位于计算机。而且越来越多的评分过程,甚至是书面论文,也被转交给了算法。根据Motherboard进行的一项调查显示,自然语言处理(NLP)人工智能系统(通常被称为自动化论文评分引擎),现在是至少21个州的标准化测试的初级或中级分级员。在这21个州中,有3个洲表示每篇文章也会被人类评分。但是在剩下的18个州中,只有一小部分学生的论文将被随机选择供人类分级员仔细检查机器的工作。但心理测量学家——研究测试和AI专家的专家以及Motherboard获得的文件的研究表明,这些工具容易受到AI世界中反复出现的缺陷的影响:对某些人口群体的偏见。正如一项Motherboard实验所证明的那样,一些系统可能会被含有复杂词汇的无意义论文所愚弄。论文评分引擎并不分析写作质量论文评分引擎实际上并不分析写作质量。他们接受了数百篇示例论文的培训,以识别人类划分的较高或较低等级的评分模式。然后,他们根据这些模式预测人类所分配论文的分数。华盛顿大学计算语言学教授EmilyM.Bender说:“问题在于偏见是另一种模式,所以这些机器学习系统也会逐渐学会。这些机器学习项目不仅会在训练集中产生偏差,而且还会放大它们。”长期以来,教育行业一直在努力克服来自某些语言背景的学生的意识和潜意识偏见,正如在几个州禁止教授黑人英语俚语一样。专家说,人工智能有可能加剧歧视。在人类得分答案的数据集上训练论文评分引擎可以弥补算法中存在的偏差。但引擎也非常
转载请注明:http://www.baishanzx.com/bsjj/15608.html