托福写作机器批改中的人工智能使用

发表评论

A+

ETS方案托福独立写作之初，是想经过这种以文章为基础(essay-based)的查验鼓舞学生对论题有非常好的概念性了解(a better conceptual understanding of the material), 例如教育教育，科技打开，环境维护，以及日子情绪等，然后反映出我们关于常识和使用水平的更深层次了解( reflect a deeper, more useful level of knowledge and application by students)。

因而，ETS对考生托福作文进行评分和提出批改定见，不只是一种评价办法，而且是一种反应办法(not only as an assessment method, but also as a feedback device to help students)，有助于学生非常好地学习托福考试的论题内容，进行有用的独立思维和批判式思维练习，更是对写作技能的全体前进。

可是，跟着托福全球考生数量的激增，ETS很难找到满足练习有素的托福考官来结束规则时刻内的阅卷作业。当考官作业量过大时，也会呈现打分的不正常不坚决，影响打分的客观性和精确性，机器阅卷（E-Rater）就此诞生。

ETS的E-Rater在项目建议之初就选用了学术界最前沿的人工智能技能，并与普林斯顿大学、宾夕法尼亚大学、哈佛大学一同树立了研发中心。ETS几十年堆积的海量数据与顶尖院校研讨员的才智相联系，特别是在近几年深度机器学习（Deep Learning）的协助下，托福机器阅卷的评分效能现已可以比美甚至跨越一名经过专业练习的托福考官。

今日这篇文章，我会给我们介绍托福写作机器批改中的人工智能使用。

E-rater经过核算机数据功用关于考生写作文本的有关信息进行必定的标签匹配，联系ETS的过往的写作数据库来审阅考生的写作质量。它使用的是核算机言语学中的天然言语处置（Natural Language Process，简称NLP）办法。

其间E-rater比照擅长捕捉的是考生的言语运用，E-rater体系将考生考场作文的言语与数据库中不一样分数段的文章的言语进行比对，判别考生的写作言语质量；

一起，E-rater还可以经过检测逻辑联接词的运用来大致判别考生文章的逻辑联接情况，经过匹配主题要害词来检测考试的文章打开是不是呈现跑题。

简略来说，像手机软件“唱吧”相同，E-rater就是把考生的作文与数据库里的文章进行比对，然后给出体系判另外分数。

当前的确直接运用核算机评分(computer-based assessment)的评测考试暂未完全广泛，首要缘由是当前的机评首要是经过计算办法(a statistical approach)分析来自该论题/领域的文章和内容信息。当然当前的核算机技能可以对考生们的托福写作进行直接打分，然后证明这种体系的计算办法是对文章质量的精确衡量(the quality of essays)。

当前广泛运用的核算机评分机制的文本分析是根据潜在语义分析（Latent Semantic Analysis -LSA）。对LSA的具体处置，不管是作为人类常识获取和表达方面的理论，仍是作为文本语义内容获取的办法，当前都是心思学，使用言语学等领域广泛研讨的课题。一起，许多认知己思学和言语学表象的仿照也闪现，LSA可以经过计算学的方法捕捉到许多在言语中表达的意义的类似性(captures a great deal of the similarity of meanings expressed in discourse)。

LSA所做的类似性比照是经过比照文章之间的意义类似性(through comparing the similarity of meaning between essays)来完成主动评分的基础。这就是为啥阿伦教师在进行托福写作月方案课程中一向偏重学生们要熟练运用“托福独立写作高分材料集”的缘由。

“托福独立写作高分材料集”是经过历年托福独立写作高频论题的词与语篇集合在必定的论题空间中。让考生们在写作备考中高强度地仿照托福写作考试所需求的言语表达特征。这也是为啥不少同学都在一个期间的课程以及讲义相联系的进程中可以究竟完成25+的托福写作成果。

前期的机器批改首要会集
托福写作机器批改中的人工智能使用插图
在文章的体系特征上(mechanical features)，例如文章的语法、拼写和标点符号疑问。但我们都晓得写作一篇好文章还触及其他要素。例如，在笼统层次上(abstract level)，咱们可以区别学生论文的三个值得评价的特征：

1. 对包括的概念常识的正确性和无缺性; (the correctness and completeness of its contained conceptual knowledge);

2. 在论说写作论题时所提出观念的合理性; （the soundness of arguments that it presents in discussion of issues）

3. 写作的流通性、典雅性和可了解性（he fluency, elegance, and comprehensibility of its writing.）;

关于显性的语法特征和句法特征的评价很简略经过核算机进行完成。但其他要素：文章内容、观念、可了解性和文字个性就很难进行可测量的评价，因为它们彼此影响，哪怕只是一个细微的选词疑问，这也变成了前期E-rater功用再怎么健壮，也是ETS抉择以人工阅卷模型来进行究竟评分的首要缘由。

因为前期的E-rater首要会集在对文章进行评分的核算办法上，关于文章内容的评分系数仍然归于非有必要的、直接的评分要素。在阅历一段时刻的技能迭代之后，LSA办法初步变成被认可的评分机制。就是因为LSA办法重视的是概念内容(the conceptual content)、文章所传达的常识(the knowledge conveyed in an essay)。

为了评价论文的质量，LSA首要对领域代表性文本进行练习。根据此练习，LSA导出域中包括的信息的标明。然后，学生论文的特征是根据一切单词的组合的LSA向量。然后，可以将这些向量与散文或具有已知内容质量的文本的向量进行比照。这两个向量之间的夹角代表了这两篇文章谈论类似信息的程度。例如，未评分的文章可以与现已评分的文章比较照。假定两篇文章的视点很小，那么这些文章的内容大约类似。因而，可以比照两篇文章的语义或概念内容，并根据它们的类似性得出分数。请留心，两篇文章可以被视为内容几乎相同，即便它们包括很少或没有相同的词，只需它们表达相同的意思。

跟着言语学家们不断联系深度学习，专家们认为深度编码的特征(E-rater)和手动批改(human rater)的功用相联系才是有用的主动作文评分(Automated Essay Scoring)体系。

专家们因而方案了两期间学习规划（TSLF），它联系了功用模型(feature-engineered models)和点对点模型(end-to-end models)。如图所示：在图1中，在第一期间，核算机可以核算得出语义得分Se，共同性得分Ce，输入有关得分Pe。在第二期间，这三个分数和一些手动批改的功用被联接起来并被编码到一个上升模型进行进一步的系数核算。

专家们因而方案了两期间学习规划（TSLF），它联系了功用模型(feature-engineered models)和点对点模型(end-to-end models)。如图所示：

在图1中，在第一期间，核算机可以核算得出语义得分Se，共同性得分Ce，输入有关得分Pe。

在第二期间，这三个分数和一些手动批改的功用被联接起来并被编码到一个上升模型进行进一步的系数核算。

在Table 1中，专家们罗列出了手动批改(human rater)的潜在机制：

1. 语法差错数；

2. 文章长度；

3. 单词长度的均值和方差；

4. 语句长度的均值和方差；

5. 写作文章中的从句数量；

6. 写作文章中的词汇量；

直觉上，我们会认为语法差错多根柢就是写作高分的首要缘由。可是，经过数据分析，咱们发现写作最低分一般是因为字数严峻缺乏而构成。因而，根据长度的特征是我们在进行写作操练是必需要思考的要素。关于字句的凌乱性，这是阿伦教师在课上一向给我们偏重的语句多样性和凌乱性的需求。假定我们想要进一步去晓得Language Use的细节，主张我们去阅览《托福官方攻略（第5版）》第669页到731页的第10章Writer’s Handbook for English Language Learners的具体内容。

人工智能关于许多作业的改动是推翻式的，连言语学习和测评这块硬骨头都被ETS啃下来了。可是不管是人工批改仍是机器评分，关于托福考生的言语需求是共同的，只需我们用心备考，厚实前进自个的英语写作才能，高分终归是你的。