2021 NAACL言语学习建模竞赛英语组冠军先声教育展望自习气学习…

发表评论

A+

??雷锋网 AI 研习社按：第十六届北美核算言语学会议 NAACL 于 6 月初在美国路易斯安那州的新奥尔良举办。NAACL 是天然言语处置与核算言语学领域的顶级学术会议之一。在言语学习建模竞赛中，国内助工智能公司先声教育在英语组竞赛中夺得第一。其他参赛者包括来自全球顶尖学术界和工业界的研讨团队，如剑桥大学、纽约大学、加利福尼亚大学等。

英语组冠军团队先声教育由其联合创始人及 CTO 秦龙博士带队参赛，参赛队员还包括首席语音科学家陈进和天然言语处置科学家徐书尧。秦龙博士结业于卡内基梅隆大学，具有 10 多年的人工智能作业经历。因为这一竞赛对自习气学习技能的前进有无量意义，雷锋网 AI 科技谈论特邀秦龙博士，与他交流了大赛中的自习气领域最新研讨作用。

官网：https://www.cs.rochester.edu/~tetreaul/naacl-bea13.html

值得一提的是，本次竞赛夺冠也为先声教育在雷锋网学术频道 AI 科技谈论旗下数据库项目「AI 影响因子」
2021 NAACL言语学习建模竞赛英语组冠军先声教育展望自习气学习…插图

获得加分。

雷锋网 AI 研习社：众所周知 NAACL 是世界天然言语处置与核算言语学领域的顶级学术会议，为啥 NAACL 举办言语学习建模这一竞赛的意图是啥？

先声教育 CTO 秦龙：把天然言语处置技能使用到教育有关领域一向是 NAACL 的重要议题之一，每一届 NAACL 都会举办 BEA 教育技能专题研讨会，本年现已是第 13 届。本年 BEA 有两个揭露使命，一个是单词凌乱度辨认（Complex Word Identification），一个是第二言语习得建模（Second Language Acquisition Modeling）。第二言语习得建模是指根据学生曩昔的答题 (第二言语学习) 前史，猜测该学生能否对将来的标题作出正确应对。这关于构建可以作出智能举荐的自习气学习体系具有严峻意义，是自习气学习最中心的模块。

（图为大会组织方进行 SLAM 竞赛的总结陈述）

这次 SLAM 竞赛是由言语才能查验的声威机构 ETS 与世界上最大的言语学习使用 Duolingo 联合组织的。Singsound AI 团队参加了该使命的悉数三个子使命：英语学习、西班牙语学习以及法语学习。先声教育的 CLUF 模型在英语学习上获得了第一名的好成果，在西班牙语学习及法语学习上获得了第二名的成果。

雷锋网 AI 研习社：竞赛进程中的最大难点是啥？

先声教育 CTO 秦龙：首要难点有二：一是言语类学习以词汇、短语量巨大，且语法、分配凌乱著称，是自习气学习最难落地的学科，此外本次大赛查询多个语种，包括英语、西班牙语、法语；二是学习行为数据时刻跨度长达 3 个月，数据量极端巨大，跨越 100 万个语句，掩盖 6000 多论理学生，使学习行为的数学模型愈加凌乱。

跟着这些年互联网、人工智能等技能与教育的交融，核算机使用程序添加，教育作业堆集了许多学生学习数据，可以使用来驱动完成特性化学习，当前数学学科方面也获得了一些发展。但关于一门言语的学习，常识点更纤细、触及词汇的互动常识、形状句法处置等更为凌乱，加上需要分析极端巨大的数据群，关于数学模型的练习难度极大。

雷锋网 AI 研习社：据咱们晓得，当前国内自习气学习大多是根据常识图谱这样的一个体系，第二言语习得建模这样的使命跟常识图谱有啥差异吗？

先声教育 CTO 秦龙：自习气学习可以分为两个期间：1）以举荐体系为基础的浅层自习气期间；2）以学习行为建模为基础的深度自习气期间。当前国内大大都公司仍处于浅层自习气期间，从本次大赛英语第一的作用看，先声教育自习气体系已成功首先步入自习气学习的中心深度期间。

咱们先声团队运用的 CLUF 是一种根据深度学习的 Encoder-Decoder 模型，它由四个 encoder 构成，别离是语境编码器 Context Encoder、言语学特征编码器 Linguistic Encoder、用户信息编码器 User Encoder、题型信息编码器 Format Encoder，最终由解码器使用编码器输出的高维特征作出猜测。

语境编码器用来编码语句的言语环境，它由一个字母等级的编码器与一个单词等级的编码器构成。字母等级编码器是一个层级式的循环神经网络规划，单词等级编码器则是一个双向长短期回想神经网络 LSTM；言语学特征编码器也是一个 LSTM 规划，首要用于编码获取的言语学特征，为语境编码器供给额定的信息；用户编码器是一个全联接的规划，用于记选用户的第二言语才能与学习前史；题型编码器则是用来编码题型、答题方法等信息。

雷锋网 AI 研习社：先声的模型和其他参加团队具体有哪些不一样，优势在哪里呢？

先声教育 CTO 秦龙：咱们的 CLUF 模型最大的优势在于，经过把不一样类型的特征分组，用契合相应特征的网络规划进行编码来发掘数据的内在方法，CLUF 获得了非常超卓的作用，在该使命上 Singsound AI 团队打败了来自于剑桥大学、纽约大学、首都东京大学、加州大学等团队。

在其他参赛部队中，纽约大学也获得了不错的成果。他们的体系会获取用户、词汇、上下文等根据认知科学、言语学的特征，然后运用梯度前进抉择计划树 GBDT 模型进行建模。在西班牙和法语学习中获得最佳分数的是来自于瑞典的 SanaLabs，他们选用了 ensemble 的办法，也就是运用多个不一样的模型进行猜测，然后对多个模型的猜测成果进行加权组合的办法。实践上，关于类似的竞赛使命，大会组织方是不建议选用 ensemble 的办法的，因为这样无法判别具体的模型究竟对该使命是不是有用。为此，在组织方的总结陈述中，大会组织者进行了的 ensemble 模型交融分析。很显着，交融一切团队的体系可以获得非常好的作用。一起，在该交融体系中，先声教育的 CLUF 的奉献最大，其次是纽约大学的体系，SanaLabs 的体系权重最低。

雷锋网 AI 研习社：关于本次大赛一切参赛团队的全体成果，您关于自习气学习技能的将来抱有怎样的观点呢？

先声教育 CTO 秦龙：从大赛的全体成果看，现
2021 NAACL言语学习建模竞赛英语组冠军先声教育展望自习气学习…插图

期间自习气学习技能的作用比照旷达。在同天然言语处置/核算言语学领武士物、斯坦福大学核算机系 Christopher D. Manning 教授的交流进程中，Manning 教授点评道：「在天然言语处置与核算言语学领域，这些年不断地有新的办法新的疑问被提出，致使了学术界工业界的广泛重视，在有关领域的研讨人员部队也在不断健壮。经过本年的 NAACL SLAM 竞赛，可以看到自习气学习技能落地的显着作用，也等待将来自习气学习技能跨界教育，使用于更广泛的领域。」

先声教育创始人及 CEO 陆勇毅关于公司的打开和期望曾这样标明：「先声作为一家人工智能公司，当前现已效能业界近百家公司，咱们一向坚持着翻开的心态，非常情愿将每个期间的研讨作用翻开给国表里更多公司，助力 AI 晋级教育作业。而且将来期望凭仗技能的优势，跨界赋能更多作业，推进智能化年代到来。」AI 研习社也将持续重视先声教育在自习气学习技能的打开。

发表评论取消回复

登录 找回密码

登录找回密码