原来，高考才是检验AI的重要标准- 立国教育

从1977年到2017年，大型知识竞赛高考终于迎来了它的四十周年，这个日子里，千万新考生举着A3试卷纸共同庆贺，更有数千万将近不惑之年的旧考生借着这个日子缅怀逝去的人生巅峰。
在今年的高考大军中，有个比较特别的考生，这里要说的不是王俊凯，而是高考机器人。
这个“高考机器人”是国家863计划（国家高技术研究发展计划）的一个项目，该项目于2015年启动，以科大讯飞为牵头单位，联合清华、北大、中科院自动化所等30多家科研院校和企业研发实施，他们有一个共同的目标：研制出能通过高考考上大学的机器人，而且是一本大学。计划在2019年或2020年完成最后的成果测试。
但这位机器考生并不会真的出现在你的考场里，各位考生大可放下手中的砖头，拿起铅笔，安心考试。
不过，这个高考机器人在学习做考生的同时也在学习如何做一名评阅老师。除了在研究如何进行数学、语文、地理和历史的考试，还在研究如何阅卷。
6月6日，科大讯飞和在线教育平台Udacity的斗鱼直播中介绍了这位考生的大致情况，同时PingWest品玩也通过和科大讯飞轮值总裁吴晓如、讯飞研究院院长胡国平的采访，为广大考生揭揭该考生的老底。　　

“在完全断网的情况下进行考试”
考生在高考时要通过完全闭卷来考察学习能力，相应的，高考机器人则是需要在完全断网的环境下测试做题。科大讯飞轮值总裁吴晓如在采访中表示：
“一般来说，我们认为只要采用的测试方法不是闭环的，这个方法是一种商业行为，那它的权威性可能都是有问题的。像这次863课题，根据科技部的要求，我们是要按照一种完全没有任何疑义和漏洞的测试方法进行的，这个测试是要在完全断网的状态下进行。”
除此之外，以下的测试标准也证明高考对于机器也同样严格：
1. 要有权威的第三方来主导和主持测试，包括测试机器的准备、测试系统的安装以及测试过程的操作；
2.测试试卷必须是原创的新题，在测试试卷实际完成测试之前，确保参测方无法获得试卷；
3.测试过程要求输出详细的机器处理的中间过程，以便来确认，这是一个完全由机器自动、一步一步求解来的过程。
“因为高考是检验人才的重要标准”
上一轮人工智能火起来的时候，有个比较为人熟知的评判标准——图灵测试，人和机器分别通过电脑对测试者的提问进行回答，如果有超过30%的测试者不能区分哪些题是人答的、哪些题是机器答的，那么这台机器就通过了测试，并被认为具有人类智能。
但是吴晓如认为，随着数据的增长和简单规则的应用，已经有一些软件能够通过图灵测试，所以图灵测试已经不能用来衡量最新的人工智能发展水平了。
那什么能衡量呢？
“高考是社会选拔人才的标准，可以很好的衡量人类知识水平、理解能力、推理能力，所以也把它作为人工智能项目的主要目标。不过高考不是最终目标，而是聚集一批科学家对AI问题进行攻关，然后将产生的成果应用在更多领域，比如想机器翻译这种设计语言理解的任务。”
不过要说它是具有中国特色的AI，还不完全是，在中国的高考机器人还没步入考场的时候，日本的考试机器人都已经退出考试生涯了。
日本国立情报学研究所在2010年启动了Todai考试机器人的项目，并研发出Torobo参加日本高考，目标是在2020年考上东京大学。2015年，Torobo已经可以在日本高考拿到511分，被80%的日本大学录取，但是在面对东京大学的自主命题考试，Torobo并不能取得很好的成绩。

研究人员认为主要是因为Torobo的语言处理能力还没有达到标准，比如这一题：“谁是曹丕的父亲？”，Torobo就不能解答。虽然知道曹丕是曹操的儿子，但是因为不理解父子关系，所以不能推断出曹操是曹丕的父亲。
最后Torobo断送了自己的学术生涯，不得不提前迈向社会。
对于自然语言的语义理解这一道难题，吴晓如表示，目前有四五个攻关组在对语法分析、遗传分析和机器翻译进行攻克，来实现自然语言的语义和句子的真实性理解，但语义理解总体来说还是一个难题，目前高考机器人在地理历史和语文上现在有了很好的进展，但还没有真正达到突破。
“人工智能让阅卷进入3.0时代”
阅卷技术也是高考机器人项目当中的一项技术成果。科大讯飞认为高考阅卷不是这项技术的根本目标，而是要让人工智能把整体阅卷技术带向3.0时代。1.0时代是纯手工，2.0时代是半机械化（只评阅客观题），3.0时代则意味着机器对主观题也能进行评阅。　

也就是说，像作文这种题目，在人工智能阅卷时代将会有一套更加标准化的衡量体系。
科大讯飞解释了这套度量标尺是怎么做成的：
在阅卷过程中，机器采用机器学习的方式训练，训练的数据来自专家评阅大概500到1000份试卷，机器在学习专家评阅模式以后生成一个模型，这种模型对大部分试卷形成有效处理和覆盖。
但是遇到特别与众不同的试卷，机器还是会挑出来然后交给人工处理。
随后机器是这样进行训练的：推选一组公认阅卷水平比较高的专家对一组试卷给出平均分，用这个平均分作为标准，机器通过模型打分，如果分数跟专家平均分更接近、相关度更高，机器评阅的结果就被认为是达到预期。

在Udacity和科大讯飞的直播对谈中，现场也展示了通过人工智能评阅的作为，简单来说，从高级表达、词性运用、短语搭配，到内容材料的丰富程度、语言表达、篇章层次性，都是人工标注的一些评判标准，除此之外还有一些加分规则，比如优美的排比句、名人名言。
机器将评分更加标准化，但是这些人工标注的评分标准，是早在机器以前就存在的“潜规则”。
对于人工智能的态度，吴晓如给出的是：不要高估，也不要轻视。在人工智能刚刚来临的时候人们往往夸大其词，在过分的高估之后，态度可能又会骤转。
对于高考机器人态度大概也应该这样，它存在的目的并非是一个真的要通过知识竞赛跟你竞争一本名额，而是可能会研究成熟后期应用在教育当中。为每一个学生提供个性化学习画像，辅助提升教学效率，才是AI在教育中应该做的正经事。