上海团队夺得“美国高考”数学问题自动答题竞赛冠军
让人工智能(AI)去做SAT(学术能力评估测验,俗称“美国高考”)数学题,“世界冠军”能拿几分?2月6日,上海脑中心/张江实验室认知智能组与科大讯飞及复旦大学的合作团队,夺得了SAT数学问题自动答题竞赛世界冠军,成绩约合360分。即满分800分的考题,综合准确率为45%。
相较于申请美国名校的中国考生700分以上的高分,AI的表现似乎有些“孱弱”。对此,上海参赛团队负责人之一、上海脑中心研究员周熠表示,解答SAT试题,尤其是综合题,需要突破人工智能中自然语言和图像理解、知识表示和深度推理等多重难关,这对于目前的弱人工智能而言,仍是难以完成的挑战。“如果能让人工智能取得SAT高分,将对这项技术的发展产生重要影响。”
对人工智能而言,参加高难度学业测试远比下围棋困难
2016年,“初级围棋”(AlphaGo)让人类棋手铩羽而归时,不少人惊呼:人工智能要超越并替代人类了!其实,早在2011年,IBM沃森机器人就在智力问答竞赛中击败人类,赢得冠军,成为人工智能发展史上的一个里程碑。
然而,要应付SAT这类高难度学业测试,不仅需要强大的计算能力,更需要理解人类思考和信息处理的过程——如果能顺利通过SAT,将为人工智能技术发展树起新的里程碑。
2011年前后,日本开始尝试研发相关人工智能系统,目标是让机器人考上东京大学。可惜2015年、2016年人工智能两次都未能考出理想成绩,研究者最终选择放弃,因为他们看不到系统提升的希望——要突破其中的技术难点,实在太困难了!
周熠告诉记者,解答SAT或高考试卷主要有两大步骤——首先要理解题意,其次是推理和答题。这对人类来说,难度并不太大,可对计算机而言,却是极度困难的任务,每一步都埋伏着重大挑战,需要理论上的突破以及强大的工程能力作为支撑。
从众多现有技术看,比如百度搜索,仅能从语法层面匹配字符串,并不能从语义层面理解字符串背后的含义。而在推理层面,当前人工智能在应用上获得成功的主要技术,比如深度学习和知识图谱等,只能进行非常简单的浅层推理,而解答SAT或高考综合题,往往需要多达20步推理步骤。
理论上有突破,答题准确率遥遥领先其他团队
根据机器语义理解方向的当前学术难点和热点,人工智能权威组织之一——国际语义评测研讨会每年会遴选举办数项国际赛事。去年,机器人考试竞赛首次入选。
“之所以选择SAT,是因为它对目前的人工智能技术提出了重要挑战,这些挑战涵盖人工智能的很多方面,包括知识表示与推理、机器学习、自然语言理解与图像理解等。”周熠介绍,自2015年起,在863项目支持下,我国也开始研发考试人工智能系统。此次夺冠的人工智能“选手”就是几年攻关的成果。
据了解,这次比赛共有来自全球各地的132支队伍参赛,全部采取匿名形式。去年秋季报名后,每支团队都收到了一份答题规范和训练题集,然后利用这些资料开始编写程序。直至今年1月底各团队提交参赛程序后,就静候结果。
2月6日,竞赛成绩揭榜,上海脑中心/张江实验室与科大讯飞、复旦大学联合团队斩获此次比赛的冠军——答题综合准确率达45%,比第三名的21%高出两倍多。
为何上海人工智能团队能以明显优势领跑赛事?周熠说,主要有三方面原因。
首先,团队用自主创新的“断言逻辑”替代传统数理逻辑来表示数学知识。断言逻辑不仅表述更简单、表达能力更强,而且更便于深度推理。
其次,在题意理解方面,团队结合基于神经网络的深度学习和基于符号计算的专家系统这两类迥然不同的人工智能方法。
最后,科大讯飞强大的工程实现能力为本次比赛提供了强有力的护航。
研发考试机器人蕴含颠覆创新机遇,应用空间广阔
研发考试机器人,将推进人工智能知识表示与推理、机器学习、自然语言理解、图像理解、搜索等诸多领域最前沿技术的发展与融合。而且,一旦获得成功,这些技术将很快在实际生活中得到广泛应用,包括智能客服系统、问答系统、对话系统、智能辅助、企业知识库、信息抽取等。
“‘初级围棋’作为棋类应用场景,运用范围十分狭窄,而与考试机器人相关的技术应用和商业价值则要广阔得多。”周熠透露,他们正在开发能够自由组合知识点和规则的新一代考试机器人。未来,团队希望在考试机器人中引入数学方法,比如反证、归纳、分情况讨论等,这将是一个重大前沿突破。科大讯飞正在将此类技术融合到智慧教育系统中,并已取得不错的进展。
“不过,即使实现了突破,这也仅仅是弱人工智能通向强人工智能路上的小小一步。”周熠特别强调,这些点上的突破尚无法完全解决自然语言理解、常识问题、自动知识获取等人工智能领域的重大科学问题。
■相关链接
SAT数学问题自动答题竞赛
SAT数学问题自动答题竞赛是由国际语义评测研讨会组织、面向SAT数学科目的机器自动答题国际竞赛。该比赛覆盖SAT数学科目的所有类型题目,难度与真实考试水平完全一致,训练集合来自历年SAT数学科目的真题,主要有代数、应用、几何三种题型。