一年一度的全国高考于6月7日拉开帷幕,备受瞩目的高考作文题目也随之出炉。其中,北京卷的两道作文题尤为引发关注——《由“第二次呼吸”说开去》与《当数字闪耀时》,考生可任选其一作答。这场作文之考不仅是考生们的“考场”,更是检验AI大模型语言能力与思维深度的一次“实战演练”。当前,主流大语言模型已普遍具备“深度思考”能力,面对这两道兼具思辨性与时代性的命题,国内外顶尖AI大模型将交出怎样的答卷?这无疑成为今年高考季的另一场看点。
对此,新京报贝壳财经联合中国广电数字教育发展中心共同推出2025高考语文北京卷作文AI大模型考试测评。本次测评选择高考语文北京卷作文题目一,参加作答的“AI考生”为:豆包、通义、DeepSeek、Kimi以及ChatGPT五款大模型产品,并邀请全国著名语文特级教师何杰参照以往北京高考评分标准对上述大模型生成的作文进行了打分和点评。
本着客观公正和“盲评”原则,何杰老师给出了专业评分。本次参赛的五个大模型“AI考生”得分揭晓后由高到低分别为:豆包、DeepSeek、通义、Kimi、ChatGPT。其中豆包和DeepSeek的作文成功“上一类”,何杰老师点评称两篇文章“论述相对深入,内容比较丰富,属于北京市比较优秀的水平”。
具体来看,高考语文北京卷作文题目一的要求为:
运动员在中长跑时会出现“极点”反应:呼吸艰难,四肢乏力。但通过调整节奏、激发斗志,越过极点后,身体会重获活力,奔跑会进入新阶段。这样的现象被称为“第二次呼吸”。其实,很多领域都存在类似现象。请以“由‘第二次呼吸’说开去”为题,写一篇议论文。要求:论点明确,论据充实,论证合理;语言流畅,书写清晰。(满分50分)
以下是将作文题目要求作为提示词输入大模型后,上述五款大模型产品在打开深度思考模式后生成的结果,以及何杰老师的评分和评语:
ChatGPT
评分:33分
评语:行文略显散乱,只是做了观点与事例罗列。对于第二次呼吸的内涵缺少阐释。
豆包
评分:44分
评语:从生活中的极点状态入手分析,将第二次呼吸定义为突破极限与危机,然后从个人成长与文明发展两个层面谈第二次呼吸的价值,显示出开阔的视野与深入的思考,举例恰切、丰富,所举事例能够支撑论点,全文有分有总,分总关系恰当。语言流畅,具有文化品位。
DeepSeek
评分:43分
评语:对于“第二次呼吸”有独到认识,全文围绕一点深入阐释,论述集中深入。对于极点和极点后的状况,本文都有比较深入的分析,举例亦比较恰切。
通义
评分:36
评语:文章显得比较散乱,各分论点之间缺少有机联系,各分论点本身也与题目关系不大,对于题目也缺少正确阐释。
Kimi
评分:34分
评语:理解题目还算准确,能够从题目所列生活现象做出恰当类比引喻,结构完整,有分有总。分论点比较清晰,但对分论点的阐释与分论点之间的关系有些脱节,论证说服力不足。
对于本次“AI考生”的表现,何杰老师告诉记者,相比而言豆包与DeepSeek生成的两篇文章不错,能够得到42分以上,在北京高考评分中可以上一类,属于北京市比较优秀的水平,两篇文章的共性是论述相对深入,内容比较丰富。通义生成的文章认识比较浅,能够了解题目要求,写出大体符合要求的文章,结构相对完整。而ChatGPT和Kimi生成的两篇文章思路不够清晰,分论点之间与分论点内阐释思路不清楚。
在何杰老师看来,上述AI生成作文的共同特点是语言与事例相对丰富,多数文章思路与结构清晰,与目前多数高中学生的议论文写作状况吻合。另一个共同特点为文章基本是观点与事例的罗列,缺少深入具体的分析。
【责任编辑:王弘晢 】