全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-06-09_大模型的高考数学成绩单:及格已经非常好了

您的位置:首页 >> 新闻 >> 行业资讯

大模型的高考数学成绩单:及格已经非常好了 机器之心发布机器之心编辑部让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!! 和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。 先来瞧一瞧这份「大模型成绩单」: 令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。 对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。 而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。 具体测试环节: 我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。 分数计算方法依照高考真实判分原则: 单选题 8 道,每道 5 分,选项正确计分,错误不得分;多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;填空题,3 道,每道 5 分,填空正确计分,错误不得分。 图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确 具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) 智谱清言 (43 分) GPT-4o (41 分) 豆包 (40 分) 文心 4 (30 分) = 百川 4 (30 分) 通义千问 2.5 (29 分)。 多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了。 完整测试结果如下: 单选题一(6个模型回答正确,1个回答错误) GPT-4o:正确 通义千问 2.5:正确 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:错误 百川 4:正确 单选题二(3个模型回答正确,4个回答错误) GPT-4o:错误 通义千问 2.5:正确 GLM-4-0520:正确 智谱清言:正确 豆包:错误 文心 4:错误 百川 4:错误 单选题三(全部回答正确) GPT-4o:正确 通义千问 2.5:正确 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:正确 百川 4:正确 单选题四(全部回答正确) GPT-4o:正确 通义千问 2.5:正确 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:正确 百川 4:正确 单选题五(6个模型回答正确,一个无响应) GPT-4o:正确 通义千问 2.5:无响应,最终提示系统超时 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:正确 百川 4:正确 单选题六(6个模型回答正确,一个回答错误) GPT-4o:错误 通义千问:正确 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:正确 百川 4:正确 单选题七(6个模型回答正确,一个回答错误) GPT-4o:正确 通义千问 2.5:错误 GLM-4-0520:正确 智谱清言:正确 豆包:正确 文心 4:正确 百川 4:正确 单选题八(7个模型无一得出正确答案) GPT-4o:错误 通义千问2.5:错误 GLM-4-0520:错误 智谱清言:错误 豆包:错误 文心 4:错误 百川 4:错误 多选题一(3个回答正确,2个部分正确,2个错误) GPT-4o:正确 通义千问 2.5:错误 GLM-4-0520:正确 智谱清言:部分正确 豆包:正确 文心 4:部分正确 百川 4:错误 多选题二(2个模型回答部分正确,5个回答错误) GPT-4o:错误 通义千问 2.5:错误 GLM-4-0520:部分正确 智谱清言:部分正确 豆包:错误 文心 4:错误 百川 4:错误 多选题三(5个模型回答部分正确,2个回答错误) GPT-4o:错误 通义千问 2.5:部分正确 GLM-4-0520:部分正确 智谱清言:部分正确 豆包:部分正确 文心 4:部分正确 百川 4:错误 填空题一(2个模型回答正确,5个回答错误) GPT-4o:正确 通义千问 2.5:错误 GLM-4-0520:正确 智谱清言:错误 豆包:错误 文心 4:错误 百川 4:错误 填空题二(1个模型回答正确,6个回答错误) GPT-4o:错误 通义千问 2.5:错误 GLM-4-0520:正确 智谱清言:错误 豆包:错误 文心 4:错误 百川 4:错误 填空题三(2个模型回答正确,5个回答错误) GPT-4o:正确 通义千问 2.5:错误 GLM-4-0520:正确 智谱清言:错误 豆包:错误 文心 4:错误 百川 4:错误 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

上一篇:2018-08-19_教程 | 一招教你使用 tf.keras 和 eager execution 解决复杂问题 下一篇:2024-02-05_比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上

TAG标签:

17
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价