全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2024-12-29_一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

您的位置:首页 >> 新闻 >> 行业资讯

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会 机器之心报道 编辑:佳琪、蛋酱 翻车,但微翻,翻了 12.5% 吧。 前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。 从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。 而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型:最低性能可达 75.7%,如果让其使用更多计算资源思考更长时间,甚至可以达到 87.5% 的水平。 对于 o1 来说,此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。 在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 Fran?ois Chollet 在测试报告中表示,虽然成本高昂,但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。 「这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。」 比如,对于同一道题,Llama 系列的模型就会因为参数量的提高,从而推测出更加准确的答案。 但大家也注意到了,在 ARC-AGI 的 400 个任务中,还有 34 个任务是 o3 无法解决的,即使思考了 16 小时也没能给出正确答案。正如 Fran?ois Chollet 所说:「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」 这些任务是什么,难点又在哪里,接下来让我们一起看看。 人们惊讶于 o3 无法解决它(没有看到尝试)。实际上,这些样本可能没有详细说明,并且 o3 的第一个解决方案是正确的。 这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上,使用较小的 LLM 时经常会看到这种情况。 这个题目看似简单,其实很有挑战性。 o3 的第一次尝试就是完全照搬了输入,啥都没改,相当于在答题卡上照抄了一遍题干。 这也能理解,对于一个只能一维思考的模型来说,识别二维物体确实很难。Fran?ois Chollet 表示,之前就发现过一维推理的局限性,有意思的是,如果在第二次尝试时给大语言模型看旋转或翻转后的题目,它们的表现会明显提升。 这道题主要考验空间思维能力,不像其他题目那样需要对网格做复杂的改动,不过也不影响最后做错的结果...... 这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是,在输出第二个答案时,o3 虽然做了一堆推理,最后却只是简单画了几条重复的线(这明显不对)。说实话,感觉它就像是「算了算了,我不玩了!」 测试样本比训练样本大得多,这一点很有意思。 可以看到,和标准答案相比,o3 的结果不仅一点边都没沾上,第二次还直接「摆烂了」,交了白卷。 Fran?ois Chollet 指出:「这恐怕是最不理想的一次测试案例。模型的表现难以解释,o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误,从而触发了 OpenAI 预设的某种机制。」 每一行都是正确的,但在整个网格上却错位了。 o3 在两个答案中都漏了一些行、列。 o3 对俄罗斯方块类型的题完全没招,我们可以在前面的任务 [1acc24af] 中看到同样的情况。 这两次,o3 都在答案中少生成了一行。看来,它很难记住还有多少相同重复的行要输出。 参考链接:https://x.com/mikb0b/status/1870622741029941545 https://anokas.substack.com/p/o3-and-arc-agi-the-unsolved-tasks ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:liyazhou@jiqizhixin.com

上一篇:2025-06-21_何恺明CVPR最新讲座PPT上线:端到端生成建模 下一篇:2024-02-26_李沧东《诗:原创剧本》国内

TAG标签:

20
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价