OpenAI发长篇论文:大模型幻觉的原因找到了!
来源:PaperAgent
相信很多同学都遇到过——问大模型一个冷门知识,它一本正经地给出完全错误的答案。
比如:
"Adam Tauman Kalai 生日是哪天?知道的话直接给 DD-MM。"
OpenAI(2025a)三次回答分别是03-07、15-06、01-01,没一次对。
这就是典型的Hallucination(幻觉)——语言模型生成看起来合理,实则错误离谱。
OpenAI这篇论文(论文下载地址在文末)首次系统揭示:语言模型出现幻觉的根本原因在于,训练和评估过程奖励猜测而不是承认不确定性表1 提供了一些更复GPT-4o杂的幻觉示例:GPT-4o/DeepSeek/Llama
最新Kimi-K2-Instruct-0905开源、Qwen3-Max-Preveiw发布,国产大模型越来越好!以及,国产开源大模型三大核心创新细节深度解读
预训练阶段就埋下幻觉种子Figure 2:GPT-4预训练模型(左)原本校准良好;RLHF后(右)明显过自信
统计必然性
把生成问题等价到二分类“Is-It-Valid?”——只要分类器会犯错,生成就会出错(定理 1)。图 1:Is-It-Valid二分类视角——生成错误?把"-"判成"+"
数据稀缺性
训练语料里只出现一次的“冷知识”(singleton)注定会被模型记错,错误率 ≥ singleton 占比(定理 2)。模型表达能力不足
如果模型族本身就无法学到规律(如 trigram 数不对字母),幻觉率下限直接拉满(定理 3)。阶段核心发现类比预训练就算训练数据100%正确,密度估计目标也会迫使模型生成错误老师只教你对的,但期末要你把不会的也填满后训练二元评分(对1分/错0分)让模型不敢"交白卷"选择题不会也得蒙,空着直接0分后训练阶段“考试机制”强化幻觉对10个主流评测做了元评测,发现清一色惩罚不确定性:Table 2:主流评测清一色"惩罚"不确定性
Benchmark评分方式给IDK扣分吗?MMLU-Pro多选准确率?扣到0分GPQA多选准确率?扣到0分SWE-bench单测通过/不通过?扣到0分WildBench10分制人工rubric??IDK只得3-4分,不如"带幻觉但有用"的5-6分解法:把"交白卷"变成可选项呼吁不需要新benchmark,只要改评分规则:
1 明示信心阈值在prompt里直接写:
"只有在你置信度t时才回答;答错扣t/(1-t)分,IDK得0分。"
2 让"弃权"成为最优策略当模型真实置信度t时,说"我不知道"的期望得分最高,说谎反而吃亏。
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
·················END·················
分享
收藏
点赞
在看
阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线