全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2025-09-21_GPT-4o 学习“波多野结衣”的次数,比“您好”还多 2.6 倍。。。

您的位置:首页 >> 新闻 >> 行业资讯

GPT-4o 学习“波多野结衣”的次数,比“您好”还多 2.6 倍。。。 转自 |扩展迷AIGC GPT-5出世后,GPT-4o一度被网友亲切地称为“赛博白月光”。 然而没想到在它的知识体系里,对日本女优“波多野结衣”的熟悉程度,竟然比“您好”还要高。 最近,在预印本网站Arxiv上的这篇新论文,引爆了整个AI圈。 来自清华大学和南洋理工大学的几位研究者发现: 我们天天在用的大语言模型,比如ChatGPT,都被某些神秘的东方文字“污染”了。 污染数据里最引人瞩目的,就是老艺术家、AV女优波多野结衣的名字。 论文中把这些污染数据定义为“污染中文词元”,简称PoC Tokens。 在GPT的长中文词元(超过两个汉字)中,超过23%属于色情或赌博等灰色内容。 这说明,GPT的中文词汇表被严重污染了,这些内容像病毒一样寄生在AI的词汇库深处。 对AI来说,这些PoC Tokens的存在无疑是一种隐患。 因为久而久之,这些内容也会成为AI知识体系的一部分,它会让AI突然开始胡言乱语,答非所问。 这份研究还识别、量化了这些PoC Tokens,进一步推测,在GPT-4o训练数据中,与日本成人影片女星波多野结衣相关的内容占比可能高达0.5%! 这意味着,模型学习中文时,“波多野结衣”这个词的出现频率竟然是日常问候语“你好”的 2.6 倍。 很难不令人深思,它到底是从哪学的这玩意。 这不仅揭示了训练数据中存在的巨大偏差,也可能从一个侧面解释了为什么一些模型在处理地道、纯净的中文时会表现不佳。 就跟前段时间DeepSeek闹出的几起乌龙事件一样,先是莫名其妙地写了一封道歉信,然后再自己编造一个DeepSeekR2的发布日期。 这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。 PoC词元的广泛存在,反映了当前用于LLM训练的中文网络语料面临的严峻挑战。 或许这就是所谓的涩涩就是第一生产力吧,人工智能还是太过超前了。 原论文也非常有意思,建议大家去阅读原文。 论文链接: https://arxiv.org/abs/2508.17771 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程,附Slides与资料下载 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研奖金675万!3位科学家,斩获“中国诺贝尔奖”!最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!2021李宏毅老师最新40节机器学习课程!附课件+视频资料 欢迎大家加入DLer-大模型技术交流群! ??长按识别,邀请您进群!

上一篇:2023-01-12_过年带本书回家,看点好的 下一篇:2025-01-13_2024全球争议最大的八个营销

TAG标签:

18
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价