2025-09-21_GPT-4o 学习“波多野结衣”的次数，比“您好”还多 2.6 倍。。。-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

GPT-4o 学习“波多野结衣”的次数，比“您好”还多 2.6 倍。。。转自 |扩展迷AIGC GPT-5出世后，GPT-4o一度被网友亲切地称为“赛博白月光”。然而没想到在它的知识体系里，对日本女优“波多野结衣”的熟悉程度，竟然比“您好”还要高。最近，在预印本网站Arxiv上的这篇新论文，引爆了整个AI圈。来自清华大学和南洋理工大学的几位研究者发现：我们天天在用的大语言模型，比如ChatGPT，都被某些神秘的东方文字“污染”了。污染数据里最引人瞩目的，就是老艺术家、AV女优波多野结衣的名字。论文中把这些污染数据定义为“污染中文词元”，简称PoC Tokens。在GPT的长中文词元（超过两个汉字）中，超过23%属于色情或赌博等灰色内容。这说明，GPT的中文词汇表被严重污染了，这些内容像病毒一样寄生在AI的词汇库深处。对AI来说，这些PoC Tokens的存在无疑是一种隐患。因为久而久之，这些内容也会成为AI知识体系的一部分，它会让AI突然开始胡言乱语，答非所问。这份研究还识别、量化了这些PoC Tokens，进一步推测，在GPT-4o训练数据中，与日本成人影片女星波多野结衣相关的内容占比可能高达0.5%！这意味着，模型学习中文时，“波多野结衣”这个词的出现频率竟然是日常问候语“你好”的 2.6 倍。很难不令人深思，它到底是从哪学的这玩意。这不仅揭示了训练数据中存在的巨大偏差，也可能从一个侧面解释了为什么一些模型在处理地道、纯净的中文时会表现不佳。就跟前段时间DeepSeek闹出的几起乌龙事件一样，先是莫名其妙地写了一封道歉信，然后再自己编造一个DeepSeekR2的发布日期。这些没有营养的营销内容，一旦被模型吸收，就很容易出现幻觉。 PoC词元的广泛存在，反映了当前用于LLM训练的中文网络语料面临的严峻挑战。或许这就是所谓的涩涩就是第一生产力吧，人工智能还是太过超前了。原论文也非常有意思，建议大家去阅读原文。论文链接： https://arxiv.org/abs/2508.17771 推荐阅读 MIT新晋副教授何恺明《计算机视觉进展》课程，附Slides与资料下载西电IEEE Fellow团队出品！最新《Transformer视觉表征学习全面综述》如何做好科研？这份《科研阅读、写作与报告》PPT，手把手教你做科研奖金675万！3位科学家，斩获“中国诺贝尔奖”！最新 2022「深度学习视觉注意力」研究概述，包括50种注意力机制和方法！【重磅】斯坦福李飞飞《注意力与Transformer》总结，84页ppt开放下载！2021李宏毅老师最新40节机器学习课程！附课件+视频资料欢迎大家加入DLer-大模型技术交流群！ ??长按识别，邀请您进群！

上一篇：2023-01-12_过年带本书回家，看点好的

下一篇：2025-01-13_2024全球争议最大的八个营销

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系