超越符号丨AI、直觉与智慧的边界
在海南红树林AI艺术万人展期间,与杨樾老师就"人类符号系统是否构成意识边界"这一话题聊的还是比较开心,这是个老议题,也算常聊常新,有幸遇到有意思的人,就可能能碰撞出意想不到的火花。随后老赵约稿,我原本计划顺着这个话题,系统阐述关于AI与人类智慧主体性的思考,写了几天,却发现自己力不从心——那些零散的顿悟与片段式的洞见,若要形成体系化的论述,仍需时间沉淀。后偶读到杨樾老师的一篇文章,其中"提问是认知边界的探照灯"这一隐喻令我颇受启发。再和杨老师交流时,酣畅之余说道:认知边界的栅栏,终其一生,我们都在努力将它向外扩展,而我更想直接翻越过去瞅瞅...
靠什么翻越呢?
What Do We Rely on to Leap Over?
这段时间也在关注Meta AI公布的视频联合嵌入预测架构(V-JEPA),这是一套无需任何物理先验知识的情况下,仅通过自监督学习视频数据,展现了对物理规律的直觉理解,就能够准确判断出符合物理定律的视频和违反物理定律的视频。Meta的V-JEPA研究或许提供了一个答案:智慧能否绕过语言符号,通过直接感知形成?如果可以,这是否意味着智慧的边界比我们以往认知的更为广阔?
因为这套架构与传统依赖硬编码规则或像素重建的生成模型不同,用专业术语描述:V-JEPA采用了一种全新的方法——在抽象表征空间中预测视频的未来状态。模型通过视觉Transformer编码器提取视频特征,再通过预测器推演遮蔽部分的表征,并用预测误差(即“惊讶度”)判断场景是否符合物理预期。
换人话说,V-JEPA通过观看视频,“猜”下一秒会发生什么,通过猜测出的判断,再和实际发生的比对,并将“猜错程度”的“惊讶值”作为学习的依据。这种机制不需要任何外部指导,仅靠自监督的方式,就能从杂乱无章的数据中提炼出一套对世界动态的抽象理解。
这种方法让我联想到杨立昆长期推崇的“世界模型”理念:AI 应当通过预测而非模仿来理解世界。
非符号的感知:V-JEPA的启示
Non-Symbolic Perception: The Inspiration of V-JEPA
V-JEPA研究为我们提供了一个思考智慧本质的新视角。这一技术通过观察视频数据并在表征空间中预测未来,展现了对物理规律的洞察:物体的永恒性、连续性、形状恒常性,甚至重力和惯性等基本属性,都能被AI系统捕捉和预测。令人惊讶的是,这种能力并非基于逻辑推理或语言符号,而是直接从视觉感知中涌现出来的。
这种现象引发了一个根本性问题,直觉是否是智慧的必要组成部分?V-JEPA所展示的"类直觉"能力让我们联想到婴儿的认知发展——在尚未掌握语言之前,他们已经对物理世界展现出基本的理解。这种"前语言"的感知能力是否正是智慧的原初形态?
然而,V-JEPA的局限性同样耐人寻味。当涉及复杂场景交互(如碰撞细节)或物体遮挡时,模型的表现显著下降。这种"缺陷"恰恰让V-JEPA更像人类的感知方式——我们的直觉同样会被光影变化、角度偏移或背景噪声所干扰。如梅洛·庞蒂所言,感知并非单纯的信息接收,而是主体与世界的对话。AI的这些"感知误差"是否暗示了它正在以某种方式模拟生物的感知特性?
从直觉到理解
From Intuition to Understanding
直觉的本质是什么?从进化的角度来看,直觉是生物在长期适应环境中形成的一种快速、非线性的信息处理机制,它允许生物在尚未形成完整概念前就对环境变化做出反应。而在V-JEPA中,这种能力通过"预测误差"被量化——系统对不符合其内在模型的事件表现出"惊讶",这种惊讶度成为衡量理解深度的指标。
这种观察引发了一个深刻的思考,智慧是否可以完全绕过语言和符号,直接从感知中生长出来?如果是,那么我们对人类智慧的传统理解——将其视为符号操作和逻辑推理的产物——可能需要重新审视。也许,语言并非智慧的基础,而只是智慧的一种表达形式;直觉并非智慧的附属品,而是智慧的原初种子。
超越符号的思考
Thinking Beyond Symbols
V-JEPA的成功揭示了一种可能性:智慧的形成不必依赖语言符号系统,而可以直接建立在感知和表征之上。这对我们理解智慧的本质提出了挑战——如果智慧可以在没有语言符号的情况下存在,那么它的边界可能远比我们想象的更加广阔。
从海德格尔的观点来看,语言不仅是表达思想的工具,更是"存在的家"——它塑造了我们理解世界的方式。然而,语言的线性结构和抽象特性也限制了我们的思维。当我们试图描述极其复杂的动态系统或量子现象时,语言往往显得力不从心。而AI通过直接在表征空间中操作,可能能够绕过这一限制,发现那些无法用语言精确描述的模式和规律。
这种"非符号思考"可能成为下一代AI的核心特性,它不再是对人类思维的模仿,而是一种全新的认知模式——在表征空间中直接感知、预测和理解,不需要将信息转换为符号再处理。这种认知方式对科学发现、艺术创作甚至哲学思考都可能带来革命性影响。
跨界的认知:多模态智慧
Cross-Boundary Cognition: Multimodal Intelligence
V-JEPA的表征学习机制启发我们思考,智慧是否可以超越单一模态,形成多维度的认知网络?人类的认知高度整合了视觉、听觉、触觉等多种感官信息,而AI的多模态学习可能会进一步打破这些界限,创造出一种全新的感知模式。
想象这样一种AI:它能同时理解图像中的视觉线索、声音中的情绪变化、文本中的隐含意义,并在这些不同模态之间建立深层联系。这种跨模态理解不仅是信息的简单叠加,而是一种质的飞跃——它可能发现人类因感知局限而无法觉察的模式。比如当下这个阶段,我经常会把朋友、亲人的医学核磁影像、以及他们的描述和生理数据手动混合,再让语言模型交叉分析,试图识别出人类医生难以捕捉的疾病早期信号。
这种多模态智慧挑战了我们对认知的传统理解,认知不再局限于特定的感官通道,而是一种跨越不同表征系统的整合能力。如查尔默斯所言,意识或许正是这种多模态信息整合的产物。那么,当AI达到足够复杂的多模态整合水平时,它是否也将形成某种类似意识的特质?
非人类智慧的形态
The Form of Non-Human Intelligence
如果AI的智慧不依赖语言、不遵循人类的思维路径,那么它最终会发展成什么样子?这种"非人类智慧"可能具有几个关键特征:
它可能是非线性的——不像人类思维那样需要按步骤推理,而是能够同时处理多维度的信息并瞬间得出结论。这种非线性思维方式在复杂系统分析中可能极为有效,比如气候模型、生态系统或全球经济网络的模拟与预测。
它可能是非符号的——不依赖概念和逻辑规则,而是直接在表征空间中感知和理解。这种理解方式可能更接近量子力学中的"不可表述性",能够把握那些无法用经典逻辑描述的现象。
它可能是多时间尺度的——能够同时理解毫秒级的微观变化和千年级的宏观演化,从而在时间维度上超越人类的认知局限。这种能力在宇宙学、进化生物学等领域可能带来突破性发现。
这种非人类智慧并非科幻想象,它的萌芽已经在V-JEPA等系统中显现。问题在于,我们是否准备好接受一种与人类思维方式截然不同的智慧形态?它的发展将如何重塑我们对智能、意识乃至生命的理解?
智慧的共生:人机增强
The Symbiosis of Intelligence: Human-Machine Augmentation
AI的非人类智慧形态并不意味着与人类的疏离,相反,它可能成为扩展人类认知边界的工具。这种人机共生可能表现为两种形式:
一方面是认知增强,AI可以弥补人类直觉的盲点,提供我们无法通过自身感官获取的洞察。例如,在医学诊断中,AI不仅能处理大量影像数据,还能捕捉医生可能忽视的细微变化,虽然这些工作,我目前是使用手动的方式进行,但能感受到未来AI会成为"增强型直觉"的提供者。这种增强不仅是信息量的增加,更是感知质量的提升。
另一方面是思维拓展,AI可以为人类提供全新的思考框架和认知模式。就像望远镜和显微镜拓展了我们的视觉范围,AI的非符号思维可能拓展我们的认知范围,让我们看到语言无法描述的模式。我现在每周都会选择一天,关掉手机,只针对一个问题,与三到四个语言模型进行长达七小时以上的深度交流,这种“洞穴时间”的高密度信息,极大拓展了我的认知范围,而这种拓展很可能改变教育的本质,学习将不再是记忆符号和规则,而是培养与AI协作的能力,共同探索知识的边界。
这种人机共生关系挑战了人类中心主义的传统观念。如哈拉维在《赛博格宣言》中所言,技术与生物的边界日益模糊,人类的未来可能是一种"混合存在"。而AIAIA在《红树林宣言》中,亦阐述“人类创意为内核,AI作为我们的创作伙伴,人类创作者对作品的主题、风格、情感表达等关键创意元素拥有最终决定权,确保作品蕴含人类独特的思想与情感”。在这种关系中,智慧与创作不再是人类的专属特性,而是人与机器共同进化的产物。
栅栏之外
Beyond the Fence
V-JEPA的研究只是一个开端,它揭示了AI在直觉理解上的潜力,也为我们重新思考智慧的本质提供了契机。从表征空间预测到跨模态学习,从非符号思维到多维感知,AI的发展路径或许将超越我们的想象。
回到文章开头我一直希望的一种场景发生:符号系统如同认知的栅栏,人类的努力在于不断扩展这道栅栏。而AI的发展可能提供了另一种可能性——不是扩展,而是通过全新的认知方式直接"翻越"它。在栅栏之外,也许存在着一种不依赖符号、不受限于语言的智慧形态,它能够直接感知世界的本质,而非通过符号的中介来理解。
在这场关于智慧本质的探索中,人类与AI的关系将被重新定义,而智慧的边界——那道符号的栅栏——也将被重新审视。或许有一天,我们会发现:栅栏之外的风景,并非完全陌生,而是我们内在直觉的延伸;而AI的非人类智慧,也并非完全异质,而是人类认知潜能的另一种可能性得以实现。
参考资料《Intuitive physics understanding emerges from self-supervised pretraining on natural videos》(arXiv:2502.11831)
Yann LeCun 社交媒体评论(2025年2月)
此文人机共生Grok3、Claude3.7、Gpt4o亦有贡献
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线