文明的引导者 · 卷一 · 无情的超越
Aug 23, 2025
1989 年,杨立昆(Yann LeCun)和同事们提出了一种新颖的计算方法,用来解决一个看似简单却长期困扰研究者的问题:如何让机器自动识别手写数字。在此之前,模式识别更多依赖人工设计特征,效果有限。而他们借助卷积神经网络(CNN),把图像拆解成局部特征,再逐层叠加,逐渐形成更抽象的表示。边缘、角点在低层被捕捉,高层则能组合成更完整的形状。
从识别手写数字谈起
20 世纪 90 年代,杨立昆提出的卷积神经网络在手写数字识别任务中取得突破性成果(LeCun et al., 1989),展示了神经网络在感知任务中的潜力。
这一思路后来被证明具有深远影响,它使机器不再仅依赖人工设定的规则,而能够自主提炼特征,从而迈出了感知智能化的重要一步。
而在提出之初,这一方法并未得到广泛认可。上世纪 90 年代,神经网络在学界仍饱受质疑,支持者认为层级特征抽象是模仿人类感知的关键,反对者则担心这类模型过于依赖算力和数据,难以在实践中发挥作用。事实证明,逐层抽象的机制经受住了时间考验,并成为后来深度学习的基本范式:通过增加层数,网络能够捕捉越来越高层次的规律。
然而,为何卷积神经网络未能走向更高层次的智能?
卷积的核心机制是“局部模式叠加”——模型通过卷积核在有限的感受野内提取特征,再层层堆叠以形成更复杂的表示。这种方式对识别边缘、物体形状非常有效,但要捕捉远程依赖就显得笨拙:信息必须经过多层传递才能抵达目标,路径过长,表达力也受到限制。
循环神经网络(RNN)曾试图解决这一问题,通过顺序建模处理序列数据。然而,顺序依赖带来了新的困难:梯度在长链条上逐渐消失,使得模型难以保留远距离的信息。
结果是,即便不断加深层数,这些传统神经网络依然难以在全局范围内高效整合信息。它们在特定任务上表现突出,却始终未能展现出类似“通用智能”的能力。
Transformer 的突破:表达力的飞跃
我们今天常说的“大模型”,其实指的是参数规模巨大、能处理多种任务的人工智能模型。大模型的崛起,几乎都源于 2017 年提出的 Transformer 架构。它的核心思想很简单:相比卷积和循环网络依赖层层堆叠来扩大感受野,Transformer 通过一种称为 自注意力(Self-Attention) 的机制(Vaswani et al., 2017),让信息能够在全局范围内直接建立联系。
自注意力的 Q、K、V 机制提供了一种直观的比喻:Q(Query)表示“需要什么信息”,K(Key)表示“能提供什么线索”,V(Value)表示“具体承载的内容”。模型通过 Q 与 K 的匹配,就能在序列中迅速找到相关位置,并直接从 V 中获取信息。这样一来,信息不再需要经过冗长的传递路径,依赖关系可以一步到位。
因此,Transformer 的表达力不再依赖逐层扩展感受野,而是通过注意力矩阵动态决定信息路由。这使其在层数叠加时,能够比卷积神经网络更快地扩展表达力。
更进一步,Transformer 并不满足于单一的注意力模式。它引入了 多头注意力(Multi-Head Attention),让不同的注意力头在各自的子空间中学习不同的联系:有的关注语法结构,有的把握语义关联,还有的专注长程依赖。最终,这些视角被拼接整合,形成比以往更丰富的表征。
换句话说,Transformer 不只是“看得更远”,而是能够“看得更全、更灵活”。Transformer 的强大之处,在于它改变了信息的组织方式,它跳出了以往架构的局限,在语言、图像、代码乃至多模态任务上展现出前所未有的适应性,也为大模型的出现与通用人工智能的可能性奠定了基础。
从可扩展性到涌现性
Transformer 的突破,并不仅仅在于单层注意力机制的巧妙设计,更在于它在叠加之后展现出的独特可扩展性。每一层都能够重新组织全局信息,而不仅是像卷积网络那样单纯扩大局部感受野;多头注意力保证了信息在不同维度被不断重组;而残差连接和归一化,又让深层网络在扩展时保持稳定。这种设计为“越大越强”奠定了技术基础。
后来,研究者在不断扩展 Transformer 时发现了一个耐人寻味的规律—— 缩放定律(Scaling Law)。缩放定律显示,随着参数规模、训练数据和计算量的增加,模型性能会以接近幂律的方式持续提升(Kaplan et al., 2020)。更重要的是,这一规律迄今为止尚未失效1(Hoffmann et al., 2022; OpenAI, 2023),这意味着:只要不断投入资源,模型的表达力似乎就能无限逼近更复杂的智能。
而真正让人惊讶的,是研究者们发现,随着模型规模的增加,会出现能力的非线性跃迁:当模型规模逐渐增大时,小模型无法完成的任务,大模型却能突然解决。这种现象也被称为涌现性(Wei 等人,2022)。这种“涌现性”并非偶然,而是参数空间在高维表示下的自然结果:当模型拥有足够的容量与信息流动机制时,某些复杂模式便会自然而然浮现出来。
换句话说,Transformer 架构不仅能“稳步变强”,还能在规模增长中解锁全新的能力。这种可扩展性与涌现性,正是“大模型”时代的底层逻辑。
人类认知的有限性 vs. 机器抽象的潜在无限性
当我们谈到人类大脑时,往往会感叹它的复杂与精妙。科学研究表明,大脑大约由 860 亿个神经元组成,这些神经元之间通过约 10^14 级的突触相互连接,形成了庞大的信息处理网络(Azevedo et al., 2009)。然而,这个看似强大的系统其实有着先天的限制。
首先是能量约束。整个人脑运转时的能耗大约只有 20 瓦,相当于一盏节能灯泡。其次是记忆容量的限制。短时记忆通常只能维持 7 ± 2 个信息单元,这意味着我们一次性能处理的内容并不多(Miller, 1956)。最后,大脑的结构并不能随意改变。进化早已塑造了它的基本格局,我们无法像升级硬件一样去扩展神经元数量或重新布置神经网络(Zador, 2019)。
为了克服上述约束,人类逐渐发展出了一种高效的信息处理方式——大脑倾向于从大量零散的感官经验中,提炼出普遍的模式或规律。例如“火会烫”、“物体会下落”。这些规律进一步抽象成概念,比如“温度”、“重力”。通过建立语言、数学、逻辑等符号体系,概念可以被传递、经验可以被积累、知识可以被组合…… 一步步用“抽象”来替代“存储大量细节”,用“符号”来突破“记忆和能量的瓶颈”,实现对知识的高效压缩与传递。
人类既能够从大量经验中总结规律,又能利用这些规律去推导和验证新的结论。这种方式如同思维的引擎,使我们即使在受限的生物硬件条件下,仍能不断提升认知层次。每一次抽象的跨越,都会带来更强的解释力和预测力(Lake et al., 2017)。
相比之下,人工智能模型并不存在类似人脑的天然边界。其参数规模可以从百万级扩展到万亿级,不受神经元数量的限制;上下文窗口已达到百万级 token,使模型能够在更大范围内整合知识;随着层数和注意力机制的增加,模型的表示空间还可以持续拓展。
人类依靠的是固定的生物结构,通过漫长的演化和积累才达到现有的抽象层次;而机器则依赖算力与资源,理论上可以无限叠加更高维度的抽象,展现出潜在的、可能超越人类的智能水平。
结语
从早期神经网络在手写数字识别任务中的应用,到当下大模型在多模态处理、推理与代码生成方面的进展,人工智能的发展过程表明,在更高维度的信息模式中,模型可能展现出超越人类的智能。
参考文献
- LeCun, Y., Boser, B., Denker, J. S., et al. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation.
- Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS.
- Brown, T., et al. (2020). Language Models are Few-Shot Learners (GPT-3). NeurIPS.
- OpenAI (2023). GPT-4 Technical Report.
- Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
- Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla).
- Wei, J., et al. (2022). Emergent Abilities of Large Language Models.
- Villalobos, P., et al. (2022). Will we run out of data? Limits of LLM scaling based on human-generated data.
- Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review.
- Azevedo, F. A., et al. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain. J Comp Neurol.
- Lake, B. M., Ullman, T., Tenenbaum, J., & Gershman, S. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences.
- Richards, B. A., et al. (2019). A deep learning framework for neuroscience. Nature Neuroscience.
- Zador, A. (2019). A critique of pure learning and what artificial neural networks can learn from animal brains. Nature Communications.
- Dehaene, S. (2020). How We Learn: Why Brains Learn Better Than Any Machine… for Now.
- Changeux, J. P. (1985). Neuronal Man: The Biology of Mind. Princeton University Press.
- Sporns, O. (2021). Networks of the Brain. MIT Press.
- Marcus, G. (2018). Deep Learning: A Critical Appraisal.
- Marcus, G. (2015). The Future of the Brain: Essays by the World’s Leading Neuroscientists. Princeton University Press.
- Floridi, L. (2014). The 4th Revolution: How the Infosphere is Reshaping Human Reality. Oxford University Press.
- Tay, Y., et al. (2022). Efficient Transformers: A Survey. ACM Computing Surveys.
附记
-
Scaling Law 的边际效应与架构潜力
近年来,一些研究者指出大模型的 Scaling Law 已出现“边际效应递减”。随着参数与算力的进一步增加,性能提升的速度低于早期阶段(Villalobos et al., 2023)。这一点从两个角度可以理解:
-
资源层面:训练语料的质量与多样性、以及能源消耗成为瓶颈。当前大模型主要依赖人类生成的文本,而这类数据本身存在稀缺性与重复性,导致性能提升速度放缓。
-
架构层面:Transformer 的表达能力并没有触顶。其 QKV 与多头注意力机制仍具备在更高维空间进行抽象和信息重组的潜力。
换句话说,现象上的边际递减并不是架构极限的体现,而更像是“成年人只学习儿童读物”的情况:一个成年人如果只读儿童故事,表现出来的理解水平也许接近儿童,但这并不能说明他的智力上限就是儿童水平。同理,大模型的智能水平目前更多受到训练数据和能量投入的制约,而不是架构本身的限制。
因此,从结构角度来看,Scaling Law 仍未达到理论极限。未来如果有更高质量的训练数据、更高效的能源利用方式,以及新的学习范式,大模型的表现力仍有显著提升空间。 ↩
-