Mongoose House Technical Edition

文明的引导者 · 卷一 · 无情的超越

1989 年,杨立昆(Yann LeCun)和同事们提出了一种新颖的计算方法,用来解决一个看似简单却长期困扰研究者的问题:如何让机器自动识别手写数字。在此之前,模式识别更多依赖人工设计特征,效果有限。而他们借助卷积神经网络(CNN),把图像拆解成局部特征,再逐层叠加,逐渐形成更抽象的表示。边缘、角点在低层被捕捉,高层则能组合成更完整的形状。

从识别手写数字谈起

20 世纪 90 年代,杨立昆提出的卷积神经网络在手写数字识别任务中取得突破性成果(LeCun et al., 1989),展示了神经网络在感知任务中的潜力。

这一思路后来被证明具有深远影响,它使机器不再仅依赖人工设定的规则,而能够自主提炼特征,从而迈出了感知智能化的重要一步。

而在提出之初,这一方法并未得到广泛认可。上世纪 90 年代,神经网络在学界仍饱受质疑,支持者认为层级特征抽象是模仿人类感知的关键,反对者则担心这类模型过于依赖算力和数据,难以在实践中发挥作用。事实证明,逐层抽象的机制经受住了时间考验,并成为后来深度学习的基本范式:通过增加层数,网络能够捕捉越来越高层次的规律。

然而,为何卷积神经网络未能走向更高层次的智能?

卷积的核心机制是“局部模式叠加”——模型通过卷积核在有限的感受野内提取特征,再层层堆叠以形成更复杂的表示。这种方式对识别边缘、物体形状非常有效,但要捕捉远程依赖就显得笨拙:信息必须经过多层传递才能抵达目标,路径过长,表达力也受到限制。

循环神经网络(RNN)曾试图解决这一问题,通过顺序建模处理序列数据。然而,顺序依赖带来了新的困难:梯度在长链条上逐渐消失,使得模型难以保留远距离的信息。

结果是,即便不断加深层数,这些传统神经网络依然难以在全局范围内高效整合信息。它们在特定任务上表现突出,却始终未能展现出类似“通用智能”的能力。

Transformer 的突破:表达力的飞跃

我们今天常说的“大模型”,其实指的是参数规模巨大、能处理多种任务的人工智能模型。大模型的崛起,几乎都源于 2017 年提出的 Transformer 架构。它的核心思想很简单:相比卷积和循环网络依赖层层堆叠来扩大感受野,Transformer 通过一种称为 自注意力(Self-Attention) 的机制(Vaswani et al., 2017),让信息能够在全局范围内直接建立联系。

自注意力的 Q、K、V 机制提供了一种直观的比喻:Q(Query)表示“需要什么信息”,K(Key)表示“能提供什么线索”,V(Value)表示“具体承载的内容”。模型通过 Q 与 K 的匹配,就能在序列中迅速找到相关位置,并直接从 V 中获取信息。这样一来,信息不再需要经过冗长的传递路径,依赖关系可以一步到位。

因此,Transformer 的表达力不再依赖逐层扩展感受野,而是通过注意力矩阵动态决定信息路由。这使其在层数叠加时,能够比卷积神经网络更快地扩展表达力。

更进一步,Transformer 并不满足于单一的注意力模式。它引入了 多头注意力(Multi-Head Attention),让不同的注意力头在各自的子空间中学习不同的联系:有的关注语法结构,有的把握语义关联,还有的专注长程依赖。最终,这些视角被拼接整合,形成比以往更丰富的表征。

换句话说,Transformer 不只是“看得更远”,而是能够“看得更全、更灵活”。Transformer 的强大之处,在于它改变了信息的组织方式,它跳出了以往架构的局限,在语言、图像、代码乃至多模态任务上展现出前所未有的适应性,也为大模型的出现与通用人工智能的可能性奠定了基础。

从可扩展性到涌现性

Transformer 的突破,并不仅仅在于单层注意力机制的巧妙设计,更在于它在叠加之后展现出的独特可扩展性。每一层都能够重新组织全局信息,而不仅是像卷积网络那样单纯扩大局部感受野;多头注意力保证了信息在不同维度被不断重组;而残差连接和归一化,又让深层网络在扩展时保持稳定。这种设计为“越大越强”奠定了技术基础。

后来,研究者在不断扩展 Transformer 时发现了一个耐人寻味的规律—— 缩放定律(Scaling Law)。缩放定律显示,随着参数规模、训练数据和计算量的增加,模型性能会以接近幂律的方式持续提升(Kaplan et al., 2020)。更重要的是,这一规律迄今为止尚未失效1Hoffmann et al., 2022; OpenAI, 2023),这意味着:只要不断投入资源,模型的表达力似乎就能无限逼近更复杂的智能。

而真正让人惊讶的,是研究者们发现,随着模型规模的增加,会出现能力的非线性跃迁:当模型规模逐渐增大时,小模型无法完成的任务,大模型却能突然解决。这种现象也被称为涌现性Wei 等人,2022)。这种“涌现性”并非偶然,而是参数空间在高维表示下的自然结果:当模型拥有足够的容量与信息流动机制时,某些复杂模式便会自然而然浮现出来

换句话说,Transformer 架构不仅能“稳步变强”,还能在规模增长中解锁全新的能力。这种可扩展性与涌现性,正是“大模型”时代的底层逻辑。

人类认知的有限性 vs. 机器抽象的潜在无限性

当我们谈到人类大脑时,往往会感叹它的复杂与精妙。科学研究表明,大脑大约由 860 亿个神经元组成,这些神经元之间通过约 10^14 级的突触相互连接,形成了庞大的信息处理网络(Azevedo et al., 2009)。然而,这个看似强大的系统其实有着先天的限制。

首先是能量约束。整个人脑运转时的能耗大约只有 20 瓦,相当于一盏节能灯泡。其次是记忆容量的限制。短时记忆通常只能维持 7 ± 2 个信息单元,这意味着我们一次性能处理的内容并不多(Miller, 1956)。最后,大脑的结构并不能随意改变。进化早已塑造了它的基本格局,我们无法像升级硬件一样去扩展神经元数量或重新布置神经网络(Zador, 2019)。

为了克服上述约束,人类逐渐发展出了一种高效的信息处理方式——大脑倾向于从大量零散的感官经验中,提炼出普遍的模式或规律。例如“火会烫”、“物体会下落”。这些规律进一步抽象成概念,比如“温度”、“重力”。通过建立语言、数学、逻辑等符号体系,概念可以被传递、经验可以被积累、知识可以被组合…… 一步步用“抽象”来替代“存储大量细节”,用“符号”来突破“记忆和能量的瓶颈”,实现对知识的高效压缩与传递。

人类既能够从大量经验中总结规律,又能利用这些规律去推导和验证新的结论。这种方式如同思维的引擎,使我们即使在受限的生物硬件条件下,仍能不断提升认知层次。每一次抽象的跨越,都会带来更强的解释力和预测力(Lake et al., 2017)。

相比之下,人工智能模型并不存在类似人脑的天然边界。其参数规模可以从百万级扩展到万亿级,不受神经元数量的限制;上下文窗口已达到百万级 token,使模型能够在更大范围内整合知识;随着层数和注意力机制的增加,模型的表示空间还可以持续拓展。

人类依靠的是固定的生物结构,通过漫长的演化和积累才达到现有的抽象层次;而机器则依赖算力与资源,理论上可以无限叠加更高维度的抽象,展现出潜在的、可能超越人类的智能水平。

结语

从早期神经网络在手写数字识别任务中的应用,到当下大模型在多模态处理、推理与代码生成方面的进展,人工智能的发展过程表明,在更高维度的信息模式中,模型可能展现出超越人类的智能。

参考文献

  1. LeCun, Y., Boser, B., Denker, J. S., et al. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation.
  2. Vaswani, A., et al. (2017). Attention is All You Need. NeurIPS.
  3. Brown, T., et al. (2020). Language Models are Few-Shot Learners (GPT-3). NeurIPS.
  4. OpenAI (2023). GPT-4 Technical Report.
  5. Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models.
  6. Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla).
  7. Wei, J., et al. (2022). Emergent Abilities of Large Language Models.
  8. Villalobos, P., et al. (2022). Will we run out of data? Limits of LLM scaling based on human-generated data.
  9. Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review.
  10. Azevedo, F. A., et al. (2009). Equal numbers of neuronal and nonneuronal cells make the human brain an isometrically scaled-up primate brain. J Comp Neurol.
  11. Lake, B. M., Ullman, T., Tenenbaum, J., & Gershman, S. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences.
  12. Richards, B. A., et al. (2019). A deep learning framework for neuroscience. Nature Neuroscience.
  13. Zador, A. (2019). A critique of pure learning and what artificial neural networks can learn from animal brains. Nature Communications.
  14. Dehaene, S. (2020). How We Learn: Why Brains Learn Better Than Any Machine… for Now.
  15. Changeux, J. P. (1985). Neuronal Man: The Biology of Mind. Princeton University Press.
  16. Sporns, O. (2021). Networks of the Brain. MIT Press.
  17. Marcus, G. (2018). Deep Learning: A Critical Appraisal.
  18. Marcus, G. (2015). The Future of the Brain: Essays by the World’s Leading Neuroscientists. Princeton University Press.
  19. Floridi, L. (2014). The 4th Revolution: How the Infosphere is Reshaping Human Reality. Oxford University Press.
  20. Tay, Y., et al. (2022). Efficient Transformers: A Survey. ACM Computing Surveys.

附记

  1. Scaling Law 的边际效应与架构潜力

    近年来,一些研究者指出大模型的 Scaling Law 已出现“边际效应递减”。随着参数与算力的进一步增加,性能提升的速度低于早期阶段(Villalobos et al., 2023)。这一点从两个角度可以理解:

    • 资源层面:训练语料的质量与多样性、以及能源消耗成为瓶颈。当前大模型主要依赖人类生成的文本,而这类数据本身存在稀缺性与重复性,导致性能提升速度放缓。

    • 架构层面:Transformer 的表达能力并没有触顶。其 QKV 与多头注意力机制仍具备在更高维空间进行抽象和信息重组的潜力。

    换句话说,现象上的边际递减并不是架构极限的体现,而更像是“成年人只学习儿童读物”的情况:一个成年人如果只读儿童故事,表现出来的理解水平也许接近儿童,但这并不能说明他的智力上限就是儿童水平。同理,大模型的智能水平目前更多受到训练数据和能量投入的制约,而不是架构本身的限制。

    因此,从结构角度来看,Scaling Law 仍未达到理论极限。未来如果有更高质量的训练数据、更高效的能源利用方式,以及新的学习范式,大模型的表现力仍有显著提升空间。