Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

基本信息

标题: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
第一作者: Jason Wei (Google Research, Brain Team)
研究团队: google_brain
会议/期刊: NeurIPS 2022
arXiv: 2201.11903v6
代码: (未公开独立代码库)
PDF 文件: [Chain-of-Thought Prompting](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260425_chain_of_thought_prompting_elicits_reasoning.pdf)

研究摘要

在人工智能发展的漫长旅程中，大型语言模型（Large Language Models, LLMs）的出现标志着一个重要的转折点。这些模型通过在海量文本数据上的预训练，掌握了丰富的语言知识和模式识别能力。然而，一个令人困惑的现象始终存在：尽管模型规模不断膨胀，从数十亿到数千亿参数，它们在需要多步推理的复杂任务面前依然表现得捉襟见肘。无论是小学的数学应用题、需要常识判断的逻辑问题，还是简单的符号操作，这些对人类而言往往轻而易举的任务，却成为了语言模型难以逾越的障碍。这一困境引发了一个根本性的科学问题：大型语言模型是否真的具备推理能力，还是说它们仅仅是复杂的模式匹配器，只能记忆和复述训练数据中见过的内容？

Wei等人于2022年发表的这项工作，正是针对这一核心问题提出了一种令人耳目一新的解决方案。论文的核心洞察源于对人类思维过程的深刻观察——当我们面对复杂问题时，很少会直接蹦出最终答案。相反，我们会自然地展开一段思考的旅程：将问题分解为若干子步骤，逐一分析每个部分，在前一步的基础上构建下一步的推理，最终水到渠成地得出结论。这种"思维链"（chain of thought）的过程如此自然，以至于我们往往意识不到它的存在。作者们敏锐地意识到，如果能够让语言模型也生成这样的中间推理步骤，或许就能解锁它们潜藏的推理能力。

这一想法的技术实现出奇地简洁优雅。与其让模型直接从输入映射到输出，作者们在 few-shot prompting（少样本提示）的框架中，为每个示例补充了一段详细的推理过程。具体而言，标准的 few-shot prompting 提供的是 ⟨输入, 输出⟩ 这样的二元组示例；而链式思维提示则扩展为 ⟨输入, 思维链, 输出⟩ 的三元组结构。这里的思维链是一系列用自然语言表达的中间推理步骤，它们展现了如何从问题描述逐步过渡到最终答案的完整思考轨迹。这种方法的美妙之处在于，它不需要对模型进行任何微调或重新训练——仅仅是改变了输入提示的形式，就能激发出模型全新的能力。

实验结果揭示了一个引人注目的"涌现"现象。当模型规模达到约1000亿参数时，链式思维提示突然展现出强大的效果，使得PaLM 540B在GSM8K数学应用题基准上达到了当时最先进的水平，甚至超过了经过专门微调的GPT-3模型配合验证器的复杂系统。这种能力并非随着模型规模线性增长，而是在某个临界点后突然显现，暗示着大规模语言模型内部可能存在某种质变——当模型足够大时，它不仅能够记忆模式，还能够理解和模拟推理的结构。

论文的贡献可以从多个维度来理解。首先，它提出了一种极其通用且易于实施的推理增强方法，适用于算术推理、常识推理和符号推理等多种任务类型。其次，它揭示了模型规模与推理能力之间的非线性关系，为理解大型语言模型的能力边界提供了新的视角。第三，它证明了自然语言不仅是模型需要理解和生成的目标，更可以作为一种中间表示来辅助复杂的认知过程。这一工作不仅为后续的自一致性解码（self-consistency decoding）、自动思维链生成等研究方向奠定了基础，更重要的是，它改变了我们对语言模型能力的认知——标准提示所能激发的可能只是这些模型能力的一个下限，而通过适当的提示设计，我们可能只触碰到了它们潜能的冰山一角。

理论框架

要深入理解链式思维提示的理论内涵，我们需要首先将其置于认知科学和人工智能发展的历史脉络中加以审视。人类进行复杂推理时依赖中间步骤的现象，早已在认知心理学中得到充分研究。从Newell和Simon的开创性工作开始，问题求解就被概念化为在问题空间中的搜索过程，而启发式策略则指导着这一搜索的方向。链式思维提示在某种程度上可以看作是让语言模型模拟这种认知搜索过程的一种尝试——通过生成中间步骤，模型实际上是在"探索"问题空间中的不同路径，逐步缩小可能的解答范围。

从机器学习的角度追溯，使用中间步骤增强模型能力的思想并非首次出现。Ling等人早在2017年就提出了通过自然语言理由（rationales）来解决数学应用题的方法，但他们采用的是从头训练专门模型的途径。Cobbe等人2021年的工作则进一步发展了这一方向，通过创建大规模数据集并对预训练模型进行微调，使模型学会了生成解题步骤。这些工作证明了中间推理步骤的价值，但它们都依赖于昂贵的数据标注和模型训练过程。另一条并行的研究路线探索了神经符号方法，使用形式语言而非自然语言来表达推理过程。这些前期工作共同构成了链式思维提示的理论土壤，而Wei等人的核心创新在于发现：这些推理能力并非必须通过专门的训练来植入，而是可以通过恰当的提示方式从足够大的通用语言模型中"激发"出来。

链式思维提示的理论基础建立在几个关键概念之上。首先是"涌现能力"（emergent abilities）这一概念——论文发现，当模型规模跨越某个阈值时，链式思维提示的效果突然显现，而非随着规模线性改善。这一现象表明，大型语言模型内部可能形成了某种支持结构化推理的表示或机制，而这种机制在较小规模的模型中并不存在或不足以支持可靠的推理过程。这种涌现性与统计物理中的相变有着深刻的类比：就像水在降温到零度时突然结冰一样，语言模型的推理能力也在某个"临界点"发生了质的跃迁。

从信息处理的角度看，链式思维提示可以被理解为一种增加有效计算深度的方法。标准提示下，模型需要在单次前向传播中完成从问题理解到答案生成的全部过程，这对模型的内部状态转换提出了极高的要求。而链式思维提示通过将推理过程外化为一系列自然语言陈述，实际上是将复杂的计算分解为多个阶段，每个阶段处理一个相对简单的子问题。这种分解策略与计算机科学中的分治法（divide and conquer）以及动态规划思想有着异曲同工之妙。每个中间步骤的输出成为下一步的输入，形成了一个信息传递和变换的链条，使得模型可以在每一步集中注意力于特定的推理操作，而不必同时维护整个问题的完整状态。

论文还隐含地触及了一个更深层的理论问题：语言在认知过程中的角色。传统观点往往将语言视为思维的输出或载体，而链式思维提示的实验结果暗示，自然语言可能不仅仅是表达思想的工具，它本身就参与了思维过程的组织。当模型被引导用自然语言"思考"时，它的表现显著优于直接生成答案的情况，这说明语言形式可能对推理质量有着因果性的影响。这一观察与Vygotsky关于"内部言语"（inner speech）在发展认知功能中作用的心理学理论形成了有趣的呼应，也为"语言是否塑造了思维"这一古老哲学问题提供了来自人工智能的新视角。

在假设与适用范围方面，链式思维提示的有效性依赖于若干关键前提。首先，模型必须具备足够的规模以支持涌现的推理能力——实验明确显示，参数量低于约100亿的模型在使用链式思维提示时表现反而变差，它们生成的思维链虽然流畅却缺乏逻辑一致性。其次，任务本身需要具备可分解为中间步骤的结构特征；对于仅需单步推理的极简任务，链式思维带来的额外开销并无益处。第三，模型需要具备基本的符号操作和语义理解能力，否则即使生成了思维链，其中的推理步骤也可能是错误的。这些假设界定了方法的适用边界，也指出了未来研究需要解决的核心挑战：如何让更小规模的模型获得可靠的推理能力，以及如何确保生成思维链的事实正确性。

技术架构

链式思维提示的技术实现看似简洁，但其背后蕴含着精巧的设计考量。在系统层面，整个方法可以被视为一种增强型的上下文学习（in-context learning）框架。与传统的 few-shot prompting 相比，链式思维提示在提示模板（prompt template）的设计上进行了根本性的扩展。标准的提示模板为模型提供的是问题-答案对的示例，期望模型从中抽取输入到输出的映射模式。而链式思维提示的模板则展示了完整的推理轨迹，将每个示例扩展为问题-推理过程-答案的三段式结构。这种设计上的微妙变化产生了深远的影响：它不再要求模型仅仅学习表面上的相关性，而是需要理解并复现深层的推理结构。

数据在系统中的流动过程值得仔细审视。当一个新的测试问题输入系统时，它首先与预先构建的 few-shot 示例拼接在一起，形成一个完整的提示序列。这个序列的结构呈现出清晰的模式：每个示例都包含问题陈述、分步推理过程和最终答案。推理过程以自然语言句子的形式呈现，这些句子不仅描述了数学运算（如"5 + 6 = 11"），还包含了更高层次的推理决策（如"Roger started with 5 balls"表明了对问题初始状态的理解）。这种富结构化的提示序列作为输入传递给语言模型，模型通过自回归的方式生成后续文本。关键在于，模型不仅被期望生成最终答案，而是被引导先生成一段与示例风格一致的推理过程，然后给出答案。

这一技术设计的核心创新在于对模型输出空间的重新结构化。标准提示将模型的任务简化为条件概率建模 $P (answer | question)$ ，而链式思维提示将其扩展为 $P (chain, answer | question)$ 。这种扩展使得模型可以利用更大的输出空间来表达复杂的推理过程。从计算角度看，生成思维链的过程相当于在模型内部执行了一系列中间变量的实例化：每个推理步骤对应着一个中间计算结果，这些结果以自然语言的形式被显式表示，并作为后续生成步骤的上下文信息。这种变量实例化的机制类似于在编程中引入临时变量来分解复杂的表达式，使得每一步的计算都建立在明确的基础之上。

在具体实现中，论文作者采用了一组精心设计的 eight-shot 示例，这些示例覆盖了数学应用题中常见的推理模式：识别初始条件、建立中间变量、执行算术运算、验证结果合理性等。每个示例的思维链都遵循一致的风格：用简洁的自然语言句子描述每一步的推理，明确指出执行的数学操作，并在最后总结答案。这种一致性至关重要，因为它为模型提供了清晰的生成模板，降低了模型推断合适输出格式的负担。值得注意的是，作者强调这些示例并未经过复杂的提示工程（prompt engineering）优化——它们只是直观地展示了人类解决这类问题的思考过程。这一事实本身就说明了链式思维提示的鲁棒性：它依赖于推理结构的内在价值，而非提示措辞的巧妙设计。

从更广阔的视角来看，链式思维提示的技术架构代表了一种"提示即程序"（prompting as programming）的范式。在这个框架中，few-shot 示例扮演了"程序"的角色，定义了解决特定类型问题的算法流程。思维链则是这种算法的具体实现，展示了如何将抽象的解题策略应用于具体实例。这种视角揭示了提示工程的本质：它不是在为模型提供数据点让其插值，而是在为模型编写高层级的算法说明书，由模型来编译和执行。链式思维提示的成功表明，大型语言模型具备了某种程度的"算法理解"能力——它们能够从示例中抽象出可复用的推理模式，并将其应用到新的问题上。

实验评估

为了全面评估链式思维提示的有效性，作者们设计了一个系统性的实验方案，覆盖了三个核心推理领域：算术推理、常识推理和符号推理。这一广泛的评估策略旨在验证方法的普适性，而非仅仅在单一任务上展示效果。实验采用了五种不同规模的大型语言模型系列——GPT-3（350M至175B参数）、LaMDA（422M至137B参数）、PaLM（8B至540B参数）、UL2 20B以及Codex，构成了一个从较小规模到超大规模的完整模型谱系。这种多模型、多尺度的评估设计使得研究者能够分离"方法效应"和"模型效应"，从而更准确地定位链式思维提示的作用机制。

在算术推理领域，实验选取了五个具有代表性的数学应用题数据集。GSM8K数据集包含了约8000道需要多步推理的小学水平数学问题，被广泛视为衡量语言模型算术推理能力的金标准。SVAMP数据集则专门测试模型对问题结构的鲁棒性，通过扰动已知问题的表述方式来检验模型是否真正理解数学关系而非仅仅记忆解题模板。ASDiv提供了多样化的数学问题集合，AQuA包含需要代数推理的复杂问题，而MAWPS则作为综合性的数学问题基准。这些数据集的选择体现了作者对评估全面性的追求：它们覆盖了从简单单步计算到复杂多步推理的不同难度层级，涉及了自由回答和多项选择等不同回答格式。

实验结果呈现出一个清晰而引人注目的模式。对于规模较小的模型（通常指参数量低于100亿的模型），链式思维提示不仅未能带来性能提升，反而往往造成了性能下降。这些小型模型生成的思维链虽然语言流畅，但逻辑上存在明显缺陷——它们可能生成与问题无关的推理步骤，或者在中间计算中出现错误。然而，当模型规模跨越约1000亿参数的阈值时，情况发生了戏剧性的转变。以PaLM 540B为例，在GSM8K数据集上，标准提示的解题率仅为17.9%，而链式思维提示将这一数字提升至56.9%——几乎三倍的提升幅度，使得这一未经微调的通用模型超越了当时最先进的专门化系统。在SVAMP数据集上，PaLM 540B配合链式思维提示达到了79.0%的解题率，而在MAWPS综合基准上更是达到了93.3%的高水平。

模型	方法	GSM8K	SVAMP	ASDiv	AQuA	MAWPS
GPT-3 175B	Standard	15.6	65.7	70.3	24.8	72.7
GPT-3 175B	Chain-of-Thought	46.9	68.9	71.3	35.8	87.1
PaLM 540B	Standard	17.9	69.4	72.1	25.2	79.2
PaLM 540B	Chain-of-Thought	56.9	79.0	73.9	35.8	93.3
Codex	Standard	19.7	69.9	74.0	29.5	78.7
Codex	Chain-of-Thought	63.1	76.4	80.4	45.3	92.6

表1：主要模型在算术推理基准上的对比结果（准确率%）。Prior best为专门微调模型的最优结果。

这些数字背后蕴含着深刻的意义。首先，它们表明链式思维提示的效果与模型规模之间存在强烈的非线性耦合关系——只有在足够大的模型上，这种方法才能发挥其全部潜力。其次，即使在相同模型上，不同数据集上的增益幅度也存在显著差异。对于本身已经较为简单的任务（如MAWPS中的单步问题），链式思维提示的收益相对有限，因为在这些任务上标准提示已经达到了较高水平。而对于GSM8K这类需要复杂多步推理的挑战性任务，链式思维提示的效果最为显著。这一模式暗示着链式思维提示的价值主要体现在"解锁"模型的潜在能力上——对于模型已经能够较好处理的任务，额外的推理步骤带来的边际收益较小；但对于模型原本难以企及的复杂任务，链式思维提示起到了关键的赋能作用。

消融实验进一步揭示了链式思维提示成功的真正原因。作者们设计了三种变体来分离可能的贡献因素。"仅方程"变体要求模型只输出数学方程而不生成自然语言推理步骤，结果发现这种方法在GSM8K上几乎无效——这说明仅仅提供额外的计算标记并不足以提升性能，问题的语义理解需要自然语言推理步骤的支撑。"仅可变计算"变体用一系列等长的省略号替代了具体的推理内容，以测试是否只是额外的计算时间（生成更多token）带来了好处，结果证明这种"空转"式的计算增益微乎其微。"答案后推理"变体则将推理步骤放置在最终答案之后，以检验模型是否确实依赖生成的中间步骤来推导答案，结果显示这种顺序上的调整使得效果回归基线。这些消融实验共同指向一个结论：链式思维提示的成功并非源于某个单一因素，而是自然语言形式、正确的推理顺序和实质性推理内容的综合作用。

案例研究

为了更直观地理解链式思维提示如何运作，让我们深入分析论文中展示的几个具体示例。首先是经典的数学应用题场景。考虑这样一个问题："食堂原来有23个苹果。他们用掉了20个来做午餐，然后又买了6个。现在他们有多少个苹果？"在标准提示模式下，模型被期望直接输出答案。然而，面对这类需要多步计算的问题，模型往往容易出错——它可能混淆运算的顺序，或者错误地组合数字。在链式思维提示模式下，模型生成的输出变成了："食堂原来有23个苹果。他们用掉了20个来做午餐，所以还剩23 - 20 = 3个。他们又买了6个苹果，所以现在有3 + 6 = 9个。答案是9。"这种分步推理的模式使得每一步计算都建立在明确的前提之上，大大降低了出错的可能性。

这个简单的例子揭示了一个重要的方法论洞察：链式思维提示的本质是在模型的生成过程中引入"检查点"（checkpoints）。每个推理步骤都是一个小型的输入-输出变换，其结果被显式地陈述出来，成为下一步的已知条件。这与软件工程中模块化设计的理念不谋而合——通过将复杂系统分解为功能明确的模块，并定义清晰的接口，可以降低整体系统的复杂度并提高可靠性。在这个数学问题中，第一步模块负责计算用掉苹果后的剩余量，第二步模块负责计算购买后的总量，两个模块之间通过"3个苹果"这一明确的中间结果进行连接。

再看一个常识推理的例子。问题"梨会在水中下沉吗？"要求模型整合关于物体密度和浮力原理的物理知识。链式思维提示引导模型生成了如下的推理过程："梨的密度大约是0.6 g/cm³，小于水的密度。因此，梨会浮在水面上。所以答案是否定的。"这个例子特别值得关注，因为它展示了链式思维提示如何激活模型预训练期间学到的领域知识。在标准提示模式下，模型可能仅仅基于对"梨"和"水"这两个概念的相关性统计来猜测答案，这种猜测可能是正确的也可能是错误的。而在链式思维提示模式下，模型被引导去检索和应用物理学的密度-浮力原理，这是一个更加可靠和可解释的推理路径。

符号推理任务则展示了链式思维提示的另一个强大特性：长度泛化（length generalization）。在"最后字母连接"任务中，模型在 few-shot 示例中只见过两个单词的名字（如"Elon Musk"→"nk"），但测试中要求处理三个或四个单词的名字。标准提示在这种分布外（out-of-distribution）的场景下完全失效，因为模型没有从示例中学到可泛化的操作规则。然而，链式思维提示通过展示明确的推理模板——"取最后一个字母...连接它们..."——使得模型能够理解任务的本质是逐词提取和连接操作，从而成功泛化到更长的序列。这一发现尤其重要，因为它表明链式思维提示不仅改善了模型在已知任务上的表现，还增强了它们学习和迁移抽象程序的能力。

错误案例分析同样富有启发性。在GSM8K数据集上，作者手动分析了LaMDA 137B模型生成的错误推理链。他们发现约46%的错误属于"几乎正确"的类型——推理链的整体逻辑是合理的，但存在某个小的计算错误、符号映射偏差或遗漏了一个推理步骤。这说明链式思维提示使得模型的错误模式发生了质变：从标准提示下的完全错误或不相关的回答，转变为结构合理但存在局部缺陷的推理。这种改进为后续的错误修正策略（如外部计算器验证、自我一致性解码等）奠定了基础，因为修复一个结构正确但计算有误的推理链，要比修正一个完全混乱的输出容易得多。

综合价值与局限

链式思维提示的提出标志着提示工程领域的一个重要里程碑。从理论层面看，它改变了我们对大型语言模型能力边界的理解。在此之前，标准 few-shot 提示所能达到的性能被广泛视为语言模型"真实能力"的反映。而链式思维提示的实验结果表明，标准提示可能只是触碰到这些模型能力的表面。通过适当的输出结构化，模型能够展现出远超此前观察到的推理能力。这一发现提出了一个深刻的问题：语言模型究竟还隐藏着多少未被发掘的潜能？正如论文作者所指出的，"标准提示仅仅提供了大型语言模型能力的下限"。这一认知转变对整个领域的方法论都产生了影响——研究者们开始更加关注如何设计提示来激发而非仅仅测试模型的能力。

从实践应用的角度，链式思维提示的价值体现在其通用性和易实施性上。与需要大量标注数据和模型微调的方法相比，链式思维提示仅需在提示层面进行调整，无需修改模型参数或进行额外的训练。这意味着同一个预训练模型可以在不同任务间快速切换，只需更换相应的 few-shot 示例即可。这种"零样本"（zero-shot）或少样本的适应能力在实际部署中具有重要意义，尤其是在数据稀缺的领域或需要快速原型开发的场景。此外，思维链的显式生成提供了宝贵的可解释性——用户和开发者可以审查模型的推理过程，理解它为什么会得出某个结论，并在推理出现偏差时进行调试。这种透明性在需要人机协作的高风险应用中尤为重要。

然而，这项工作也存在不容忽视的局限性。首要的限制是涌现性质对模型规模的依赖。链式思维提示的效果仅在参数量约1000亿以上的模型上才能可靠地观察到，这意味着它无法直接惠及资源受限的应用场景或边缘设备部署。这一限制促使后续研究探索如何在小模型上诱导类似的推理能力，例如通过知识蒸馏、专门训练推理模块或更高效的提示策略。其次，思维链的事实正确性无法得到保证。尽管论文显示在正确回答的问题中思维链通常也是正确的，但对于多选或二分类任务，模型可能通过错误的推理偶然得到正确答案。这种"正确但理由错误"的情况在需要可信赖推理的应用中构成了严重风险。

第三个重要的局限性是链式思维提示的成本问题。生成详细的推理步骤意味着模型需要输出更多的token，这直接增加了推理时间和计算开销。在需要低延迟响应或大规模并发处理的生产环境中，这种额外的计算负担可能成为一个实际的部署障碍。此外，虽然论文展示了链式思维提示对不同标注者编写的示例具有鲁棒性，但提示工程仍然在某些任务上发挥着关键作用。例如，作者提到在尝试让模型反转列表顺序的初步实验中，两位合著者未能写出有效的思维链提示，而第三位才取得成功。这说明提示设计本身仍然是一门需要技巧的艺术，而非完全自动化的过程。

从更宏观的视角审视，链式思维提示的局限性也指向了更深层的科学问题。论文坦诚地指出，虽然思维链模拟了人类推理者的思考过程，但这并不能回答神经网络是否真正在"推理"——它们可能只是学会了生成看起来像推理的文本，而缺乏真正的因果理解或逻辑约束。这一本体论问题触及了人工智能研究的核心哲学争论，目前仍然没有定论。无论如何，链式思维提示为我们提供了一个富有成效的研究视角：即使模型内部的运作机制仍然是黑箱，通过设计适当的外部接口（即提示结构），我们可以引导它们产生更加结构化和可靠的行为。

延伸阅读与思考

链式思维提示的学术血脉可以追溯到多个研究方向的自然交汇。在直接使用中间步骤进行推理的早期探索中，Ling等人（2017）的工作具有开创性意义——他们首次展示了自然语言理由在解决数学应用题中的价值，尽管他们采用的是从头训练的方法。Cobbe等人（2021）进一步发展了这一方向，通过构建更大规模的数据集并采用预训练-微调的范式，显著提升了性能。这些工作为链式思维提示提供了概念上的灵感，但Wei等人的核心突破在于证明这些能力可以通过纯提示的方式从通用语言模型中激发，而无需专门的训练数据或微调过程。

在提示学习的大范畴内，链式思维提示占据了一个独特的位置。Brown等人（2020）提出的标准 few-shot prompting 奠定了上下文学习的基础框架，后续研究沿着多个方向进行了扩展：自动提示优化（Lester et al., 2021; Li and Liang, 2021）、指令微调（Wei et al., 2022a; Ouyang et al., 2022）以及多任务提示训练（Sanh et al., 2022）。这些方法的共同点在于关注如何改进提示的输入部分——通过更好的指令、更优的示例排列或自动学习的连续提示。链式思维提示则走出了 orthogonal（正交）的一步：它不是改进输入，而是重新结构化输出，要求模型生成更丰富的响应内容。这种输入-输出双侧的提示设计空间仍有大量未被探索的可能性。

对于希望追踪这一领域最新进展的读者，有几个密切相关的研究方向值得关注。首先是自我一致性解码（self-consistency decoding），由Wang等人（2022a）提出，该方法通过采样多条推理路径并选择最一致的答案来进一步提升性能。这一技术建立在链式思维提示的基础之上，解决了单条推理路径可能包含错误的问题。其次是自动思维链生成和优化的研究，如Zelikman等人（2022）提出的STaR方法，通过自举（bootstrapping）的方式让模型自己生成和筛选高质量的推理示例，从而减少对人工编写示例的依赖。这些后续工作共同构成了一个日益丰富的工具箱，使得链式思维推理从最初的简单概念逐步演变为更加成熟和自动化的技术体系。

从更广阔的研究视角来看，链式思维提示激发了一系列关于语言模型本质的根本性问题。关于涌现能力的研究（Wei et al., 2022b）系统性地探讨了大型语言模型中各种能力随规模增长而非线性出现的规律，链式思维推理正是这一涌现现象的典型案例。这一研究方向促使我们重新审视模型规模与能力之间的关系，并思考是否存在尚未被发现的、会在更大规模上涌现的新能力。另一个密切相关的方向是可解释性研究——思维链为窥探模型内部工作机制提供了一个窗口，但正如论文指出的，我们仍然无法确定模型生成思维链时的内部计算是否真的对应于推理过程，还是仅仅是模式匹配的高级形式。

展望未来，链式思维提示开辟了几个富有前景的研究方向。首先是向更小规模模型迁移推理能力——这可以通过知识蒸馏、专门的推理模块设计或混合架构来实现。其次是提高思维链的事实可靠性，可能通过外部工具集成（如计算器、知识库查询）、验证器训练或多智能体辩论机制。第三是将链式思维应用于更广泛的任务类型，如多模态推理、代码生成和科学发现等。最深层的挑战或许是理解语言模型中推理能力的真正来源——它们是在预训练数据中学到了人类推理的模式，还是通过参数规模的扩大自发形成了某种形式的符号操作能力？回答这个问题将不仅推动人工智能技术的进步，也可能为我们理解人类自身的推理机制提供新的启示。

对我而言，这篇论文最发人深省之处在于它所揭示的"提示的力量"。在一个训练好的模型面前，我们往往将其视为一个固定的能力集合，通过提示来"查询"这个集合。但链式思维提示表明，提示本身可以塑造和扩展模型的能力边界——同一个模型，在不同的提示下，可以展现出截然不同的认知水平。这提示了一种人与模型之间更加动态和协作的关系：我们不是被动地测试模型的能力，而是通过精心设计的交互界面来共同发现和拓展这些能力。这种视角的转变为人工智能系统的开发和使用开辟了新的可能性，也提醒我们：在评价任何智能系统的潜能时，都需要审慎考虑我们所采用的交互方式是否真正公平地反映了它的能力。

笔记创建时间: 2026-04-25
阅读方式: L2 深度阅读

Topics: