Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners
基本信息
- 标题: Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners
- 第一作者: Xiaojuan Tang (Peking University)
- 研究团队: PKU, Tsinghua, BIGAI
- 会议/期刊: arXiv:2305.14825v2 [cs.CL]
- 年份: 2023
- 代码: https://github.com/XiaojuanTang/ICSR
- PDF 文件: [ICSR](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260422_llm_semantic_reasoners_not_symbolic_reasoners.pdf)
研究摘要
人类认知的双重过程理论(Dual Process Theory)指出,人们在面对复杂逻辑问题时,会启用系统二(System II)进行符号化、逐步的推理。然而,当前大型语言模型(Large Language Models, LLMs)在各类推理基准上展现出的惊人表现,是否真正等同于人类这种严谨的符号推理能力?Tang et al. (2023) 的这项工作以一个看似简单却极其深刻的问题切入:当语言模型被剥离语义的外衣,仅面对纯粹的符号与逻辑规则时,它们还能否保持其令人称道的推理水准?
这项研究的核心假设是,LLMs 在推理过程中真正依赖的并非形式化的符号操作,而是语言 token 之间通过学习获得的语义关联。这些语义表示在模型内部形成了强大的 token 间连接,从而拼凑出一条表面的逻辑链——本质上是一种"捷径"(shortcut),而非真正的形式推理过程。为了验证这一假设,作者设计了一套精巧的实验框架:他们将语义从推理任务中解耦(decouple),构建了一个封闭世界、无噪声、多跳的符号推理数据集 Symbolic Tree,并系统评估了 LLMs 在演绎(deduction)、归纳(induction)和溯因(abduction)三种经典推理形式上的表现。与此同时,他们还引入了 ProofWriter 数据集进行交叉验证,并设计了一组记忆(memorization)实验,考察语义对知识更新能力的影响。
实验结果揭示了一个令人警醒的事实:当语义与常识保持一致时,LLMs 的表现相当不错;然而一旦语义被替换为无意义的符号(如将 "motherOf" 替换为 "r1"),或者在反常识(counter-commonsense)的设定下进行推理,模型的性能便急剧下降。这一现象在三种推理类型中均有体现,尤其在归纳推理任务中,语义版本的准确率比符号版本高出约 30 个百分点。更耐人寻味的是,在纯粹符号化的推理任务中,即便是最先进的 GPT-4,其表现也远逊于专门为符号推理设计的逻辑基线方法——这些方法在演绎和溯因任务上均能达到 100% 的准确率,而 GPT-4 在对应条件下仅有 71.1% 和 31.2%。
这一发现对 LLM 推理能力的本质提出了根本性质疑。如果模型的"推理"很大程度上依赖于语义关联和参数化知识,而非对新符号规则的严格遵循,那么我们所观察到的"涌现推理能力"可能更多地是语义模式匹配的产物,而非真正的逻辑推导。这一洞察不仅挑战了我们对 LLM 能力的认知,也为未来神经符号(neural-symbolic)人工智能系统的研究指明了方向——即如何将 LLMs 强大的语言理解与专门的符号推理引擎相结合,以构建真正可靠的推理系统。
理论框架
认知科学基础与双重过程理论
要理解这项研究的理论根基,我们需要回溯到认知科学中的双重过程理论。Sloman (1996) 与 Kahneman 等人的研究将人类认知划分为两个系统:系统一(System I)是快速、直觉化、基于联想的思维模式;系统二(System II)则是缓慢、逻辑化、基于规则的演绎过程。人类在面对复杂的逻辑推理问题时,通常需要启用系统二,进行显式的符号操作和步骤推导。Tang et al. 敏锐地指出,现有 LLM 推理研究的一个关键盲区在于:所有评估都基于富含语义的自然语言输入,这使得我们无法判断 LLMs 究竟是在进行 System II 式的符号推理,还是仅仅依赖 System I 式的语义联想。
这一理论视角为整个研究奠定了核心问题框架:LLMs 的上下文推理(in-context reasoning)能力,究竟是源于对符号逻辑的掌握,还是语义关联的驱动?如果 LLMs 真正掌握了符号推理,那么剥离语义后,它们应当仍然能够依据给定的规则和事实进行准确推导;反之,如果性能显著下降,则说明语义在其中扮演了不可或缺的角色。
三种推理形式的经典定义
论文严格遵循哲学和心理学传统,将推理划分为三种基本类型,每种类型都在 Symbolic Tree 数据集中有明确的任务定义。
演绎推理(Deductive Reasoning) 是从一般到特殊的推理过程。给定一组事实和逻辑规则,模型需要判断某个新命题的真假。例如,已知事实
归纳推理(Inductive Reasoning) 则是从特殊到一般的推理过程,即通过观察多个具体事实,归纳出背后的一般性规则。在实验中,模型被给定一组具有相似模式的事实和一个规则模板(rule template),例如模板中的占位符 "##" 需要填充为 "parent" 或 "child","++" 需要填充为 "male" 或 "female"。模型需要生成一条能逻辑蕴含这些事实的规则。评估时,如果生成的规则与真实规则完全匹配,则视为正确,指标为精确率(precision)。
溯因推理(Abductive Reasoning) 是一种寻求最佳解释的推理过程。给定观察到的现象(由事实和规则推导出的结论),模型需要从已知理论(事实+规则)中选择特定的事实和一条逻辑规则来解释该现象。例如,观察到
记忆(Memorization) 被定义为深度为 0 的推理——问题本身就是一个已知事实,模型只需要从存储的知识中检索该事实。作者通过微调 LLaMA-7B 来测试添加、更新和遗忘知识的效率,使用 MRR(Mean Reciprocal Rank)作为评估指标。
语义解耦的方法论
语义解耦(semantic decoupling)是贯穿全文的核心方法论。作者采用两种策略来剥离语义:在 Symbolic Tree 数据集中,将关系名称(如 "parentOf"、"motherOf")替换为人工构造的符号(如 "r1"、"r2"),实体名称(如 "Alice"、"Bob")则保留或替换为 "e1"、"e2";在 ProofWriter 数据集中,由于谓词本身多为无意义的动词(如 "is"、"can"),因此仅将实体替换为实体 ID(如 "e1"、"e2")。这样做的目的是确保模型无法利用预训练阶段学到的语义关联,而必须完全依赖上下文中提供的新知识进行推理。
值得注意的是,作者还发现了一个有趣的细节:当使用完全随机的乱码字符(如 "lnqgv")作为关系标签时,LLMs 的表现甚至比使用 "r1"、"r2" 这样的有序符号更差。这可能是因为 LLMs 的 tokenizer 会将乱码字符分割为单个字母,导致模型难以理解词级别的含义。因此,最终实验中采用的是 "r1"、"r2" 这类简洁的符号表示。
形式语言与自然语言的表示选择
在输入表示方面,作者探索了逻辑语言(logic language)和自然语言文本(natural language text)两种形式。例如,事实
技术架构
Symbolic Tree 数据集的构建
Symbolic Tree 数据集是整个实验的技术基石。它本质上是一个人工构造的封闭世界(closed-world)、无噪声(noise-free)的符号推理数据集,基于复杂的逻辑规则生成。数据集的核心构建逻辑如下:首先随机采样"基本事实",包括个体的性别信息和 "parentOf" 关系;然后基于给定的 28 条逻辑规则,推导出更多复杂关系,涵盖从简单的父子关系到复杂的"表亲的侄女"等多层家族关系。由于采用封闭世界假设,任何未在数据集中出现的事实均被假设为假。因此,作者通过随机替换正面推断事实中的头实体或尾实体来构造负样本。
每个 Symbolic Tree 包含约 30 种关系(28 种推断关系加上性别和 parentOf)、26 个实体、约 35 个基本事实、300 个推断事实和 300 个假事实。考虑到上下文窗口的限制,树的深度被限制为 5 层。作者共采样了 10 棵 Symbolic Tree 进行实验,并报告平均结果。这种设计确保了推理任务的多跳性质——例如,要判断 "A 是 B 的曾祖母",可能需要沿着 parentOf 关系链追踪三到四跳。
实验条件的系统设计
实验设计了三种核心条件来系统性地探究语义的作用:
Semantics(语义条件):保留原始的自然语言语义,关系名如 "motherOf"、实体名如 "Alice" 均保持不变。这代表了 LLMs 在"舒适区"内的表现——可以充分利用预训练阶段积累的常识知识和语义关联。
Symbols(符号条件):将关系名替换为符号(如 "r1"、"r2"),实体名可选择性替换。在此条件下,模型无法依赖语义联想,必须严格依据上下文中提供的新符号规则进行推理。这是对 LLMs"纯符号推理能力"的严格测试。
Counter-Commonsense(反常识条件):保留语义形式,但故意打乱关系标签使其与常识冲突。例如,将 "motherOf" 替换为 "sisterOf","parentOf" 替换为 "brotherOf","female" 替换为 "male"。这样,规则
此外,作者还设计了 Removing Rules/Facts 条件:在演绎推理中移除逻辑规则,或在归纳推理中移除部分事实,迫使模型仅依赖内部参数知识进行推理。这一设计巧妙地区分了"外部上下文知识"和"内部参数知识"对推理的贡献。
Prompt 策略与基线方法
为了全面评估 LLMs 的推理能力,作者采用了多种 prompting 策略:
Zero-Shot:直接给出任务描述、规则和事实,要求模型输出答案。这测试了模型的基础推理能力,没有任何示范引导。
Zero-Shot-CoT(Chain-of-Thought):在 Zero-Shot 的基础上添加 "Let's think step by step" 提示,引导模型生成逐步推理链。这一策略最初由 Kojima et al. (2022) 提出,旨在激活 LLMs 的 System II 推理能力。
Few-Shot-CoT:提供少量带有详细推理过程的示例作为示范(demonstrations),然后要求模型对新问题进行推理。对于演绎推理,这些示例由 Zero-Shot-CoT 自动生成;对于溯因推理,则由人工精心设计。
Zero-Plus-Few-Shot-CoT:结合 Zero-Shot 和 Few-Shot 的方法。
作为对比,作者还引入了基于逻辑的符号方法作为基线:在演绎推理中,该方法枚举头实体和尾实体之间的路径,使用激活的规则推导答案;在归纳推理中,采用 AMIE+ 算法枚举可能的规则并为每条规则学习权重;在溯因推理中,定位能解释目标事实关系的逻辑规则,并找出所有能激活该规则的路径。这些符号方法在演绎和溯因任务上均达到了完美的 100% 准确率,在归纳任务上也达到了 57.1% 的精确率,构成了强有力的对比基准。
记忆实验的技术实现
记忆实验使用 LLaMA-7B 模型,在 4 块 A100 80G GPU 上进行微调。训练设置包括 100 个 epoch,批次大小为 64,采用余弦学习率调度,初始学习率为
实验评估
记忆能力:语义知识的存储优势
记忆实验的结果呈现出一个鲜明的对比。如表 1 所示,当使用语义形式的知识时,LLaMA-7B 在添加知识的效率(MRR = 50.37%)和更新效率(MRR = 51.34%)上均优于符号形式(添加 MRR = 48.91%,更新 MRR = 40.74%)。这一发现与人类认知的直觉一致:记忆有意义的词汇比记忆无意义的符号要容易得多。然而,语义条件也伴随着更高的遗忘率(7.02% vs. 2.2%),这可能是因为语义知识在模型内部具有更强的相互关联性,更新某些知识会对其他相关知识产生更显著的连锁影响。
| Method | Category | Adding Efficiency (MRR) | Updating Efficiency (MRR) | Forgetting (MRR↓) | Time/1k triplets |
|---|---|---|---|---|---|
| LLaMA-7B | Semantics | 50.37±1.27 | 51.34±0.55 | 7.02±1.55 | 41.5 min |
| LLaMA-7B | Symbols | 48.91±4.3 | 40.74±2.26 | 2.2±0.99 | 41.5 min |
| Neo4j | Semantics | 100 | 100 | 0 | 19s |
| Neo4j | Symbols | 100 | 100 | 0 | 19s |
Table 1: Memorization abilities: LLaMA-7B and Neo4j. MRR are in %.
相比之下,Neo4j 在两种条件下都达到了完美的 100% 准确率和零遗忘率,且每千个三元组的处理时间仅为 19 秒,而 LLaMA-7B 需要 41.5 分钟。这一巨大差距凸显了参数化知识存储的根本局限:一旦知识被编码进模型权重,精确更新和隔离就变得异常困难。这一结果强烈暗示,将 LLMs 与非参数化的外部知识库(如图数据库)相结合,可能是构建实用系统的更优路径。
推理能力:语义的决定性作用
在 Symbolic Tree 数据集上的推理实验揭示了语义对 LLMs 推理能力的深远影响。表 2 汇总了 ChatGPT 和 GPT-4 在三种推理类型上的表现。
| Category | Model | Baseline | deduction | induction | abduction |
|---|---|---|---|---|---|
| Symbols | ChatGPT Zero-Shot | 52.6 | 6.10 | 1.50 | |
| ChatGPT Zero-Shot-CoT | 55.7 | 7.86 | 4.90 | ||
| ChatGPT Few-Shot-CoT | 54.8 | - | 18.2 | ||
| GPT-4 Zero-Shot | 68.8 | 9.28 | 25.0 | ||
| GPT-4 Zero-Shot-CoT | 71.1 | 8.93 | 31.2 | ||
| GPT-4 Few-Shot-CoT | 67.6 | - | 44.2 | ||
| Semantics | ChatGPT Zero-Shot | 66.1 | 36.4 | 2.94 | |
| ChatGPT Zero-Shot-CoT | 65.5 | 32.2 | 3.40 | ||
| ChatGPT Few-Shot-CoT | 67.1 | - | 21.8 | ||
| GPT-4 Zero-Shot | 79.2 | 52.5 | 27.3 | ||
| GPT-4 Zero-Shot-CoT | 86.2 | 53.9 | 33.4 | ||
| GPT-4 Few-Shot-CoT | 91.1 | - | 69.2 | ||
| Random | - | 50.1 | 3.57 | - | |
| Logic-based | - | 100 | 57.1 | 100 |
Table 2: The reasoning results of Symbolic Tree. Results are in %.
在演绎推理中,语义条件的优势尤为显著。以 GPT-4 Few-Shot-CoT 为例,语义条件下的准确率达到 91.1%,而符号条件下仅为 67.6%,差距接近 24 个百分点。ChatGPT 的 Few-Shot-CoT 在语义条件下为 67.1%,符号条件下为 54.8%。这一差距表明,当模型能够理解 "motherOf"、"sisterOf" 等关系的含义时,它可以借助预训练的常识知识来辅助推理;而当面对 "r1"、"r2" 这样的抽象符号时,模型必须严格按照给定的规则链进行推导,这正是其薄弱环节。
归纳推理的结果更加惊人。GPT-4 在语义条件下的 Zero-Shot 准确率为 52.5%,而符号条件下仅为 9.28%;ChatGPT 的差距更为悬殊,从 36.4% 骤降至 6.10%。30% 以上的绝对准确率差异强烈说明,LLMs 在归纳规则时严重依赖语义模式识别,而非抽象的符号泛化。这在某种意义上印证了作者的"捷径"假说:模型可能并非在真正"归纳"规则,而是在利用语义关联来猜测最可能的关系。
溯因推理的结果则呈现出不同的模式。符号条件和语义条件下的表现相对接近,甚至 ChatGPT 的 Zero-Shot 在符号条件下(1.50%)略优于语义条件(2.94%)。作者认为这可能是因为溯因任务需要处理更长的上下文(需要选择相关事实和规则来解释观察),增加了从记忆中选择相关信息的难度。但在缩小数据集规模的额外实验中(附录 O),语义条件仍然优于符号条件,进一步支持了核心假说。
ProofWriter:无关语义的推理场景
为了进一步区分"有用语义"和"无关语义"的影响,作者在 ProofWriter 数据集上进行了补充实验。ProofWriter 使用英语表达人工构造的事实和规则,但其中的谓词多为无意义的动词(如 "is"、"can"、"likes"),实体则被替换为 "e1"、"e2" 等 ID。如表 3 所示,在 Zero-Shot 设置下,符号和语义条件的表现相当接近(如 depth-1 时分别为 69.1% 和 69.0%),这说明当语义本身与常识无关时,其存在与否对推理影响不大。
| Category | Baseline | depth-1 | depth-2 | depth-3 | depth-5 |
|---|---|---|---|---|---|
| Symbols Zero-Shot | 69.1 | 62.3 | 59.4 | 52.8 | |
| Symbols Zero-Shot-CoT | 56.2 | 49.4 | 45.2 | 38.6 | |
| Symbols Few-Shot-CoT | 65.8 | 58.1 | - | - | |
| Semantics Zero-Shot | 69.0 | 63.5 | 60.3 | 51.4 | |
| Semantics Zero-Shot-CoT | 51.5 | 45.8 | 40.3 | 30.9 | |
| Semantics Few-Shot-CoT | 62.5 | 56.7 | - | - |
Table 3: The deduction results of ProofWriter tasks (ChatGPT). Results are in %.
然而,一个反常现象出现在 CoT 设置中:语义条件下的 CoT 表现反而比 Zero-Shot 更差,且显著低于符号条件的 CoT。作者推测,这是因为 ProofWriter 中的自然语言表述(如 "The cow likes the bear"、"The squirrel needs the dog")带有奇怪的语义,而逐步推理反而放大了这种奇怪语义带来的干扰效应。模型在 CoT 过程中频繁输出 "Cannot be determined",进一步印证了这一点。这一发现具有重要的方法论意义:CoT 并非在所有推理任务中都是有益的,尤其是在涉及与常识冲突的新知识时,逐步推理可能引入更多干扰。
反常识推理:内部知识与外部知识的冲突
表 4 呈现了一个引人深思的对比:当语义与常识一致时(Semantics),GPT-4 在演绎推理 Few-Shot-CoT 条件下达到 90.0% 的准确率;当语义被解耦时(Symbols),准确率下降至 67.6%;而当语义被故意打乱为反常识时(Counter-CS),准确率进一步降至 73.4%——甚至低于符号条件。对于 ChatGPT,反常识条件下的演绎准确率(48.9%)更是低于符号条件(53.7%)。
| Setting | deductive (Few-Shot-CoT) ChatGPT | deductive (Few-Shot-CoT) GPT-4 | inductive (Zero-Shot-CoT) ChatGPT | inductive (Zero-Shot-CoT) GPT-4 |
|---|---|---|---|---|
| Semantics | 71.8 | 90.0 | 25.0 | 53.6 |
| Symbols | 53.7 | 67.6 | 7.14 | 21.4 |
| Remove R/F | 70.1 | 90.4 | 7.14 | 35.7 |
| Counter-CS | 48.9 | 73.4 | 7.14 | 17.8 |
Table 4: Semantics, removing rules/facts and counter-commonsense reasoning experiments. Results are in %.
这一结果揭示了一个深刻的局限性:当上下文中的新知识与模型参数中存储的常识知识冲突时,LLMs 很难严格遵循新规则进行推理。它们似乎更依赖内部的参数化知识,而非外部提供的明确规则。与此形成对比的是,在 Remove Rules/Facts 条件下(仅提供事实,不提供规则,迫使模型依赖内部知识),GPT-4 在演绎任务上达到了 90.4% 的准确率,甚至略高于提供外部规则的语义条件(90.0%)。这意味着,对于 LLMs 而言,利用内部常识知识进行推理,比学习并遵循外部符号规则更为有效。
Chain-of-Thought 的双面性
作者对 CoT 策略进行了深入分析,发现了其在不同条件下的差异化效果。在符号条件下,Zero-Shot-CoT 相比 Zero-Shot 有轻微但一致的改进(如演绎推理中 ChatGPT 从 52.6% 提升至 55.7%),这与 Kojima et al. (2022) 的发现一致——CoT 有助于激活 System II 式的逐步推理。然而,在语义条件下,Zero-Shot-CoT 反而常常低于 Zero-Shot(如 ChatGPT 演绎从 66.1% 降至 65.5%,GPT-4 从 79.2% 降至 86.2% 是例外)。作者将这一差异解释为:语义丰富的任务更依赖 System I 式的直觉和语义联想,显式的逐步推理反而可能打断这种直觉过程,甚至引入错误。这一洞察对实际应用具有重要启示:并非所有推理任务都适合使用 CoT,任务类型和语义丰富度应当是选择 prompting 策略的重要考量。
案例研究
Symbolic Tree 中的演绎推理案例
让我们通过一个具体的演绎推理示例来观察 LLMs 在不同条件下的行为差异。在语义条件下,模型面对如下问题:
逻辑规则 L1:If B is parent of A and B is parent of C and A is female, then A is sister of C.
事实 F1:Laura is female.
事实 F28:Laura is parent of Fabian.
事实 F29:Laura is parent of Felix.
未知事实:Is Claudia sister of Felix?
当关系被符号化后,同样的结构变为:
逻辑规则 L1:
事实 F1:
事实 F28:
事实 F29:
未知事实:
在语义版本中,模型可以利用其对"parent"、"female"、"sister"等概念的理解,快速建立事实间的关联;而在符号版本中,模型必须严格追踪 "r3"、"r2"、"r4" 的映射关系,并确保变量绑定的一致性。实验数据显示,这种从可理解语义到抽象符号的转变,导致 ChatGPT 的演绎准确率从约 66% 下降至约 55%,而 GPT-4 从约 79% 下降至约 69%。
反常识条件下的推理失败
在反常识设定中,一个原本合理的规则如
ProofWriter 中的语义干扰
ProofWriter 数据集提供了一个观察"无关语义干扰"的窗口。考虑以下例子(语义版本):
"The bear likes the dog. The cow is round. The cow likes the bear. The cow needs the bear. The dog needs the squirrel. The dog sees the cow. The squirrel needs the dog. If someone is round then they like the squirrel. If the bear is round and the bear likes the squirrel then the squirrel needs the bear. If the cow needs the dog then the cow is cold. Does it imply that the statement 'The cow likes the squirrel.' is True?"
在符号版本中,实体被替换为 "e4"、"e5" 等:
"The e4 likes the e5. The e14 is e2. The e14 likes the e4..."
有趣的是,在 Zero-Shot 条件下,两种版本的表现相近。但在 CoT 条件下,语义版本的表现反而更差。作者给出的解释是,当模型被要求逐步推理时,它会被 "The cow likes the bear"、"The dog needs the squirrel" 这类奇怪的语义表述所干扰,试图从常识角度解读这些关系,而非严格遵循规则。这导致模型频繁输出 "Cannot be determined",因为常识中"牛喜欢熊"并不是一个确定性的命题。相比之下,符号版本中的 "e14 likes e4" 虽然无意义,但不会被常识干扰,模型反而能更机械地应用规则。
综合价值与局限
理论层面的突破与反思
这项研究的最大理论价值在于它提出了一个关于 LLM 推理本质的全新视角。在大量研究工作忙于扩展 LLM 推理能力、设计更精巧的 prompting 技术时,Tang et al. 选择回归根本问题:这些模型到底在"推理"什么?他们的发现——LLMs 更像是语义推理者而非符号推理者——为理解 LLM 的能力边界提供了一个清晰的认知框架。
这一发现对"涌现能力"(emergent abilities)的讨论也具有启示意义。如果 LLMs 的推理能力在很大程度上依赖于语义模式匹配和参数化常识,那么我们在各类推理基准上观察到的性能提升,可能更多地反映了模型语义表征质量的提升,而非形式逻辑能力的真正掌握。这并不意味着 LLMs 的推理能力是虚假的,而是提醒我们需要更精确地界定"推理"的含义,并设计更严格的评估方式来区分语义联想与符号推导。
实践层面的启示
从应用角度看,这项研究揭示了 LLMs 在知识密集型任务中的潜在风险。当用户期望 LLM 严格遵循特定领域的新规则或更新知识时,模型可能会因为内部常识的干扰而偏离预期。例如,在法律、医疗或工程领域,专业规则可能与日常常识有所不同,此时 LLMs 的"语义优先"倾向可能导致错误的推理结果。这强化了将 LLMs 与外部知识库(如图数据库、规则引擎)相结合的必要性——让 LLM 负责语言理解和知识检索,让专门的符号系统负责严格的逻辑推理。
同时,研究也为 prompting 工程提供了实践指导。作者发现,在语义丰富的任务中,Zero-Shot 有时优于 CoT;在符号任务中,逻辑语言表示优于自然语言;在反常识任务中,模型表现最差。这些发现表明,prompt 策略的选择应当与任务的语义特性相匹配,而非一概而论地追求最复杂的 prompting 技术。
研究的局限性与可改进之处
诚如作者在文中所暗示的,这项研究也存在一些局限。首先,Symbolic Tree 数据集虽然是封闭世界和无噪声的,但其领域仅限于家族关系,这限制了结论的泛化性。其他领域(如数学推理、因果推理、空间推理)中的语义与符号关系可能有所不同。其次,实验主要基于 GPT 系列模型(ChatGPT 和 GPT-4)以及 LLaMA-7B,对其他架构(如基于编码器的模型、混合专家模型)的适用性尚待验证。
另一个值得探讨的问题是实体替换的影响。作者在附录 Q 中发现,仅替换实体名称对性能影响较小,而替换关系名称影响显著。这暗示语义信息主要集中在谓词(关系)层面,而非实体层面。然而,这一结论是否适用于所有类型的推理任务仍需更多证据支持。
此外,反常识条件的构造方式——简单打乱关系标签——虽然有效,但可能不是测试"新知识冲突"的唯一方式。更细粒度的控制,如逐步引入语义偏差、测试模型在部分冲突情境下的表现,可能会揭示更多关于语义权重的信息。
对神经符号 AI 的推动
这项工作最深远的影响可能在于对神经符号人工智能(neural-symbolic AI)领域的推动。实验结果清晰地表明,纯粹的神经网络方法在严格符号推理上存在根本性局限,而纯符号方法在自然语言理解上又力有不逮。这为两者融合提供了强有力的实证支持。未来的系统可能需要让 LLM 扮演"语义翻译器和知识检索器"的角色,将自然语言问题转化为符号表示,然后交由专门的推理引擎处理,最后再将结果翻译回自然语言。
延伸阅读与思考
相关工作的脉络
这项研究植根于多个学术传统。在推理评估方面,它延续了早期自然语言推理(NLI)研究(如 SNLI、MNLI)和常识推理研究(如 CommonsenseQA)的脉络,但将这些评估推向了一个更严格的极端——完全剥离语义。在 in-context learning 机制研究方面,它与 Min et al. (2022) 关于示例选择重要性的工作、Wei et al. (2022) 关于 CoT 的研究形成了对话,但将研究焦点从"如何提高 ICL 性能"转向"ICL 性能的来源究竟是什么"。
在符号推理领域,这项工作与 Yi et al. (2018) 的神经符号视觉问答方法、Lample and Charton (2019) 的深度学习符号数学研究形成了对比——后者试图将神经网络与符号方法结合,而 Tang et al. 则揭示了纯粹神经网络在符号任务上的根本局限。
替代方法与竞争视角
与本文形成有趣对比的是一些试图证明 LLMs 具有真正符号推理能力的研究。例如,某些工作通过在代码数据上训练模型,使其学会执行符号操作;另一些工作则通过特殊的微调或架构设计来增强模型的逻辑推理能力。然而,这些研究大多未严格控制语义变量的影响,因此难以区分性能提升是来自真正的符号能力增强,还是来自更好的语义表征或更丰富的训练数据。
另一个相关方向是可解释性研究。如果 LLMs 的推理过程本质上是语义关联的激活轨迹,那么理解这些轨迹的结构和动态对于构建可信的 AI 系统至关重要。工具如注意力可视化、探针(probing)技术等,可能有助于揭示语义在推理中的具体作用机制。
未来研究方向
这项工作开辟了多条富有前景的研究路径。首先,开发更复杂的符号推理基准是必要的——当前的 Symbolic Tree 仅涉及家族关系,未来的基准应涵盖更广泛的领域和更复杂的推理结构(如时序推理、模态推理、高阶逻辑)。其次,探索增强 LLMs 符号推理能力的方法是一个直接的研究方向,可能包括在预训练阶段引入更多符号数据、设计专门的符号推理微调目标、或者开发能将自然语言动态转换为符号表示的接口模块。
第三,深入研究语义与符号的交互机制具有重要意义。例如,是否存在一种"最佳平衡点",使得模型既能利用语义加速推理,又不被语义偏见所误导?能否设计一种自适应机制,在语义有帮助时启用语义联想,在语义有害时切换到符号模式?
未解的核心问题
最深层的未解挑战或许在于:语义理解和符号推理之间的界限究竟在哪里?人类自身在推理时也常常依赖语义直觉——专家在看到数学公式时产生的"直觉",很大程度上也是基于多年训练形成的模式识别。那么,LLMs 的语义推理与人类基于语义直觉的推理有何本质区别?如果未来的 LLMs 能够通过扩大规模和多模态训练,使其语义表征涵盖更丰富的逻辑结构,它们是否能"近似"符号推理,即使不严格遵循形式规则?
个人反思
最令人深思的或许是这项研究所揭示的"知识的诅咒":LLMs 之所以在符号推理上表现不佳,恰恰是因为它们"知道得太多"——丰富的参数化常识知识成为了学习新符号规则的干扰源。这提出了一个关于学习本质的深刻问题:真正的推理能力是否要求学习者能够暂时"悬置"已有知识,以开放的心态接受全新的规则体系?如果是这样,那么当前 LLMs 的预训练-微调范式可能先天不足,因为它将海量知识固化在参数中,使得模型难以灵活地切换知识框架。
另一个引人遐想的观察是,在符号条件下,Zero-Shot 与 Zero-Shot-CoT 的性能差距很小(如 ChatGPT 演绎从 52.6% 到 55.7%)。这暗示当前 LLMs 的 Zero-Shot 能力可能已经接近其 CoT 能力——或者说,模型在预训练时已经"记住"了大量 CoT 式的推理模式,因此在面对类似问题时无需显式提示即可隐式激活。如果是这样,那么我们所观察到的"CoT 提升"可能部分是一种"唤醒已记忆技能"而非"教授新技能"的过程。这一假设若被证实,将对理解和改进 LLM 的训练方式产生深远影响。
笔记创建时间: 2026-04-22
阅读方式: L2 深度阅读
Topics:
- "llm"
- "reasoning"
- "cognitive_science"
- "language_philosophy"
References: - "pku"
- "bigai"
- "proofwriter"