AI Reasoning in Deep Learning Era: From Symbolic AI to Neural Symbolic AI
Authors: Baoyu Liang, Yuchen Wang, Chao Tong (Beihang University)
Venue: Mathematics (MDPI), 2025, 13, 1707
Year: 2025
Pages: 42
Code URL: Not explicitly provided (survey paper)
研究摘要
人工智能能否像人类一样思考?自图灵提出这一深刻命题以来,赋予机器以人类般的推理能力始终是AI领域的核心挑战之一。本文正是在这一宏大背景下展开的一部系统性综述,聚焦于深度学习时代的人工智能推理,尤其关注神经符号人工智能(Neural–Symbolic AI)这一新兴范式。作者们敏锐地捕捉到,当前AI领域存在着一道深刻的裂痕:一方面,基于符号逻辑的早期系统——如MYCIN和DENDRAL——在结构化推理上表现出色,却因脆弱性和可扩展性不足而逐渐式微;另一方面,以CNN和Transformer为代表的现代深度学习架构在感知任务上取得了惊人成就,却在可解释的结构化推理、因果推断和事实一致性方面步履维艰。这种符号系统擅长推理但缺乏感知、神经网络擅长感知但拙于推理的二元对立,正是本文试图弥合的根本张力。
本文的核心智识贡献在于,它不仅仅是对现有文献的历史性罗列,而是提出了一套形式化的AI推理定义和一个新颖的三维分类体系(three-dimensional taxonomy)。作者将推理能力抽象为一个统一的映射函数
在技术层面,本文系统性地梳理了七大当代推理范式:可微逻辑编程(Differentiable Logic Programming, DLP)、溯因学习(Abductive Learning)、程序归纳与神经符号概念学习(Program Induction and Neural–Symbolic Concept Learners)、基于LLM的推理(LLM-Based Reasoning)、逻辑感知Transformer(Logic-Aware Transformers)、知识增强推理(Knowledge-Augmented Reasoning)以及多模态神经符号推理(Multimodal Neuro-Symbolic Reasoning)。对每一种范式,作者都给出了形式化的数学描述、代表性的技术方法、核心机制解析以及当前面临的挑战。这种全景式的技术扫描为读者提供了一张高分辨率的领域地图。
从影响层面来看,本文的价值体现在多个维度。对于初入该领域的研究者,它是一部结构清晰的概念入门指南;对于深耕特定方向的专家,它提供了跨范式的比较视野和形式化语言;对于整个AI社区,它明确指出了通向通用人工智能(AGI)的关键瓶颈——符号与连续的统一、动态规则学习、统一架构的缺失——并倡导一种多元融合的路径:符号的严谨性、亚符号的泛化性与生成式模型的灵活性应当互补,而非相互取代。这篇综述不仅是对AI推理历史的回望,更是对未来研究方向的纲领性指引。
理论框架
要理解本文的理论深度,必须首先追溯其智识谱系。AI推理的理论根基可以回溯至1950年代至1980年代的符号主义浪潮,以纽厄尔和西蒙提出的物理符号系统假设(Physical Symbol System Hypothesis)为标志性起点。这一传统坚信智能行为可以通过显式的符号操作来实现,由此催生了形式逻辑、专家系统、规划系统和描述逻辑等多种方法论。然而,符号方法的脆弱性——对人工编码知识的高度依赖使其难以应对动态、开放且充满不确定性的环境——促使研究者转向统计与数据驱动的方法。从1990年代到2010年代,概率图模型(Bayesian Networks、Markov Networks)、马尔可夫逻辑网络(Markov Logic Networks, MLNs)、概率逻辑编程(如ProbLog)以及统计关系学习(Statistical Relational Learning, SRL)等方法,将不确定性建模与结构推理相结合,为现代机器学习奠定了理论基础。Judea Pearl推动的因果推断框架更是为超越相关性的深层理解提供了形式化工具。
2010年代后,深度学习的崛起带来了亚符号推理(sub-symbolic reasoning)范式。卷积神经网络、循环神经网络、图神经网络以及Transformer架构通过多层连续表征的学习,在感知丰富的任务中展现出强大的归纳能力。然而,纯粹神经模型的黑箱特性、逻辑一致性的缺失以及在抽象推理任务中系统性泛化的不足,使得研究者重新思考符号与神经的融合之路。2016年前后,可微归纳逻辑编程(
本文提出的核心概念之一是AI推理的形式化定义。作者将推理抽象为一个普适的函数映射:
这一简洁的表达式蕴含着深刻的理论意图:无论具体的实现范式如何千差万别,所有推理系统的本质都是从知识和观察出发,推导结论的计算过程。在此基础上,作者进一步区分了四种范式的具体实现。对于符号推理(Symbolic Reasoning),其形式化为:
这里,
对于统计与亚符号推理(Statistical and Sub-symbolic Reasoning),统计推理的形式化表达为:
其中
这里
其中
最后,**神经符号推理(Neural–Symbolic Reasoning)**的形式化为:
这一表达式的精妙之处在于它将神经编码器
在理论框架的构建中,作者进一步提出了一个三维分类体系,将推理系统从表征类型(符号、统计、神经、混合)、任务结构(演绎、归纳、溯因、类比)和应用情境(封闭域、开放域)三个正交维度进行划分。这一分类法如同一个多维坐标系,使得研究者能够精确地定位任意一种推理方法的位置,并理解其在泛化与精确性、表达力与可计算性、学习与可解释性之间的权衡。例如,演绎推理在封闭域的符号系统中表现为定理证明器,而在开放域的混合系统中则演变为工具增强的神经符号规划器;溯因推理在统计框架中体现为概率因果模型,而在神经符号框架中则具体化为溯因学习框架(Abductive Learning)。这种系统化的理论梳理,为整个领域提供了前所未有的概念清晰度。
技术架构
本文所综述的技术架构并非单一系统的设计蓝图,而是一个涵盖七大当代推理范式的全景式技术生态。这些范式共同回应了深度学习中推理面临的三个根本挑战:如何将背景知识和逻辑规则注入梯度驱动模型、如何使神经架构学习和执行结构化推理步骤、以及如何保证神经网络生成结论的事实一致性和可验证性。以下我们将沿着数据从输入到输出的流动路径,逐一解析这些架构的设计哲学与核心机制。
可微逻辑编程(Differentiable Logic Programming, DLP) 是神经符号AI的基础性范式。其架构核心是将逻辑规则和原子映射为可微张量或注意力机制,使合取、统一、前向链推理等逻辑操作能够在神经网络中近似实现。形式上,一个DLP模型被定义为一个四元组
其中
这里
溯因学习(Abductive Learning) 的架构设计与DLP有本质区别。它采用解耦式(decoupled)架构,由两个核心模块组成:一个是神经感知模块,负责将原始输入映射为候选符号原子;另一个是符号推理模块,负责基于背景知识搜索与观察一致的假设。其理论基础溯源于查尔斯·桑德斯·皮尔士提出的溯因推理——即从观察出发寻找最合理假设的推理形式。形式化地,给定观察集合
其中
程序归纳与神经符号概念学习器(Program Induction and NSCLs) 的架构目标是合成可执行的符号程序来解释感知观察或解决复杂推理任务。与DLP假设规则模板已知不同,程序归纳需要从数据中诱导出完整的领域特定语言(DSL)程序。给定输入
其中
基于LLM的推理(LLM-Based Reasoning) 架构将大语言模型视为高层认知代理,通过思维链推理、工具调用和代码生成来协调推理过程。其目标是生成推理轨迹
逻辑感知Transformer(Logic-Aware Transformers) 试图将显式逻辑结构或符号约束直接嵌入Transformer架构。形式化地,一个逻辑感知Transformer定义为四元组
知识增强推理(Knowledge-Augmented Reasoning) 通过将结构化外部知识库整合到神经网络中来显式进行符号事实和关系的推理。模型形式化为
多模态神经符号推理(Multimodal Neuro-Symbolic Reasoning) 将上述架构扩展到跨视觉、语言和音频的多种模态。模型定义为
实验评估
作为一篇综述性论文,本文的实验评估部分并非以单一模型的消融实验为核心,而是通过系统性的基准测试(benchmark)梳理和框架工具对比,构建了一个评估AI推理能力的全景图景。这种评估策略本身即是一种科学贡献——它为领域提供了共同的评价坐标系,使得不同范式之间的比较成为可能。
作者将推理导向的AI任务划分为四大应用领域:问答系统(Question Answering)、规划与工具使用及决策制定(Planning, Tool Use, and Decision-Making)、多模态推理与感知(Multimodal Reasoning and Perception)、以及程序归纳与语义解析(Program Induction and Semantic Parsing)。在每个领域内,又根据推理类型的不同进行了细分,形成了层次分明的评估矩阵。
在问答领域,演绎式问答(Deductive QA)任务如ProofWriter和FOLIO要求模型从自然语言前提中进行形式逻辑推理,测试系统对蕴涵、合取和蕴含规则的系统性泛化能力。常识问答(Commonsense QA)任务如CommonsenseQA和OpenBookQA则评估模型整合背景知识与语境理解的能力,涉及朴素物理、社会规范等隐性知识。溯因与因果问答(Abductive and Causal QA)数据集如AbductiveNLI、CausalQA考察模型从观察情境中推断合理原因或解释的能力。解释性问答(Explanatory QA)如e-SNLI和EntailmentBank不仅要求答案预测,还需生成结构化的推理链,对教育应用和可解释AI至关重要。
在规划与决策领域,PUZZLES基准测试了神经算法推理能力;RSBench套件针对概念级神经符号推理进行评估;ReAct、AutoGPT和DSPy等工具增强代理框架则通过API调用和工具链执行来测试长程规划能力。RLBench提供了超过100个任务变体的高维机器人学习环境,从简单物体操作到多步工具使用,测试物理世界中的推理能力。
在多模态推理领域,CLEVR、GQA和VQA-X等视觉问答数据集探测模型在视觉场景上的结构化推理,测试关系比较、量化和空间推断能力。CLEVRER和NExT-QA等视频推理基准则评估时序和因果推理,如预测未来状态、识别事件链和解释动态过程。NLVR2和Winoground等数据集则专注于视觉语言 grounding 和指称消歧的模糊性处理。
在程序归纳领域,Spider、ATIS和ScienceBenchmark等语义解析基准评估自然语言到可执行查询(如SQL)的映射能力;CODET、NL2Bash和MathQA等程序合成任务则测试从语言描述或问题生成符号代码的能力。这些基准测试的核心价值在于:程序化的表征作为显式推理产物,允许验证、解释和在结构化环境中的执行。
下表汇总了代表性基准测试按领域和推理类型的分类:
| 领域 | 数据集/基准 | 焦点/亮点 |
|---|---|---|
| 问答系统 | ProofWriter, FOLIO | 形式逻辑蕴涵的演绎推理 |
| 问答系统 | CSQA, CosmosQA, OBQA | 结合背景知识的常识推理 |
| 问答系统 | AbductiveNLI, ART | 基于合理解释的假设选择(溯因推理) |
| 问答系统 | WhyQA, CausalQA | 因果推断与因果痕迹评估 |
| 符号推理 | ToolBench, WebArena, AgentBench | 基于API工具和任务编排的LLM推理 |
| 符号推理 | HotPotQA, WebGPT | 多跳工具引导问答 |
| 多模态推理 | CLEVR, GQA, VQA-X | 视觉关系和组合式推理 |
| 多模态推理 | CLEVRER, NExT-QA | 时序推理和基于事件的因果推断 |
| 多模态推理 | NLVR2, Winoground | 视觉语言grounding和指称歧义 |
| 程序归纳 | Spider, ATIS, NL2SQL | 将问题映射为可执行SQL/逻辑形式 |
| 程序归纳 | NL2Bash, MathQA, CODET | 从示例中进行程序合成和符号推理 |
| 程序归纳 | CoSQL | 带符号模式链接的会话式语义解析 |
除了这些任务基准,作者还系统梳理了支撑符号和神经符号推理的工具包与框架生态。这些工具在抽象层次、支持模态和与学习型模型的集成程度上各有侧重。例如,ProbLog和ProbLog2提供概率逻辑编程环境;DeepProbLog和NeurASP实现神经符号集成;AlphaILP和NEUMANN支持神经归纳逻辑编程;DSPy、LangChain和AgentBench提供LLM中心的工具链编排;Alchemy和PSL支持统计关系学习;clingo和DLV提供Answer Set Programming求解能力。这种工具层面的评估揭示了领域从声明式逻辑接口到Python集成神经符号环境、从可微语义到概率推理的多元化发展态势。
值得注意的是,作者观察到基准测试演进的一个关键趋势:从合成逻辑任务(如CLEVR、ProofWriter)向复杂的真实世界、多智能体或工具增强场景(如ToolBench、AgentBench、WebArena)的转变。这一趋势反映了领域对可扩展性和可解释性推理系统日益增长的需求,也暗示了未来评估应更加关注噪声感知、开放域工具使用和多智能体协调等真实条件。
案例研究
本文通过多个精心设计的示例来阐明不同推理范式的实际运作机制,这些案例如同放大镜,将抽象的技术架构转化为可理解的具体操作序列。
案例一:可微逻辑编程中的家庭关系推理。 这是DLP范式最经典的阐释。假设系统需要从事实
案例二:溯因学习中的视觉场景理解。 设想一个视觉系统观察到包含两个物体A和B的场景,通过视觉分类器检测到
案例三:视觉问答中的程序归纳。 给定一张包含若干几何物体的图像和自然语言问题"有多少个红色立方体?",输入
该程序由符号执行器
案例四:基于LLM的数学推理。 考虑问题:"商店以每支2美元出售铅笔,每支5美元出售钢笔。如果你购买3支铅笔和2支钢笔,总共花费多少?"LLM-based推理系统将问题处理为一系列推理步骤,每步以自然语言(内部CoT)或可执行代码表达:
这些案例共同揭示了一个深层主题:不同范式的根本差异不在于最终任务,而在于推理过程的"显式性光谱"——从DLP的连续逻辑近似,到溯因学习的离散假设搜索,到程序归纳的显式程序执行,再到LLM-based推理的隐式模式生成,每种方法在可解释性、灵活性和可验证性之间占据着不同的位置。
综合价值与局限
本文作为一部综述,其理论意义在于它成功地构建了一个统一的概念框架,使得符号、统计、神经和神经符号四种看似迥异的范式能够在同一组形式化语言下被描述和比较。三维分类法的提出尤其具有概念工具价值:它不再让研究者在浩如烟海的方法论中迷失方向,而是提供了表征类型、任务结构和应用情境三个坐标轴来定位任意方法。这种系统化的视角有助于研究者理解不同方法之间的权衡——泛化性与精确性、表达力与可计算性、学习能力与可解释性——并在面对具体问题时做出更明智的选择。
从实践影响来看,这篇综述的受众极其广泛。对于刚进入神经符号AI领域的研究者,它是一部结构清晰、从技术原理到应用工具全覆盖的入门地图;对于深耕特定方向(如DLP或LLM推理)的专家,它提供了跨范式的比较视野,有助于跳出自身领域的方法论偏见;对于产业界从业者,文中对基准测试和工具包的系统梳理为技术选型提供了参考依据。在自动驾驶、医疗诊断、法律推理和科学研究等高风险应用领域,神经符号方法的潜在价值尤为突出——这些场景既需要神经网络强大的感知和泛化能力,又要求符号系统提供的可解释性和逻辑一致性保证。
本文最值得称道之处在于其学术雄心与执行力的平衡。覆盖从1950年代符号主义到2025年最新进展的七十年跨度,同时保持技术细节的深度和形式化精度,这是一项艰巨的知识整合工程。作者不仅列举了方法,更通过统一的数学符号体系揭示了它们之间的深层联系。另一个突出优点是对LLM推理现象的审慎态度:作者既承认了大语言模型涌现推理能力的惊人表现,又明确区分了提示驱动的隐式推理与显式整合符号模块的神经符号系统,避免了当前学术界对LLM能力的过度炒作或全盘否定两种极端立场。
然而,作为一篇综述,本文也存在一些固有的局限。首先,由于涵盖范围极广,对每个具体方法的讨论深度必然受到篇幅限制。例如,DLP章节虽然给出了 elegant 的形式化框架,但对于
更深层的一个局限在于,尽管作者反复提及符号与连续表征的桥接是核心挑战,但对如何具体实现这种桥接的"第一性原理"讨论相对有限。例如,可微逻辑编程将离散规则编码为连续张量,但这种编码在多大程度上保留了逻辑的语义完整性?当嵌入空间中的向量表示变得纠缠(entangled)时,符号透明性如何维系?这些问题触及了神经符号AI的哲学根基,可能需要超越工程层面的更深入探讨。此外,文中对因果推理的讨论虽然提到了Pearl的结构因果模型和若干神经符号因果方法,但因果推断与神经符号架构的深度融合——如何在神经符号系统中实现do-calculus的反事实推理——仍有较大的论述空间。
从更广阔的学科趋势来看,本文的出版正值AI领域对AGI路径进行深刻反思的节点。纯粹扩大模型规模是否足以产生可靠的通用推理?符号逻辑是否仍是实现可信AI的必要组件?本文倡导多元融合立场,认为符号、亚符号和生成式范式各有其互补优势。这一立场与当前学术界中"规模至上论"和"符号复兴论"两种声音形成了富有建设性的对话。它暗示未来的突破可能不在于选择某一阵营,而在于设计能够根据任务动态切换或混合不同推理模式的元架构——这恰恰是本文末尾提出的"统一架构"开放挑战所指的方向。
延伸阅读与思考
要深入理解本文的智识脉络,有几类先行工作是不可或缺的。首先,在符号AI的历史根基方面,Newell和Simon关于物理符号系统假设的论述构成了整个领域的元叙事;Brachman和Levesque的《Knowledge Representation and Reasoning》是掌握描述逻辑和本体论技术的标准参考书;Judea Pearl的《Causality》和《The Book of Why》则为因果推断提供了不可绕过的理论基础。在统计关系学习领域,De Raedt等人的概率归纳逻辑编程框架、Richardson和Domingos的马尔可夫逻辑网络,以及Getoor和Taskar的《Introduction to Statistical Relational Learning》共同构成了从符号到统计过渡的桥梁。
在神经符号AI的直接前身方面,Garcez等人的Neural-Symbolic Computing倡议以及Garcez和Lamb关于"第三次AI浪潮"的论述,为本文提供了概念上的先声。在具体技术线路上,Evans和Grefenstette的
与本文主题相关但采取不同哲学立场的替代方法同样值得探索。例如,纯粹端到端的神经方法阵营中,Lake等人关于"构建像人类一样学习和思考的机器"的论文提出了组合泛化的核心挑战;而完全符号化的方法如最新定理证明器(如Lean、Isabelle与神经引导的结合)则在数学推理的严格性上走得更远。在认知科学启发的架构方面,Bengio关于从System 1到System 2深度学习的思考以及LeCun关于自主机器智能路径的论述,为理解本文的技术动机提供了更高层次的认知框架。
本文揭示的若干未来方向值得持续关注。首先,统一架构的构建仍是最根本的开放问题:现有的神经符号系统往往是针对特定任务手工设计的,如何实现通用、可复用的推理模块?这需要在元学习、模块化架构和自动机器学习(AutoML)的交叉处寻找突破。其次,符号-向量桥接需要更根本的数学理论:离散符号结构与连续向量表示之间的映射,本质上涉及代数拓扑和范畴论的深层问题——如何在嵌入空间中保持符号操作的函子性(functoriality)?第三,动态规则学习要求系统能够在面对新环境时自主发现、修正和扩展逻辑规则,而非依赖预定义的规则模板,这与开放域终身学习(lifelong learning)和神经架构搜索(NAS)密切相关。第四,不确定下的推理需要更高效的深度感知与概率逻辑集成方案,当前的可扩展性瓶颈在大型知识图谱和复杂逻辑约束面前依然突出。最后,可解释性与可信性随着AI系统在医疗、法律等敏感领域的部署而变得愈发关键——符号推理提供的可追溯性(traceability)和形式保证(formal guarantee)是构建人机信任的技术基石。
在所有这些开放问题中,最深层的未解挑战或许是:推理是否必然需要符号逻辑?抑或统计生成本身足以产生稳健且可泛化的推理?本文的审慎立场——倡导多元融合而非排他选择——为这一哲学争论提供了务实的中间道路。但这个问题本身可能预示着一个更深层的研究议程:如何设计能够自我反思其推理过程、识别何时需要符号严格性、何时可以依赖统计近似的元认知(metacognitive)架构?
对我而言,本文最具启发性的观点是它所揭示的"显式性光谱"——从完全隐式的神经模式匹配到完全显式的符号演绎,不同方法在这一光谱上各据其位,而未来的突破可能来自能够在这光谱上灵活滑动的混合系统。这种视角让我重新思考一个问题:人类认知本身是否也是多种推理模式的动态混合?当我们进行快速直觉判断时,我们更接近System 1的神经模式匹配;当我们解决数学证明或进行法律论证时,我们调动System 2的符号操作。一个真正通用的AI系统,或许不应追求单一的"正确"推理方式,而应学会像人类一样,根据情境在多种推理模式之间自如切换。这一思考方向超越了本文的技术范畴,却正是其综述精神所能激发出的最富想象力的延伸。
Topics:
- "reasoning"
- "symbolic_reasoning"
- "llm"
- "knowledge_graph"
- "neuro_science"
- "cognitive_science"
References: - "beihang_university"