Large Language Models and Knowledge Graphs: Opportunities and Challenges

Authors: Jeff Z. Pan, Simon Razniewski, Jan-Christoph Kalo, Sneha Singhania, Jiaoyan Chen, Stefan Dietze, Hajira Jabeen, Janna Omeliyanenko, Wen Zhang, Matteo Lissandrini, Russa Biswas, Gerard de Melo, Angela Bonifati, Edlira Vakaj, Mauro Dragoni, Damien Graux

Venue: TGDK (Transactions on Graph Data and Knowledge), Vol. 000, Issue 111, Article No. 42, pp. 42:1–42:30

Year: 2023

arXiv: arXiv:2308.06374

Pages: 30

Large Language Models and Knowledge Graphs: Opportunities and Challenges

Venue: TGDK (Transactions on Graph Data and Knowledge), Vol. 000, Issue 111, Article No. 42, pp. 42:1–42:30

Year: 2023

arXiv: arXiv:2308.06374

Pages: 30

1. 研究摘要 (Research Summary)

知识表示（Knowledge Representation, KR）作为人工智能的核心支柱之一，在长达数十年的发展历程中始终围绕着"如何让机器理解和运用知识"这一根本问题展开探索。从早期基于符号逻辑的专家系统，到语义网时代RDF和OWL等标准化知识表示语言的建立，再到大规模知识图谱（Knowledge Graph, KG）的涌现，研究者们一直在追求一种精确、可解释且可推理的显式知识表示方式。然而，2022年末至2023年初，以GPT系列为代表的大型语言模型（Large Language Models, LLMs）的爆发式发展，彻底搅动了这一领域的宁静水面。这篇由Pan等来自爱丁堡大学、博世人工智能中心、阿姆斯特丹自由大学等十余家顶尖机构的研究者共同撰写的立场性综述论文，正是在这一历史性的"拐点时刻"（inflection point），对LLMs与KGs之间的张力、融合机会与未来挑战进行了系统而深刻的梳理。

论文所回应的核心问题是：当知识可以以一种"参数化"（parametric）的形式隐式存储在LLMs的数十亿甚至数千亿参数中时，传统的显式知识表示范式将何去何从？这并非一个简单的技术替代问题，而是触及了知识计算（Knowledge Computing）这一新兴领域的基本定义。作者们敏锐地指出，LLMs的到来并非宣告了KGs的终结，而是开启了一个全新的时代——在这个时代中，显式知识与参数化知识将不再是相互排斥的竞争者，而是可以相互补充、协同增效的两种知识形态。这种从"非此即彼"到"兼收并蓄"的观念转变，构成了整篇论文的理论基石。

从研究贡献来看，本文首先以前所未有的广度总结了学术界围绕LLMs与KGs的六大核心争论点，包括知识表示与推理的本质差异、高精度需求的满足、数值处理能力、长尾知识的记忆、偏见与公平性，以及可解释性。这些争论不仅揭示了两个范式各自的优劣，更重要的是指出了它们天然互补的可能性。其次，论文提出了一套双重视角下的愿景框架：在"显式知识优先"（Explicit-Knowledge-First）的场景中，LLMs作为工具将极大地简化和加速KG的构建与维护流程，使KG达到前所未有的规模与质量；在"参数化知识优先"（Parametric-Knowledge-First）的场景中，KGs将作为外部锚点，为LLMs的生成过程提供事实校验、知识注入和幻觉检测，从而显著提升LLM输出的可靠性与可信度。这一双向愿景的提出，避免了简单地将一方置于另一方的对立面，而是倡导一种基于用例需求的灵活共存策略。

在内容组织上，论文系统性地覆盖了当前两大交叉研究方向的最新进展：一是"LLMs for KGs"，即利用LLMs进行知识抽取与规范化、知识图谱构建（包括链接预测与三元组抽取）、以及本体模式（Ontological Schema）的构建与精化；二是"KGs for LLMs"，即利用KGs增强LLMs的预训练过程、构建更优质的提示（Prompt）、以及通过检索增强（Retrieval Augmentation）为LLMs提供外部事实支撑。此外，论文还延伸至多个实际应用领域，如常识知识构建、建筑环境合规检查、数字医疗和领域特定内容搜索，展示了理论与实践的紧密结合。

这篇论文的最大价值在于其清醒的问题意识与批判性视野。它既没有盲目追捧LLMs的革命性能力而宣告KGs的死亡，也没有固守传统KG研究者的立场而贬低参数化知识的潜力。相反，它诚实地面对了LLMs在幻觉、数值推理、长尾知识、偏见和可解释性等方面的根本性局限，同时指出了KGs在构建成本高、语言理解能力弱等方面的不足。正是在这种坦诚的双向审视中，论文揭示了"混合表示"（hybrid representation）作为未来知识计算主范式的必然性与可行性。对于任何一个希望理解后GPT时代知识工程走向的研究者而言，这篇论文都提供了一个不可或缺的导航图。

2. 理论框架 (Theoretical Framework)

要深入理解这篇论文的理论内核，我们需要回溯知识表示领域从"显式"到"参数化"再到"混合"的演化脉络。在LLMs出现之前，知识工程的核心信条可以概括为：知识应当以人类可理解、机器可推理的显式形式存在。这一信念源于符号人工智能（Symbolic AI）的传统，其哲学基础是，真正的智能必须建立在可解释的逻辑结构之上。语义网运动将这一理念推向了Web规模，RDF三元组（主体-谓词-客体）和OWL本体语言成为描述世界事实与概念层次的标准工具。KGs如YAGO、DBpedia和Wikidata正是这一传统的集大成者——它们以图结构显式地记录实体间的语义关系，支持逻辑推理、查询和验证。

然而，显式知识表示始终面临一个根本性的张力：表达力（expressiveness）与可判定性（decidability）之间的权衡。更强大的逻辑语言虽然能够表达更复杂的约束和规则，但其推理复杂度也随之飙升。KGs的另一大痛点在于构建与维护的高成本——从信息抽取、实体对齐到知识验证，每一步都需要大量的人工监督或精心设计的规则系统。正因如此，尽管KGs能够提供高精度的结构化知识，其覆盖范围往往受限于特定领域或特定数据源。

LLMs的出现从根本上挑战了这一范式。不同于KGs将知识显式编码在图结构中，LLMs通过在海量文本语料上的自监督预训练，将知识以一种分布式、隐式的方式"压缩"进了模型的参数空间。这种参数化知识（parametric knowledge）的存储方式，使得LLMs获得了前所未有的语言理解能力和知识泛化能力。它们能够回答跨越多个领域的问题、生成连贯的文本、甚至进行某种形式的推理——而这些能力并非来自显式编码的规则，而是来自对统计模式的深层学习。论文作者将这一转变称为知识计算领域的"拐点"（inflection point），因为它标志着知识不再必须以人类可直接解读的形式存在，机器可以通过另一种方式"掌握"知识。

然而，论文深刻地揭示了这一范式的内在矛盾。作者将LLMs与KGs的对比重新框定为一种新的权衡：精度（precision）与召回率（recall）之间的权衡。KGs以其显式、结构化的特性，在已知事实的精确表达上拥有天然优势——例如YAGO声称其事实准确率超过95%，而Google的知识图谱对准确性的要求更是高达99%。相比之下，LLMs虽然能够覆盖极其广泛的知识领域（高召回率），却在事实精确性上存在系统性缺陷。论文引用了多项研究指出，即便是拥有数千亿参数的GPT-3，在KG补全任务上也远未达到生产环境所需的精度标准。这种"知道很多事，但不一定说得准"的特性，成为LLMs取代KGs的根本性障碍。

更具理论深度的是论文对LLMs知识存储机制的剖析。研究表明，LLMs对知识的"记忆"呈现出强烈的长尾分布特征：对于在预训练语料中频繁出现的流行实体（如"奥巴马"、"苹果公司"），模型表现出惊人的记忆能力；但对于出现频率较低的"长尾实体"（long-tail entities），其性能急剧下降。这种记忆偏差并非偶然，而是源于预训练数据本身的分布特性——模型记住的，本质上不过是训练语料的统计镜像。由此引出了一个深刻的理论问题：LLMs究竟是在"推理"（reasoning），还是在"回忆"（recalling）？多项基准测试（如LAMA、KAMEL、KMIR）的结果显示，LLMs在知识检索任务中的表现高度依赖于提示词（prompt）的措辞、对同义表述敏感且不一致，并且常常利用训练数据中的 shortcuts（捷径）而非真正的逻辑推理来给出答案。Zhong等人（2021）的研究甚至提出，模型在某些任务上的准确率可能主要来自对训练数据的记忆，而非对知识的真正推断。

在这一理论背景下，论文提出的"混合表示"（hybrid representation）框架便有了坚实的逻辑基础。它本质上是一种认识论层面的调和：承认参数化知识在覆盖范围、语言理解和知识压缩方面的独特优势，同时不放弃显式知识在精确性、可解释性和结构化推理方面的不可替代性。论文中的关键概念"知识计算"（Knowledge Computing）正是这一调和的产物——它将KR中传统的"推理"概念拓展为基于多种知识表示形式的广泛计算任务。这意味着，未来的知识系统不再需要在符号主义与连接主义之间选边站队，而是可以灵活地调用两种知识形态，根据任务需求进行组合与切换。例如，在进行开放式问答时，可以先用LLMs生成候选答案，再用KGs进行事实校验；在构建新KG时，可以用LLMs从非结构化文本中抽取候选三元组，再用本体约束和规则进行验证与精化。

论文还通过多个具体的技术维度深化了这一理论框架。在数值处理方面，作者指出LLMs在数值计算上的系统性困难——即便是简单的算术运算或年份预测，大规模模型也常常失败。这暴露了一个根本性问题：基于文本语料预训练的Transformer架构，并未以适合数学运算的方式编码数值信息。在处理偏见与公平性方面，论文揭示了一个双重困境：LLMs因其训练数据的不可控性而容易放大社会偏见，且由于其参数化知识的隐式特性，难以像编辑KG那样直接"删除"有毒知识；而KGs也并非免疫，从嵌入表示中的社会偏见到本体设计中隐含的人工价值判断，显式知识同样存在偏见传播的渠道。在可解释性方面，KGs的天然优势——显式关系、可追溯的来源——与LLMs的"黑箱"特性形成鲜明对比。尽管Chain-of-Thought（CoT）等技术试图改善LLMs的可解释性，但论文冷静地指出，问题分解和精确回答子问题的能力远未成熟。

3. 技术架构 (Technical Architecture)

这篇论文的技术讨论呈现出一种宏观的"地形图"特征，而非单一方法的技术解剖。作者将LLMs与KGs的交叉研究划分为两大技术方向、多个主题领域，并在每个领域中梳理了当前的主流技术路线与待解决的核心问题。这种全景式的技术架构描述，其本身就在构建一个理解这一交叉领域的概念框架。

第一个大方向是"LLMs for KGs"，即利用大型语言模型的能力来构建、完善和增强知识图谱。这一方向内部又可以细分为三个关键技术主题。

在知识抽取与规范化（Knowledge Extraction and Canonicalisation）层面，技术架构的核心是如何将LLMs强大的自然语言理解能力转化为可用于KG构建的结构化知识。实体解析与对齐（Entity Resolution and Matching）是其中的基础环节。传统方法依赖基于符号相似度的规则或基于嵌入的图神经网络（如CG-MuAlign、REA），但这些方法往往受限于标注数据稀缺和跨语言、跨领域的异构性问题。LLMs的介入为此带来了新的可能性：一方面，LLMs可以被用作自动标注工具，为实体对齐任务生成训练样本，显著降低人工标注的成本；另一方面，LLMs的语言理解能力有助于构建实体匹配规则库，处理同义词、多义词等自然语言中的复杂现象。不过，论文也指出了关键挑战——如何将LLM生成的规则与KG中的已有词汇和结构对齐，以及如何为大规模KG（如DBpedia、Wikidata）设计有效的提示策略。

从表格数据中抽取知识是另一个重要技术方向。现实世界中的大量数据以表格形式存在（数据库表、网页表格、CSV文件），但其语义往往不明确。技术路线通常涉及将表格结构序列化后输入Transformer模型。TURL、RPT、Starmie等早期工作利用BERT进行表格表示学习；Doduo将表格序列化为token序列训练BERT进行列类型和关系预测；近期的研究甚至尝试直接用ChatGPT进行语义列类型标注。这一领域面临的核心架构挑战包括：如何将二维表格结构有效地转换为一维序列以适应LLM的输入格式，如何处理表格中的非文本数据（如数值、日期），以及如何从LLM对表格的"理解"最终落地为可注入KG的精确三元组。

从自由文本中抽取知识则是最传统也最活跃的方向。LLMs的介入彻底改变了这一领域的技术面貌。命名实体识别（NER）、实体链接、关系抽取、事件抽取和语义角色标注（SRL）等经典任务，如今都可以通过零样本或少样本提示由LLMs完成，无需为每个领域单独训练抽取模型。更值得注意的技术趋势是"合成数据生成"（synthetic data generation）——利用LLMs生成高质量的训练数据来微调更小的专用模型，以及"指令微调"（instruction tuning）——通过让LLMs遵循明确的指令来控制其行为。这些技术共同构成了一种新的知识抽取范式：LLMs不再仅仅是抽取工具本身，而是整个抽取流水线的"赋能者"（enabler），既能直接执行任务，又能为其他模型提供训练资源。

在知识图谱构建（KG Construction）层面，技术架构主要围绕链接预测（Link Prediction）展开。链接预测旨在基于KG中已有的三元组推断缺失的事实，包括头实体预测、关系预测和尾实体预测。传统方法依赖KG嵌入（如TransE、RotatE），但这些方法通常无法处理训练时未见过的实体（inductive setting），也难以有效利用文本描述信息。LLMs的引入催生了多条新的技术路线。第一条路线是将LLMs与传统KG嵌入模型结合，利用BERT等模型从实体描述文本生成初始嵌入，再输入KG嵌入模型。Pretrain-KGE、MADLINK、KEPLER等工作遵循这一思路。第二条路线是完全基于LLM的KG补全，如KG-BERT将三元组表示为文本序列直接用BERT分类，KG-GPT2用GPT-2进行微调，PKGC将三元组有效性判断转化为自然语言句子的二分类问题。第三条路线是基于提示的方法，利用GPT-3/4的上下文学习能力，通过精心设计的提示直接生成缺失的实体或关系，而无需任何模型微调。

然而，论文对这些技术进行了冷静的架构层面分析。纯LLM方法虽然能够处理训练时未见的新实体（inductive link prediction），但面临几个结构性问题：生成式模型无法保证输出结果一定存在于KG的实体库中；评估时的排名指标（如Hit@k、MRR）需要对大量候选实体逐一打分，对于超大规模LLM而言计算成本过高；最关键的是，难以区分LLM是 genuinely 推理出了新事实，还是仅仅从训练语料中回忆起了已记住的知识。这些技术局限直接指向了架构设计上的核心张力：如何在保持LLMs泛化能力的同时，确保输出的可控性、可验证性和计算效率。

在本体模式构建（Ontological Schema Construction）层面，技术架构聚焦于如何利用LLMs自动生成、完善和验证KG的本体约束。这包括规则与约束挖掘、本体精化和本体对齐三个子任务。规则挖掘的目标是从KG中自动发现可用于验证和推理的逻辑规则（如"若X是Y的父母，则Y的出生年份应晚于X"）。传统方法依赖频繁的正面样本进行模式挖掘，对罕见实体和否定规则无能为力。LLMs带来的新机遇是多方面的：它们能够从原始文本中提取上下文信息，自动通过归纳推理生成新规则，理解同义词和多义词以消歧规则中的词汇，甚至还能为规则生成解释或反例。论文通过一个真实的ChatGPT示例展示了这一潜力——当要求模型列出推断"父亲"关系的一阶逻辑规则时，ChatGPT能够生成语法正确且语义合理的规则。当然，挑战在于如何让LLM使用KG中已有的精确词汇和正确语法，以及如何验证生成规则的实际有效性。

本体精化的技术路线则更多地依赖预训练语言模型的微调能力。BERTSubs等系统通过微调BERT来预测概念间的蕴含关系（subsumption），或用BERT为新概念在本体层次中找到合适的位置。当前方法主要利用概念的文本标签和定义，但如何同时利用本体的图结构和形式逻辑语义，仍然是一个开放的技术难题。本体对齐（Ontology Alignment）面临类似的挑战——虽然BERTMap等系统通过微调BERT在同义词对上达到了领先水平，但对于最新的大规模生成式LLM（如GPT-4），这一领域的探索尚属空白。

第二个大方向是"KGs for LLMs"，即利用知识图谱的结构化、精确知识来增强大型语言模型。这一方向同样包含三个关键技术主题。

在LLM预训练阶段引入KG知识的技术路线，旨在弥补纯文本预训练在知识覆盖和结构化方面的不足。KG中的事实通常经过人工验证，质量高、来源可靠，将其融入预训练语料可以为模型注入更丰富的世界知识。技术实现方式包括将KG三元组转换为自然语言句子后混入预训练文本，以及在模型架构中增加专门的知识记忆模块（如将实体和关系的向量表示直接注入语言模型）。KG中的高资源语言知识还可以通过翻译或迁移的方式注入到低资源语言的语言模型中。这一架构设计的核心思想是：让LLMs在"阅读"海量文本的同时，也能"学习"经过精心整理的结构化事实。

在提示工程（Prompt Construction）层面，KGs为LLM提示的自动生成和优化提供了全新的可能性。传统的提示工程主要依赖人工设计和反复试错，而KGs可以基于其结构化的知识库自动提取相关上下文、实体属性和邻居关系，生成数量更多、质量更高、覆盖更广的提示。KnowPrompt等系统利用KGs中的关系语义信息来优化关系抽取任务的提示表示。更具前瞻性的技术愿景包括：利用KGs生成可解释的提示（因为每个提示都可以追溯到KG中的具体来源），在提示中嵌入"护栏"（guards）以确保生成内容符合领域约束，以及设计能够触发KG复杂推理能力的提示。论文将这一方向的研究挑战提炼为四个核心问题（C1-C4），并对应到三个研究问题（RQ1-RQ3），形成了一套从理论到应用的技术路线图。

检索增强方法（Retrieval Augmented Methods）是当前最活跃的技术方向之一。其基本架构是在LLM生成答案之前，先从外部知识库中检索相关事实，将其作为上下文输入模型，从而缓解LLM的知识截断（knowledge cutoff）、幻觉和领域知识不足等问题。RAG（Retrieval-Augmented Generation）是这一范式的代表性工作，它将稠密段落检索（Dense Passage Retrieval, DPR）与生成模型联合训练。FiD（Fusion-in-Decoder）则分别编码检索到的段落和原始问题，再在解码器阶段进行融合。论文特别强调了结构化知识（KGs）作为外部知识源的潜力——相比于非结构化文本段落，KG中的三元组事实更精确、更简洁、更易于验证。KG-FID等工作已经开始探索将KG信息融入解码器的技术路线。

在检索增强的技术架构中，一个深刻的问题是"知识编辑"（Knowledge Editing）与"检索增强"之间的边界正在变得模糊。传统的知识编辑试图直接修改LLM参数中的特定事实（如通过超网络学习参数偏移），但这往往导致"零和博弈"现象——修改一个事实会意外影响其他知识。相比之下，检索增强通过外部记忆间接提供知识更新，无需触碰模型参数，天然避免了这种副作用。论文提出的"半参数化LLM"（Semi-parametric LLMs）概念，正是将这两种思路统一在一个更大的技术愿景中：LLM负责语言理解和生成，外部显式知识库负责提供精确、可更新、可追溯的事实支撑。

4. 实验评估 (Experimental Evaluation)

作为一篇立场性综述论文，本文的"实验评估"部分并非呈现单一研究的实验结果，而是系统性地梳理和批判性地评估了该交叉领域中的各类基准测试、方法对比和研究发现。这种元层面的评估分析，对于理解当前研究的实际进展与真实水平具有重要价值。

在知识检索与三元组抽取的评估方面，论文详细回顾了多个关键基准测试的设计意图与局限性。LAMA（Language Model Analysis）是最早的LLM知识检索基准之一，通过完形填空式的提示（cloze-style prompts）测试模型从参数中提取关系知识的能力。然而，后续研究揭示了这一评估范式存在严重的偏见问题：模型的表现高度依赖于提示词的精确措辞，对同义改写极不稳定，且在许多情况下可能只是利用训练数据中的表面模式（surface patterns）而非真正的知识推理。KAMEL基准测试进一步证实了LLMs在处理多token实体时的困难，而KMIR（Knowledge Memorization, Identification and Reasoning）测试则从记忆、识别和推理三个维度全面评估了LLMs的知识能力，发现模型规模是决定记忆能力的关键因素，但压缩模型虽能保留记忆性能，却会损害识别和推理能力。这些基准测试共同描绘了一幅复杂的图景：LLMs确实在其参数中编码了一定量的关系知识，但这种知识的可靠性、一致性和可泛化性远未达到符号知识库的水平。

在实体对齐与KG补全任务上，论文对比了传统嵌入方法与LLM增强方法的性能差异。在链接预测领域，基于BERT的KG-BERT、KG-GPT2、SimKGC等方法通过将三元组文本化后用语言模型编码，在多个基准上展示了竞争力。尤其值得注意的是归纳式链接预测（Inductive Link Prediction, ILP）场景——传统KG嵌入方法在此场景下完全失效（因为它们无法为训练时未见的实体生成嵌入），而基于文本描述的LLM方法天然支持这一设定。论文指出，LP-BERT等混合方法（结合MLM预训练与对比学习微调）在这一方向上展现了良好的潜力。然而，评估指标本身也带来了挑战：标准的排名指标（Hit@k、MRR）要求对所有候选实体打分排序，对于参数量巨大的LLM而言，这在计算上极为昂贵，迫使研究者不得不在评估效率和精度之间做出妥协。

在数值知识处理方面，论文引用了令人警醒的实验结果。多个LLM在Wikidata的数值事实补全任务上接受测试，包括预测人物的出生年份和死亡年份。结果令人惊讶：没有任何一个被测模型能够准确预测出哪怕一个正确的年份。这一发现在方法论层面具有深远意义——它表明，仅仅增加模型规模和训练数据量，并不能自动解决数值推理问题。数值的精确表示和运算可能需要根本不同的架构设计或专门的训练策略，而非当前基于文本token预测的范式所能自然涌现。

在长尾知识评估方面，PopQA等数据集的研究揭示了一个系统性的性能衰减模式。LLMs在处理与流行实体相关的事实时表现尚可，但当被问及与长尾实体相关的事实时，准确率急剧下降。这一发现通过因果分析被追溯到预训练语料中实体出现频率的影响：模型对某实体的记忆能力，与该实体在训练文本中的曝光频率之间存在直接因果关系。即便是拥有数百亿参数的最大规模模型，也无法完全克服这一长尾遗忘问题。这为KGs的价值提供了强有力的实证支撑——KGs通过显式存储，天然能够为长尾实体提供精确知识，而这恰恰是参数化知识的结构性弱点。

在偏见评估方面，论文引用了多项研究结果，展示了LLMs和KGs各自且相互关联的偏见问题。Stereoset等测试显示预训练语言模型中存在明显的刻板印象偏见；知识图谱嵌入中的社会偏见会被传播到下游任务中；本体的创建过程本身就可能因设计者的主观选择而引入偏见。更深层的问题在于纠正机制的不对称性：对于显式KG，可以通过编辑事实、删除错误断言来相对直接地修正偏见；但对于参数化存储在LLM中的偏见，由于其隐式性和分布式特征，"遗忘"或"修正"都变得极为困难——没有一种简单的"删除按钮"可以移除嵌入在数十亿参数中的有毒关联。

在常识知识构建的评估中，论文回顾了从COMET到COMET-ATOMIC 2020的一系列工作。这些系统将ConceptNet的常识关系扩展至事件推理领域（如动机、因果关系），并通过微调Transformer模型来生成常识三元组。评估结果显示，经过微调的LLMs通常优于未经调整的通用LLMs，这表明针对性的领域适应对于知识抽取质量至关重要。然而，常识知识的开放性和文化依赖性带来了评估上的根本性困难：什么是"常识"本身就因文化背景而异，这使得建立统一的评估基准成为一项充满价值判断的任务。

总体而言，这篇论文所呈现的评估图景并非简单的"谁比谁更好"的竞赛结果，而是揭示了当前技术状态下各种方法在不同维度上的权衡与局限。KGs在精确性、可解释性和长尾覆盖上保持优势，但在构建成本和语言理解灵活性上落后；LLMs在覆盖范围、语言理解和快速部署上领先，但在事实精确性、数值推理和偏见控制上暴露短板。这些评估发现共同指向了一个结论：单一范式无法满足复杂现实世界应用的需求，混合架构势在必行。

5. 案例研究 (Case Studies)

论文通过多个具体的技术示例和应用案例，将抽象的理论与技术讨论落地为可感知的实践画面。这些案例不仅帮助读者理解方法的工作机制，更揭示了LLMs与KGs交互过程中的微妙之处。

第一个值得深入分析的案例是论文中展示的ChatGPT规则生成实例。研究者向ChatGPT提出请求："请列出三条可以帮助推断一个人父亲身份的逻辑规则，并以一阶逻辑形式输出。"模型生成的回答包含三条规则：第一条 $\forall x, y (c h i l d (x, y) \land m a l e (y) \to f a t h e r (y, x))$ 正确地捕捉了"男性子女关系蕴含父亲关系"的逻辑；第二条 $\forall x, y (b i o l o g i c a l C h i l d (x, y) \to f a t h e r (y, x))$ 是一个概率性规则，虽然逻辑上不够严谨（生物学子女关系不一定意味着父亲关系，还可能是母亲），但在日常语境中具有较高合理性；第三条 $\forall x, y (f a t h e r O f (y, x) \to f a t h e r (y, x))$ 则是一个同义转换规则，利用关系名称的语义等价性进行推断。这个案例生动地展示了LLMs在规则生成任务上的双重特性：一方面，它们确实具备将自然语言概念转化为形式化逻辑表达的能力，且能遵循用户指定的输出格式；另一方面，生成的规则在逻辑严谨性上参差不齐——有的完全正确，有的只是高概率启发式，有的则近乎同义反复。这揭示了一个关键的实践洞察：LLMs在规则生成中可以充当"候选规则生成器"或"专家助手"，但其输出必须经过形式化的验证机制（如逻辑推理器或KG约束检查）才能被采纳。直接将LLM生成的规则注入KG而不加验证，可能会导致知识库的不一致甚至矛盾。

在应用层面，数字医疗（Digital Healthcare）案例为LLMs+KGs的融合价值提供了最具说服力的场景之一。论文详细剖析了在医疗领域部署LLMs时面临的两大核心风险：准确性与隐私。在准确性方面，虽然有研究表明LLMs在诊断假设病例时能达到三四年级医学生的水平，但它们也表现出编造信息（幻觉）、虚构引用来源、犯下逻辑错误和提供不道德建议等严重问题。在一个患者安全至关重要的领域，这些问题绝非可以忽略的"边缘情况"。论文指出，KGs在此场景中的价值在于能够为LLMs注入经过验证的医学领域知识，从而抑制幻觉的产生，并通过显式的知识来源提升输出的可追溯性。在隐私方面，将患者健康信息（PHI）发送至第三方LLM API会引发严重的合规风险（如GDPR），而数据一旦被外发，医疗机构将失去对其如何被存储、使用和再训练的控制权。这一案例揭示了一个深刻的技术治理问题：在某些高敏感性领域，使用商业LLM API的便利性与数据主权和隐私保护之间存在根本性冲突。KGs可以通过定义数据共享策略、支持数据匿名化等方式缓解这一风险，但论文也诚实地指出，在医疗机构内部部署开源LLM虽然能够保留数据控制权，却面临着模型性能落后、技术 expertise 不足等现实障碍。

建筑环境（Digital Build Environment）案例则展示了LLMs+KGs在专业法规合规领域的应用潜力。在建筑行业，大量安全与可持续性法规以自然语言文本形式存在，过去需要依赖具有深厚领域知识的专家来解读这些法规并将其转化为可自动执行的规则。LLMs的介入使得法规文本的自动解读成为可能——模型可以将法规条文转化为结构化的KG规则，进而序列化为领域特定语言（DSL）以自动检查3D建筑模型的合规性。同时，LLMs还可以将领域专家的自然语言查询转换为SPARQL等查询语言，降低 interrogating 结构化建筑数据的门槛。这一案例的价值在于它展示了一种"LLM增强KG"的典型流水线：LLM负责理解非结构化文本，KG负责存储和推理结构化规则，二者协同完成过去需要大量人工干预的复杂任务。

在领域特定内容搜索案例中，论文讨论了多模态场景图（Scene Graph）与LLMs结合的技术愿景。场景图是一种以KG形式描述图像内容的结构表示，其中对象是节点、对象间的关系（动作、位置等）是边。当这些节点和边与外部本体或KG连接时，便支持超越简单图像-文本匹配的复杂查询，例如"找出图片中最大的动物的属"或"检索展示穿着素食友好服装的儿童图片"。这一案例展示了LLMs与KGs融合在视觉理解领域的延伸潜力：LLM提供对自然语言查询的深层理解，场景图KG提供对图像内容的结构化符号表示，二者结合使得跨模态的复杂推理成为可能。

6. 综合价值与局限 (Synthesis — Value and Limitations)

这篇立场性综述论文的最大理论价值在于，它成功地将LLMs与KGs的交叉研究从碎片化的个别工作提升到了一个统一的、具有清晰问题意识和方向感的领域层面。它不仅仅是一篇文献综述，更是一份宣言——宣告知识计算领域进入了一个以"混合表示"为核心的新时代。

从理论层面审视，本文最重要的贡献是为"参数化知识"这一新兴概念在知识工程的传统话语体系中找到了合法位置。长期以来，符号知识表示社区对神经网络"黑箱"中的知识持怀疑甚至排斥态度，认为只有显式、可解释、可推理的知识才配得上"知识"之名。而这篇论文以开放但批判的姿态承认：LLMs的参数中确实编码了某种形式的"知识"——尽管这种知识的形态、获取方式和可靠性特征与显式知识截然不同。这种承认本身就是一种理论突破，它使得两种知识形态可以在同一分析框架下被讨论、比较和融合，而不必陷入"真知识 vs. 假知识"的无谓争论。

论文提出的双向愿景框架——"显式知识优先"与"参数化知识优先"——是一个极具实用价值的概念工具。它避免了"一刀切"的技术主张，而是承认不同应用场景对知识形态有不同的偏好：在医疗诊断、金融监管等安全攸关领域，显式知识的可解释性和精确性仍然是不可妥协的；在开放式对话、创意写作等需要广泛世界知识和语言灵活性的场景中，参数化知识的覆盖面和生成能力则更具优势。这种用例驱动的分类思维，对于指导实际技术选型和研究资源分配具有重要参考价值。

然而，作为一篇在2023年初发表的综述，论文也不可避免地具有时效性局限。LLM领域的发展速度远超学术出版周期——在论文发表后的数月内，GPT-4、LLaMA-2、 Claude等一系列新模型的出现，以及检索增强生成（RAG）、检索增强微调（RAFT）、长上下文窗口（long context）等技术的快速演进，已经改变了部分技术图景。例如，论文中提到的LLM在长文档处理上的限制、在提示中融入KG知识的token长度限制等问题，已经在一定程度上被新的技术进展所缓解。此外，论文对LLM数值推理困难的讨论虽然准确，但像ToolFormer、Gorilla等让LLM调用外部工具（如计算器、API）的方法，以及专门的数学推理模型，正在以"LLM+工具"的混合架构部分绕过这一问题。

论文的另一个局限在于，它虽然广泛地覆盖了技术方向，但对某些方向的技术深度分析仍有拓展空间。例如，在"KGs for LLMs"方向中，关于KG如何具体地被结构化输入到LLM的上下文窗口中、如何处理大规模KG的子图选择问题、如何在检索阶段平衡语义相关性与知识多样性等技术细节，讨论相对有限。同样，在评估方法论上，虽然论文对现有基准的偏见问题提出了尖锐批评，但对于如何设计更公平、更严格的评估框架，尚未给出系统性的解决方案。

从更宏观的视角来看，这篇论文最深层的贡献或许在于其方法论上的示范作用：它展示了一种在剧烈技术变革时期如何进行批判性综述的学术姿态。面对LLM带来的兴奋与焦虑，作者们既没有陷入技术乐观主义的狂热，也没有堕入守旧者的 defensive 心态，而是以冷静、全面、平衡的方式审视新旧范式各自的优劣，并从中提炼出融合的可能性。这种学术品格——在技术浪潮中保持独立思考、在众说纷纭中寻找共同基础——本身就是一种宝贵的知识贡献。

7. 延伸阅读与思考 (Further Reading and Reflection)

这篇论文所勾勒的研究图景，根植于一个深厚的学术传统，同时又指向了多个充满潜力的未来方向。要真正把握其 intellectual lineage，需要回溯几篇关键的奠基性工作。

在"LLMs作为知识库"这一思想谱系中，Petroni等人（2019）的"Language Models as Knowledge Bases?"是开创性论文，它首次系统性地证明了预训练语言模型在没有专门微调的情况下，能够通过完形填空提示从其参数中检索事实知识。这项工作直接催生了LAMA基准和一系列后续探测研究。在"KGs增强语言模型"的方向上，ERNIE（THU）、KEPLER（Wang et al., 2021）和K-BERT等工作开创了将结构化知识注入预训练Transformer的先河。而RAG（Lewis et al., 2020）的提出，则标志着检索增强生成范式的正式确立，将外部知识检索与语言模型生成进行了系统性的架构整合。

在知识抽取领域，本文所讨论的从文本、表格到KG的流水线，延续了信息抽取领域数十年的研究脉络。从早期的基于规则的模式匹配，到基于统计机器学习的方法（如CRF用于NER），再到基于神经网络的序列标注和基于阅读理解的抽取，直至今天基于LLM的零样本/少样本生成式抽取——这一演化轨迹清晰地展示了技术范式的每一次跃迁如何改变任务的定义和解决方式。当前基于LLM的抽取方法虽然极大地降低了对标注数据的依赖，但论文提醒我们，这并不意味着传统评估框架中的核心关切（如精确率、召回率、一致性、领域泛化）已经消失。

在推理与可解释性方面，Chain-of-Thought（CoT）提示（Wei et al., 2022）是论文多次提及的关键技术。它通过让LLM在给出最终答案前先生成中间推理步骤，显著提升了模型在算术、常识和符号推理任务上的表现。然而，正如论文所指出的，CoT所生成的"推理链"是否真正反映了模型的内部推理过程，还是仅仅是一种后验的合理化（rationalization），仍然是一个开放且有争议的问题。Jain和Wallace（2019）的"Attention is not Explanation"已经为将模型的内部表示直接等同于解释提出了警告。

展望未来，有几个研究方向尤为值得关注。第一个方向是"可验证的LLM"（Verifiable LLMs）——如何设计系统架构，使得LLM的每一个事实性断言都可以被追溯、验证和修正。KGs在其中可以扮演"事实锚点"的角色，但如何建立高效的实时校验机制、如何处理LLM生成内容与KG知识之间的冲突，都是需要深入研究的问题。第二个方向是"多模态知识图谱与LLM的深度融合"——当知识不再局限于文本和符号，而是跨越视觉、听觉、触觉等多种模态时，如何构建统一的知识表示和推理框架？场景图、视觉-语言预训练模型（如CLIP、BLIP-2）与LLM的结合只是这一方向的初步探索。

第三个方向是"动态知识系统"（Dynamic Knowledge Systems）——现实世界的知识是不断演化的，而LLM的参数知识一旦训练完成便相对静态（知识截断问题），KGs虽然可以更新但其与LLM的同步机制尚不成熟。如何构建能够持续学习、实时更新且保持一致性的混合知识系统，是一个兼具理论深度和实践价值的核心挑战。知识编辑（Knowledge Editing）和检索增强虽然在局部上提供了一些解决方案，但离真正的"终身学习知识系统"仍有距离。

最后一个值得深思的问题是：当知识既可以以显式符号形式存在，也可以以隐式参数形式存在，未来的人类知识体系本身是否会因此改变？如果机器可以通过参数化方式"掌握"大量人类从未显式整理过的知识，这些知识应如何被理解、评估和利用？论文所讨论的技术问题，最终都指向了这一更深层的哲学追问——在知识计算的新时代，"知道"究竟意味着什么？

对我而言，这篇论文最令人深思的洞见在于其对"精度-召回率权衡"的重新框定。在信息检索领域，精度与召回率的权衡是一个经典概念，但将其应用于知识表示的范式选择，却赋予了它全新的理论深度。它提醒我们，知识的"好"不是一个单一维度的度量，而是取决于使用场景的价值判断。在某些情境下，宁可遗漏一些事实也不能容忍一个错误；在另一些情境下，广泛的覆盖和灵活的生成能力比个别事实的绝对精确更为重要。这种情境化的知识观，或许是后GPT时代知识工程最应该拥抱的认识论转变。

Topics:

"knowledge_graph"
"llm"
"rag"
"reasoning"
References: