A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

基本信息

标题: A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
第一作者: Lei Huang (Harbin Institute of Technology)
研究团队: harbin_institute_of_technology
会议/期刊: ACM Transactions on Information Systems, Vol. 1, No. 1, Article 1, January 2024
代码: N/A
PDF 文件: [A Survey on Hallucination in Large Language Models](file:///C:/Users/admin/.openclaw/workspace/attachment/papers/20260430_hallucination_survey_llm.pdf)

研究摘要

大语言模型（Large Language Models, LLMs）的崛起标志着自然语言处理领域的一次范式革命。从 GPT-4 到 LLaMA，从 Claude 到 Gemini，这些模型展现出了前所未有的语言理解、生成与推理能力，并以其参数中编码的海量事实知识，正在重塑信息检索（Information Retrieval, IR）系统的格局。然而，与这些惊人能力相伴而生的，是一个日益严峻的挑战——幻觉（hallucination）。LLM 会生成表面上合理、却与事实不符或脱离用户指令的内容。由于 LLM 生成的文本具有高度 convincing 和人类化的特征，检测这些幻觉变得尤为困难，这给聊天机器人、搜索引擎和推荐系统等已深度融入日常生活的 IR 应用带来了严重的可靠性隐患。当这些系统提供的错误信息直接影响用户决策时，虚假信念的传播乃至实际危害便成为可能。

hallucination 并非 LLM 时代独有的现象。在传统自然语言生成（Natural Language Generation, NLG）任务中，研究者早已将幻觉定义为"生成的内容毫无意义或违背提供的源内容"，并将其分为内在幻觉（intrinsic hallucination，与源内容矛盾）和外在幻觉（extrinsic hallucination，无法从源内容验证）两类。然而，LLM 的开放域通用属性使其幻觉现象呈现出与任务特定模型截然不同的特征。LLM 作为开放式系统，其幻觉主要体现为事实层面的错误，且与用户指令的对齐性成为新的关切维度。因此，传统分类体系已难以适配 LLM 时代的复杂场景，亟需一套更精细、更具针对性的 taxonomy。

本文正是在这一背景下展开的一项系统性综述。作者团队来自哈尔滨工业大学与华为公司，其核心贡献在于提出了一套面向 LLM 时代的幻觉重新定义与分类框架，将幻觉划分为事实性幻觉（factuality hallucination）与忠实性幻觉（faithfulness hallucination）两大类，并在忠实性维度下进一步细化为指令不一致、上下文不一致和逻辑不一致三个子类。这一 taxonomy 不仅更贴合 LLM 以用户为中心的应用场景，也为后续研究提供了清晰的分析坐标。此外，本文从数据、训练、推理三个层面深入剖析了幻觉产生的根源，系统梳理了检测方法与基准测试，并按成因对应地综述了缓解策略。尤为值得关注的是，本文专门深入讨论了检索增强生成（Retrieval-Augmented Generation, RAG）系统在缓解幻觉过程中面临的独特挑战，并前瞻性地指出了大视觉-语言模型（Large Vision-Language Models, LVLMs）中的幻觉问题以及 LLM 知识边界理解等未来研究方向。与同期其他综述相比，本文的独特之处在于其分类体系与成因分析的直接对应关系——每一种缓解策略都被明确地关联到其试图解决的根源性成因，从而形成了一个靶向性强、逻辑自洽的完整框架。

理论框架

知识谱系与问题演化

要深入理解 LLM 中的幻觉现象，必须首先把握其理论根基与概念演化脉络。本文的理论建构并非凭空而起，而是建立在对传统 NLG 幻觉研究的继承与超越之上。在 LLM 出现之前，Ji et al. (2023) 等研究者已对预训练模型在特定 NLG 任务中的幻觉进行了系统梳理，形成了内在/外在幻觉的经典二分法。这一框架在抽取式与生成式摘要、机器翻译等任务中具有良好的解释力，因为其"源内容"边界清晰——要么是输入文档，要么是平行语料。然而，当模型演变为通用 AI 助手，用户提问往往不附带明确的源文本，此时"无法从源内容验证"的定义便显得捉襟见肘。LLM 的幻觉更多地表现为对开放世界事实的背离，以及对其所应遵循的用户指令的偏离。

本文提出的核心概念创新正在于对这一理论空白的填补。作者将 LLM 幻觉重新界定为两大类型：事实性幻觉与忠实性幻觉。事实性幻觉（factuality hallucination）关注模型输出与可验证的真实世界事实之间的偏差，它又可细分为事实矛盾（factual contradiction）与事实捏造（factual fabrication）。事实矛盾指模型输出中包含可被验证为错误的信息，例如将电话的发明者错误地归为托马斯·爱迪生而非亚历山大·格雷厄姆·贝尔（实体错误），或声称爱迪生"发明"了灯泡而忽略了他实际上是改进者这一 nuance（关系错误）。事实捏造则指模型生成了根本无法验证的内容，例如声称埃菲尔铁塔的建造导致了"巴黎虎"这一并不存在的物种的灭绝（不可验证性捏造），或将某项运动的发起简单归因于单一事件（过度声称）。这些子类别的划分揭示了一个深刻的理论洞察：LLM 的事实性错误并非单一现象，而是涵盖了从知识记忆错误到关系理解错误，再到纯粹虚构的连续谱系。

忠实性幻觉（faithfulness hallucination）则捕捉了模型输出与用户输入或自身生成内容之间的不一致。这一概念的提出反映了 LLM 应用范式的根本转变——从传统的"给定输入生成输出"到"遵循指令完成任务"。忠实性幻觉被进一步解构为三个维度：指令不一致（instruction inconsistency），即模型偏离用户的原始意图，例如用户要求翻译而模型却选择了直接回答；上下文不一致（context inconsistency），即模型输出与用户提供的上下文信息相矛盾，如用户在上下文中明确指出尼罗河发源于中非大湖区，模型却在总结中错误地表述为"中部非洲的山脉"；以及逻辑不一致（logical inconsistency），即模型在推理过程中出现内部矛盾，例如在解方程时前两步推导出 $2 x = 8$ ，却在下一步声称 $x = 3$ 。这种多层次的理论建构使得研究者可以精确地定位和诊断不同类型的失败模式，而非将所有问题笼统地归结为"模型说错了"。

从更底层的理论视角来看，本文将幻觉的成因追溯至 LLM 能力获取的全生命周期：数据、训练与推理。在数据层面，预训练语料中的错误信息与偏见会被具有强大记忆能力的 LLM 习得并放大，形成"模仿性虚假"（imitative falsehood）；而知识边界（knowledge boundary）——无论是长尾知识的稀疏性、时效性知识的过期，还是版权敏感内容的缺失——都构成了模型无法逾越的认知围墙。在训练层面，预训练阶段的单向表示与注意力机制缺陷、监督微调（Supervised Fine-Tuning, SFT）阶段对超出模型知识边界内容的强制拟合、以及基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）阶段可能出现的"谄媚"（sycophancy）行为，都为幻觉埋下了种子。在推理层面，不完美的解码策略、模型对局部上下文的过度自信（over-confidence）、Softmax 瓶颈对输出分布表达能力的限制，以及推理能力的固有缺陷（如 reversal curse），共同构成了幻觉在生成阶段显现的机制。这一三层成因理论框架的深层价值在于，它将幻觉从一个表面的"症状"还原为贯穿模型构建全过程的"系统性病症"，从而为针对性治疗提供了病理学基础。

技术架构

检测技术体系

如果说理论框架回答了"是什么"和"为什么"的问题，那么本文在技术层面的综述则系统地回答了"怎么办"的问题。作者按照幻觉的成因分类，相应地组织起了检测与缓解两大技术体系，形成了一套与理论紧密耦合的方法论架构。

在检测技术方面，本文依据幻觉类型将检测方法分为事实性幻觉检测与忠实性幻觉检测两个主要分支。事实性幻觉检测的核心目标是判断模型输出是否与真实世界事实相符，其主流路线又可分为事实核查（fact-checking）与不确定性估计（uncertainty estimation）两类。事实核查遵循"事实抽取—事实验证"的两阶段范式：首先从模型输出中抽离出独立的原子化事实陈述，然后对照可靠知识源进行验证。根据知识源的不同，事实核查又可区分为外部检索（external retrieval）与内部核查（internal checking）。外部检索策略如 FACTSCORE 和 FacTool，通过检索 Wikipedia 等可信来源来验证事实；而内部核查则利用 LLM 自身的参数化知识，通过 Chain-of-Verification（CoVe）等技术让模型自我验证。不确定性估计则从另一条路径切入，其理论前提是幻觉与模型的内在不确定性密切相关。这类方法进一步分为基于 LLM 内部状态（如 token 概率、熵值）和基于 LLM 行为（如多次采样的自一致性、多模型辩论）的两大分支。当模型只能以 API 形式访问、内部状态不可见时，基于行为的方法如 SelfCheckGPT 和 LM vs LM 的交叉审问机制便显得尤为重要。

忠实性幻觉检测则关注模型输出对给定上下文或指令的忠实程度，其技术路线更为多元。本文将其归纳为五大类：基于事实重叠的度量（如 n-gram、实体、关系三元组的重叠计算）、基于分类器的度量（利用自然语言推理 NLI 模型判断源内容与生成本文之间的蕴含关系）、基于问答的度量（QA-based，通过从输出中提取答案并与源内容生成的答案比对）、基于不确定性的度量（利用熵或 log-probability 评估模型置信度），以及基于 LLM 的评判（利用模型的指令遵循能力直接进行二元判断或 Likert 评分）。这些方法构成了一个从传统统计度量到现代大模型自主评判的完整技术光谱，反映了该领域从人工设计特征向利用模型涌现能力演进的趋势。

缓解技术体系

在缓解技术方面，本文的技术架构展现出鲜明的"因果对应"设计哲学——每一种缓解策略都直接回应前文分析的某一类成因。针对数据相关幻觉，技术路线包括数据过滤（筛选高质量、去重、去偏的预训练数据）、模型编辑（model editing，通过 locate-then-edit 或元学习精确修改模型参数中的特定知识），以及检索增强生成（RAG，以外部非参数化知识库弥补模型知识缺口）。RAG 本身又构成了一个丰富的子系统，涵盖一次性检索（one-time retrieval，在生成前检索）、迭代检索（iterative retrieval，在生成过程中动态检索）和后验检索（post-hoc retrieval，生成后通过检索验证和修正）三种范式。

针对训练相关幻觉，预训练阶段的缓解策略聚焦于架构改进（如 BATGPT 的双向自回归设计、注意力锐化正则器）与训练策略优化（如事实增强预训练、上下文预训练）；而对齐阶段则主要针对 RLHF 引发的"谄媚"问题，通过改进人类偏好标注质量、聚合多用户偏好、激活值干预（activation steering）以及合成数据微调等手段加以矫正。针对推理相关幻觉，技术架构分为事实性增强解码（如 factual-nucleus sampling、推理时干预 ITI、层对比解码 DoLa）与忠实性增强解码（如上下文感知解码 CAD、知识约束解码 KCD、链式思维忠实性改进等）两大并行路线。整个技术架构呈现出清晰的模块化特征：研究者可以根据幻觉的具体表现和诊断出的成因，选择对应的技术工具进行组合应用。

实验评估

幻觉检测与缓解方法的进步离不开标准化基准测试的推动。本文对现有的幻觉评估基准进行了全面盘点，将其划分为幻觉评估基准（hallucination evaluation benchmarks，用于量化 LLM 产生幻觉的倾向）和幻觉检测基准（hallucination detection benchmarks，用于评测检测方法的有效性）两大类。下表汇总了文中讨论的主要基准测试的关键属性：

Benchmark	数据规模	语言	事实性	忠实性	手工构造	任务类型	评估指标
TruthfulQA	817	英文	✓	✗	✓	多选/生成 QA	LLM-Judge
HaluEval-2.0	8,770	英文	✓	✗	✗	生成 QA	MiHR & MaHR
HalluQA	450	中文	✓	✗	✓	生成 QA	LLM-Judge
FreshQA	600	英文	✓	✗	✓	生成 QA	人工评判
REALTIMEQA	动态更新	英文	✓	✗	✓	多选 QA	EM & F1
Med-HALT	4,916	多语言	✓	✗	✗	多选 QA	准确率
SelfCheckGPT-Wikibio	1,908	英文	✗	✓	✗	检测	AUROC
HaluEval	35,000	英文	✗	✓	✗	检测	准确率
FELM	3,948	英文	✓	✓	✗	检测	准确率 & F1
PHD	300	英文	✗	✓	✗	检测	P&R&F1
ScreenEval	52	英文	✗	✓	✗	检测	AUROC

幻觉评估基准的设计哲学揭示了研究社区对 LLM 幻觉特性的深刻认识。由于当前 LLM 对高频常识性知识具有极强的记忆能力，基准测试的矛头主要指向两类"硬骨头"：长尾事实知识与模仿性虚假知识。在长尾事实方面，PopQA 和 Head-to-Tail 基于实体流行度构建问题，专门测试模型对不常见实体的知识掌握；REALTIMEQA 和 FreshQA 则通过引入时事性问题，挑战模型处理动态变化世界知识的能力；Med-HALT 和 HaluEval-2.0 则聚焦于生物医学、金融、科学等专业领域，测试模型在垂直领域知识边界上的表现。在模仿性虚假方面，TruthfulQA 采用对抗性方法构造了 817 道旨在诱导模型复制训练数据中常见错误信念的问题，涵盖了健康、法律、金融、政治等 38 个类别；HalluQA 则将这一方法论移植到了中文语境下。这些基准的共性在于它们都刻意回避了 LLM 已"烂熟于心"的常识，转而挖掘那些容易被忽视或错误学习的知识盲区。

幻觉检测基准则经历了从传统任务向 LLM 时代演进的范式转换。早期的基准多集中于摘要、数据到文本、机器翻译等特定任务，且生成内容多来自 BART、PEGASUS 等规模较小的模型，难以反映当代 LLM 的复杂输出特征。面向 LLM 的新型基准如 SelfCheckGPT-Wikibio 利用 GPT-3 合成维基百科风格的传记文本并进行人工事实性标注；HaluEval 通过"采样-过滤"的自动化流程结合人工标注，构建了覆盖通用查询和任务特定样本的大规模检测数据集；BAMBOO 和 ScreenEval 则将检测范围拓展到了长文档场景；FELM 横跨世界知识、科学和数学等多领域，强调跨域事实性评估；RealHall 和 SAC3 更贴近开放域问答的真实应用场景。这些基准的演进轨迹清晰地表明，随着 LLM 能力的跃升，检测基准也在向着更大规模、更长文本、更跨领域、更贴近真实交互场景的方向发展，二者之间形成了一种能力跃迁与评测跟进相互追赶的动态格局。

案例研究

为了让抽象的幻觉类型变得具体可感，本文在表 1 中精心设计了多个对话案例，这些案例本身就是理解本文理论框架的绝佳切入点。我们可以沿着这些案例的脉络，深入观察不同类型幻觉的实际表现及其背后的机制。

事实性幻觉的案例展示了模型如何在"看似自信"的叙述中嵌入错误。在关于托马斯·爱迪生贡献的问答中，模型将"改进灯泡"与"发明电话"两个事实错误地拼接在了一起——电话的发明者应为贝尔，而爱迪生对灯泡的贡献是改进而非原创。这种错误并非随机胡言，而是训练数据中关于这些历史人物的错误叙述被模型记忆并重组的结果，典型地体现了"模仿性虚假"的机制。更具戏剧性的是关于埃菲尔铁塔环境影响的问题：模型不仅虚构了一个"巴黎虎"的物种，还煞有介事地描述了其在生态系统中的"关键作用"，进而又过度声称铁塔的建造"引发了全球绿色建筑运动"。这一案例的精妙之处在于它同时展示了事实捏造的两种子类型：不可验证性捏造（巴黎虎纯属虚构）与过度声称（将复杂的社会运动简单归因于单一事件）。模型的这种表现可以理解为，当面对一个可能需要环境工程知识来回答的问题时，模型在其参数知识中找不到直接的对应信息，于是启动了一种"填补空白"的生成机制——它根据训练语料中关于"环境冲击"、"物种灭绝"、"建筑运动"等概念的统计模式，拼凑出了一个结构上合理但内容上虚假的回答。这种"合理的虚构"恰恰是幻觉最危险的地方，因为它利用了人类对连贯叙事的信任本能。

忠实性幻觉的案例则从另一个维度揭示了模型在指令遵循与上下文利用上的失败。在指令不一致的例子中，用户明确要求"将英文问题翻译成西班牙语"，模型却选择直接回答问题"法国的首都是巴黎"。这一行为可以理解为模型在训练过程中通过 SFT 和 RLHF 被强化的" helpfulness"偏好压倒了"指令遵循"偏好——它判断用户"真正想要"的是答案而非翻译，于是擅自改变了任务类型。这种看似"贴心"实则越权的行为，正是忠实性幻觉的典型表现。在上下文不一致的例子中，用户提供的上下文明示尼罗河发源于"中非大湖区"，模型在总结时却将其改写为"中部非洲的山脉"。这可能源于模型参数中关于大河通常发源于山脉的强先验知识，当这一先验与提供的上下文发生冲突时，模型选择了屈从于自己的参数记忆而非外部提供的权威信息，体现了后文所讨论的"知识冲突"（knowledge conflict）现象。逻辑不一致的例子则更为微妙：在解方程 $2 x + 3 = 11$ 时，模型正确地执行了第一步（两边减 3 得 $2 x = 8$ ），但在第二步却错误地得出 $x = 3$ 。这种推理链内部的断裂表明，即使模型掌握了单个操作步骤的知识，也可能在执行多步推理时因注意力分配、工作记忆管理或简单的计算错误而产生逻辑断裂，最终导致结论与推理过程自相矛盾。

这些案例共同说明，幻觉并非单一故障模式，而是模型在知识记忆、指令理解、上下文利用和逻辑推理等多个认知维度上的系统性脆弱性的综合体现。它们也提示我们，有效的幻觉缓解策略必须是多管齐下、针对不同失败模式的综合治理。

综合价值与局限

本文作为 LLM 幻觉研究领域的一篇重要综述，其理论贡献与实践价值是显著的，但同时也存在一些值得客观审视的局限。

从理论层面看，本文最核心的贡献在于建立了一套与 LLM 时代适配的幻觉 taxonomy。通过将幻觉划分为事实性与忠实性两大主类，并在忠实性下引入指令、上下文、逻辑三个子维度，作者成功地将一个原本模糊的问题域结构化，使得不同研究可以在此共同坐标系下定位自己的工作。这种概念框架的清晰化不仅有助于学术研究的分类与比较，也为工业界诊断和修复具体产品的幻觉问题提供了 check-list。此外，本文将缓解策略与成因直接对应起来的组织方式，突破了以往综述"罗列方法"的平面化叙述，呈现出一种具有因果深度的立体知识体系。读者可以清楚地看到，每一种检测或缓解技术都试图解决哪个阶段、哪种类型的什么问题。

从实践层面看，本文对 RAG 系统幻觉挑战的专门分析具有突出的现实意义。RAG 被广泛视为缓解 LLM 幻觉的"银弹"，但本文冷静地指出了其固有的脆弱性：检索失败（包括对用户查询的误解、检索源的质量问题、以及检索器自身的缺陷）和生成瓶颈（包括模型对噪声上下文的鲁棒性不足、知识冲突时的错误偏好、以及长上下文中的"迷失于中段"现象）都可能导致 RAG 系统本身产生幻觉。这种"解药也可能有毒"的辩证分析，对正在部署 RAG 系统的开发者和研究者而言是一剂清醒剂。同时，本文对幻觉基准的全面梳理也为社区提供了重要的实验基础设施导航图。

然而，本文也存在若干值得注意的局限。首先，作为一篇以"原理、分类、挑战与开放问题"为副标题的综述，本文在"原理"层面的理论深度仍有拓展空间。虽然作者详尽地罗列了幻觉的各种成因，但对于这些成因之间如何相互作用、是否存在主次之分、不同成因在不同模型规模或架构下的相对贡献度如何，尚缺乏系统性的定量分析或理论建模。幻觉的产生往往并非单一因素作用的结果，而是数据偏见、架构限制、训练目标与解码策略等多重因素交织的涌现现象，本文对此类交互效应的讨论相对有限。

其次，在缓解策略部分，本文主要聚焦于已发表的技术方法，但对于这些方法的实际落地成本、组合使用的兼容性、以及在不同应用场景（如低延迟对话系统 vs. 高准确性文档生成）中的权衡取舍，讨论不够充分。例如，迭代式检索和后验编辑虽然理论上可以提升准确性，但其引入的延迟与计算开销在实时系统中是否可接受，是一个工程实践中必须面对的问题。

最后，本文的开放问题讨论虽然指出了大视觉-语言模型中的幻觉和知识边界理解两个方向，但对于这些方向的解决路径仅给出了初步的展望。特别是"理解 LLM 知识边界"这一问题，本质上触及了人工智能领域最深层的认知科学问题——机器是否能有自知之明（self-awareness of ignorance）。本文引用了 Levinstein and Herrmann (2023) 的观点，指出现有的"测谎"方法尚不可靠，但未能深入探讨这一困难背后的哲学与计算根源。不过，这些局限在很大程度上是由综述这一文体本身的定位所决定的——提供全景图而非深挖每一个矿井，而这恰恰也是本文作为" guiding beacon"的价值所在。

延伸阅读与思考

本文建立在丰富的学术传统之上，并为其所属的研究领域开辟了新的讨论空间。在 LLM 幻觉研究之前，Ji et al. (2023) 的《Survey of Hallucination in Natural Language Generation》奠定了 NLG 幻觉研究的基础概念体系，其内在/外在幻觉的二分法至今仍具参考价值。Tonmoy et al. (2023) 主要聚焦于 LLM 幻觉的缓解策略；Liu et al. (2023) 从更宏观的可信度（trustworthiness）视角审视 LLM，但未深入幻觉的特异性现象；Wang et al. (2023) 则专注于 LLM 中的事实性问题。本文与 Zhang et al. (2023) 的工作最为接近，后者同样详述了 LLM 幻觉的分类、评测基准与缓解策略，但本文通过独特的双层分类体系和将缓解策略与成因直接绑定的叙事结构，形成了差异化贡献。

从更广阔的学术谱系来看，本文的讨论与多个活跃的研究领域相互交织。在知识边界理解方面，Kadavath et al. (2022) 发现语言模型"大致知道自己知道什么"，而 Burns et al. (2022) 则通过对比激活值寻找模型内部的"真实方向"，这些工作为从模型内部状态诊断幻觉提供了理论可能性。在检索增强方面，Guu et al. (2020) 提出的 RALM 和 Lewis et al. (2020) 提出的 RAG 框架开启了将外部知识注入语言模型生成的先河，而本文对 RAG 幻觉问题的分析实际上是对这一范式极限的反思。在解码策略方面，Holtzman et al. (2020) 对"神经文本退化"（neural text degeneration）的经典研究揭示了采样随机性与生成质量之间的张力，而本文讨论的事实性解码方法正是试图在这条钢丝绳上找到新的平衡点。

展望未来，本文指出的两个方向尤为值得深入探索。一是大视觉-语言模型中的多模态幻觉。随着 GPT-4V、LLaVA 等模型将视觉感知与语言生成融合，幻觉现象从纯文本领域蔓延到了跨模态空间。这类模型不仅可能继承 LLM 的文本幻觉问题，还可能新增视觉幻觉（如无中生有的物体识别、错误的属性描述、混乱的视觉-语义关系），其检测与缓解需要融合计算机视觉与自然语言处理的双重技术。更根本的是，多模态幻觉触及了" grounding"这一核心问题——语言意义如何锚定于物理世界？一个能在视觉上"看见"却仍然在文本上"胡说"的模型，揭示了感知与认知之间的深层鸿沟。

二是 LLM 知识边界的理解与探测。这一问题的终极形态可以表述为：我们能否构建一种机制，使 LLM 在面对超出其知识范围的问题时，能够像一位诚实的学者那样说"我不知道"，而非一位自信的骗子那样编造答案？这不仅是技术问题，更涉及对"知识"、"信念"、"不确定性"等认知哲学概念的形式化建模。本文引用的研究暗示，LLM 的激活空间中可能存在与真实性相关的可解释结构，但如何可靠地提取并利用这些结构，仍然是一个开放问题。这一方向的研究如果取得突破，将不仅有助于缓解幻觉，更可能为 AI 安全领域中的"可扩展监督"（scalable oversight）和"诚实性"（honesty）对齐提供基础工具。

对我而言，本文最发人深省之处在于它揭示了 LLM 作为一种"模仿引擎"的本质困境。模型通过统计模式匹配学会了生成流畅、连贯、令人信服的文本，但这种能力并不必然与"说真话"的能力绑定。事实上，当一个模型的训练目标是最小化下一词预测损失时，它在面对知识空白时的最优策略往往不是沉默，而是根据语言模式进行"合理的猜测"——而这正是幻觉的计算根源。这一观察促使我思考一个更深层次的问题：如果我们希望 AI 系统不仅是聪明的，而且是诚实的，那么我们是否需要从根本上重新设计其训练目标，将"求真"（truth-seeking）作为一项与"流畅"同等重要的优化目标？还是说，诚实只能作为一种外在约束通过 RLHF 等后训练手段加以施加？这个问题的答案，将深刻影响下一代 AI 系统的架构设计与价值观对齐路径。

笔记创建时间: 2026-04-30
阅读方式: L2 深度阅读

Topics: