2 锯齿状的智能

2023 年秋天，波士顿咨询公司（BCG）的 758 名顾问参加了一场不寻常的实验。他们被随机分成两组：一组可以使用 GPT-4，另一组只能用传统工具。然后，两组人被要求完成一系列真实的咨询任务——市场分析、创意策划、商业计划撰写、数据解读。

结果令人兴奋又令人不安。

在「前沿之内」的任务上——那些 AI 擅长的任务，比如生成创意方案和综合分析——使用 GPT-4 的顾问表现飙升了 40% 以上，完成速度快了 25%。最令人意外的是，原本表现最差的那批顾问获益最大，AI 把他们的表现拉到了接近顶尖顾问的水平。这个发现如此乐观，以至于如果实验到此为止，结论会简单而明确：AI 让所有人变强了。

但实验没有到此为止。研究者设计了另一类任务——表面上看和前一类差不多复杂，但恰好落在 AI 的能力边界之外。在这些任务上，使用 GPT-4 的顾问表现比不使用的反而更差了 19 个百分点。更糟糕的是，他们中的大多数人完全没有意识到 AI 给出了错误的答案。他们信任 AI 的输出，把错误的分析包装成精美的报告提交上去——而没有使用 AI 的同事，凭借自己的判断，反而做得更好 (Dell’Acqua et al. 2023)。

领导这项研究的哈佛商学院教授 Fabrizio Dell’Acqua 和他的团队用了一个生动的比喻来描述这个现象：AI 的能力边界不是一条平滑的、可预测的线，而是锯齿状的（jagged）。在某些任务上，它的表现远超人类专家；在另一些看似相近的任务上，它会犯令人瞠目的低级错误。而且这条锯齿线的形状没有明显的规律——你无法简单地说「AI 擅长 X 类任务、不擅长 Y 类任务」，因为同一类任务中的细微变化就可能让结果天翻地覆。

这就是本章的核心概念：锯齿状的技术前沿（jagged technological frontier）。

上一章解释了 AI 是什么——一台在海量文本上预测下一个词的机器。这一章要回答一个更实际的问题：这台机器在什么时候值得信赖，什么时候会把你引入歧途？答案不是一个简单的分界线，而是一片参差不齐、不断移动的锯齿地带。作为研究者，你需要学会辨认这些锯齿——否则你会在不知不觉中成为 BCG 实验中那些自信地提交了错误报告的顾问。

2.1 不平坦的能力地图

BCG 实验揭示的锯齿现象并非孤例，它反映了大语言模型能力结构的一个根本特征。

要理解为什么 AI 的能力是锯齿状的，先回想上一章的核心原理：大语言模型的本质是在海量文本上学习模式（pattern），然后利用这些模式来预测（生成）新的文本。这个机制决定了它的能力分布必然是不均匀的。

当一个任务恰好与训练数据中大量存在的模式高度吻合时，模型的表现可以极其出色。撰写一封格式规范的学术邮件？训练数据中有成千上万封类似的邮件。总结一篇论文的核心论点？训练数据中有海量的论文摘要和文献综述。生成一段 Python 数据清洗代码？GitHub 上有数百万个类似的代码片段。在这些场景下，AI 几乎就是一个无限耐心、博闻强记的助手，它的输出质量甚至可以超过大多数人类——因为它的「经验」来自整个互联网的文本，比任何个人的阅读量都大出几个数量级。

但当任务偏离了训练数据中常见的模式——哪怕只是微妙地偏离——模型就可能产生一种特殊的失败模式：它仍然生成流畅、自信、看起来完全正确的输出，但内容是错误的。 这是锯齿最危险的地方。如果 AI 在不擅长的任务上直接说「我不会」，问题会小得多。真正的风险在于，它在前沿之内和前沿之外的任务上给出的回答在形式上几乎没有区别——同样流畅、同样自信、同样条理清晰。你无法从回答的「样子」来判断它是否正确。

BCG 实验中的两种策略

Dell’Acqua 等人在研究中观察到使用 AI 的顾问采取了两种截然不同的策略：

半人马策略（Centaur）：像人马一样，在人类判断和 AI 能力之间灵活切换。使用这种策略的顾问会主动判断哪些子任务适合交给 AI、哪些需要自己完成，在两者之间来回转换。

赛博格策略（Cyborg）：像改造人一样，将 AI 深度嵌入每个步骤。使用这种策略的顾问让 AI 参与几乎所有环节，但在每一步都与 AI 的输出进行交互——修改、质疑、补充、重新生成。

两种策略都优于完全不使用 AI 或完全依赖 AI。关键区别在于：两种策略的使用者都保持了自主判断——他们把 AI 当作需要管理的员工，而不是无条件信任的权威 (Dell’Acqua et al. 2023)。

让我用一个学术研究中的具体场景来说明锯齿效应。假设你在做一项关于城市化对健康影响的研究。你请 AI 帮你做以下三件事：

任务一：梳理已有文献的主要发现。 AI 会生成一段结构清晰、逻辑连贯的综述。如果你指定的文献确实存在于它的训练数据中，这段综述大概率是准确的。这是前沿之内的任务。

任务二：为你的研究设计一个识别策略。 AI 可能建议使用双重差分法，利用某个自然实验作为处理。建议本身可能是合理的框架，但它对你具体数据结构的适用性、潜在违反假设的情况、以及该领域审稿人关注的特定方法论陷阱——这些需要深层领域知识的判断——AI 的建议可靠性会大打折扣。这已经接近前沿的边缘。

任务三：判断你的工具变量是否满足排他性约束。 这要求将统计概念与特定研究情境中的因果关系结合起来进行实质性论证——而非形式上的论证。AI 给出的回答几乎必然是教科书式的套话（「需要论证工具变量只通过处理变量影响结果变量」），而不是针对你的具体场景的有力论证。这是前沿之外的任务。

三个任务的难度并非简单递增。任务一和任务三在表面复杂度上可能差不多，但 AI 的可靠性天差地别。这就是「锯齿」的含义——能力边界的起伏不遵循人类直觉中的「简单到困难」的光谱。

理解了锯齿状前沿的宏观图景之后，接下来我们逐一拆解 AI 最容易跌入锯齿低谷的几个关键区域。每一个区域对学术研究者来说都不是抽象的理论风险，而是你在日常使用中极有可能遇到的具体陷阱。

2.2 幻觉：AI 最危险的失败模式

2023 年 6 月，纽约一家联邦法院的法官 P. Kevin Castel 面前放着一份看起来再正常不过的法律文件。律师 Steven Schwartz 在诉状中引用了六个先前的判例来支持他的论点——格式正确、引用完整、案件编号齐全。问题是，这六个判例一个都不存在。它们是 ChatGPT 编造的。更令人啼笑皆非的是，Schwartz 在发现可能有问题之后，又用 ChatGPT 来验证这些案例是否真实——ChatGPT 再次确认它们是真的。

这个事件后来成了 AI 幻觉（hallucination）讨论中被引用最多的案例之一，不是因为它最严重，而是因为它最具戏剧性地展示了幻觉的核心特征：AI 会以完全自信的语气，生成看起来完全合理但事实上完全虚构的内容。

幻觉是什么

在 AI 研究文献中，幻觉指的是模型生成的内容与事实不符或缺乏来源支撑，但在形式上看起来合理且流畅 (Ji et al. 2023)。这个术语借自精神医学，但机制完全不同。人类产生幻觉是因为感知系统出了问题；AI 产生幻觉是因为它的生成机制——预测下一个最可能的词元——本身就不包含「验证事实」这个步骤。

回想上一章的核心原理：大语言模型在生成每一个词元时，做的是一个概率判断——「给定前面的所有文本，下一个词元最可能是什么？」这个过程中没有一个环节是去查证「我说的这句话是否符合现实世界的事实」。模型不是先想好要说什么、然后用语言表达出来；它是一个词一个词地「说」出来，每一步都在做局部最优的概率选择。

这意味着幻觉不是 AI 的「bug」，而是其生成机制的固有特征。当训练数据中某个模式（比如「诺贝尔经济学奖得主通常来自芝加哥大学或 MIT」）恰好与特定问题（「2025 年诺贝尔经济学奖得主是谁？」）匹配时，模型就会基于这个模式生成一个「统计上合理但事实上虚构」的答案。它不是在「撒谎」——它没有「知道真相但选择说假话」的能力。它只是在做它唯一会做的事：根据模式生成文本。

学术研究中的幻觉威胁

对学术研究者来说，幻觉的危害远比让律师引用不存在的判例更加隐蔽。以下是几种最常见的学术幻觉场景。

编造文献引用。 这是最普遍也最容易验证的幻觉类型。你请 AI 推荐某个主题的关键文献，它会给你一个格式完美的参考文献列表——作者名真实存在，期刊名真实存在，标题看起来完全合理，但整篇论文是虚构的。它会把真实作者和真实期刊随机组合，配上一个符合该领域常见主题的标题，创造出一个看起来毫无破绽的引用。

Prompt

请推荐三篇关于双重差分法在教育政策评估中应用的经典文献。

Claude Sonnet 4

以下是三篇经典文献：

Angrist, J. D., & Lavy, V. (1999). “Using Maimonides’ Rule to Estimate the Effect of Class Size on Scholastic Achievement.” Quarterly Journal of Economics, 114(2), 533-575.
Card, D., & Krueger, A. B. (1994). “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania.” American Economic Review, 84(4), 772-793.
Dynarski, S. (2003). “Does Aid Matter? Measuring the Effect of Student Aid on College Attendance and Completion.” American Economic Review, 93(1), 279-288.

这三篇论文分别展示了……

Warning

上面的对话中，第 1 篇和第 2 篇论文确实存在，但第 2 篇（Card & Krueger）使用的是自然实验而非严格意义上的双重差分法来评估教育政策。AI 对文献的「推荐」可能在大方向上正确，但在具体的方法论分类上出现偏差。这种「大致正确、细节有误」的幻觉尤其危险，因为它不会触发你的警惕——你需要逐一回到原文去核实。

原则：AI 推荐的任何文献，在引用之前必须亲自查阅原文确认。

伪造统计数据。 你问 AI 某个领域的市场规模、某项政策的效果数据、或某个社会指标的具体数值，它会毫不犹豫地给你一个精确到小数点的数字。这个数字可能是准确的（如果它在训练数据中见过）、近似的（如果它从相关数据推断）、或完全编造的（如果它没有可靠的来源）——但你从回答的语气中无法区分这三种情况。

错误的因果陈述。 AI 擅长生成因果叙事——「A 导致了 B，因为 C」——但这些陈述往往是从训练数据中的相关性推断出来的，而非基于严格的因果推理。它可能告诉你「城市化导致了心理健康问题的增加」，语气确定，逻辑清晰，但实际上它只是在复述训练数据中这两个概念经常一起出现的模式，而非做了任何因果识别上的判断。

幻觉率有多高？

幻觉率是一个难以精确量化的指标，因为它高度依赖于任务类型、领域和评估标准。但几项研究提供了参考数据。

在事实性问答任务中，即使是最先进的模型，幻觉率也很难降到零。2023 年的一项综述研究系统整理了自然语言生成中的幻觉问题，发现在开放域问答、摘要生成和对话系统中，幻觉是一个普遍存在的现象，且不同任务类型的幻觉率差异很大 (Ji et al. 2023)。在高度依赖事实准确性的任务（如引用特定文献、提供特定数据）中，幻觉率显著高于在更依赖语言组织和模式匹配的任务（如改写段落、生成摘要）中。

一个实用的经验法则是：AI 给出的任何具体事实——日期、数字、引用、人名、事件细节——都应该被视为「需要验证的假设」而非「可以直接使用的事实」。 相比之下，AI 对一般性概念的解释、文本的结构组织、和语言的润色则通常是可靠的。锯齿就在这里：同一段回答中，概念框架可能是正确的，但支撑框架的具体事实可能是编造的。

2.3 推理能力的边界：从惊艳到荒谬

如果说幻觉是 AI 在事实层面的锯齿，那么推理能力的局限则是在逻辑层面的锯齿——而且更加不可预测。

2023 年初，GPT-4 的发布引发了一波「AI 通过人类考试」的热潮。OpenAI 的技术报告显示，GPT-4 在美国律师资格考试（Uniform Bar Exam）中的成绩位于应试者的第 90 百分位数——也就是说，它的表现超过了 90% 的人类考生 (OpenAI 2023)。在美国医学执照考试（USMLE）、GRE 定量推理、AP 课程考试等一系列标准化考试中，GPT-4 的表现同样令人印象深刻。微软研究院的一个团队甚至发表了一篇标题极具煽动性的论文——《通用人工智能的火花》（Sparks of Artificial General Intelligence）——声称 GPT-4 展示了「超越简单记忆和模式匹配的智能迹象」(Bubeck et al. 2023)。

这些成绩是真实的。但它们画出的能力图景是严重不完整的。

模式匹配 vs 真正推理

标准化考试有一个共同特征：它们的题目格式高度稳定，而且大量的备考材料——历年真题、解析、辅导教程——都存在于互联网上。这意味着模型在训练过程中已经「见过」大量与这些考试格式相似的内容。它不需要「理解」法律原则或医学知识来通过这些考试——它只需要识别出题目的模式，然后生成与训练数据中高分答案相似的回答。

这不是在贬低 AI 的成就。在很多实际场景中，模式匹配和「真正理解」的区别并不重要——如果一台机器能持续给出正确答案，不管它是否「真正理解」，它就是有用的。但在学术研究中，这个区别至关重要——因为研究的本质是处理新的、未被充分研究的问题，而这些问题恰恰不在训练数据的常见模式中。

一个简单的思想实验就能暴露这条锯齿线。AI 能轻松解答标准的微积分题目——求导、积分、解微分方程——因为训练数据中有数以万计的教科书和习题解答。但如果你稍微修改题目的措辞方式，或者引入一个非标准的约束条件，AI 的表现可能会骤然下降。它不是「想不到」怎么做，而是它的解题策略本质上是模式匹配：找到训练数据中最接近的题目类型，套用那种题目的解法。当没有足够接近的模式可匹配时，它就会「编造」一种看起来合理的解法——可能在符号和格式上都很正确，但逻辑上是错的。

Prompt

一个猎人向南走了1公里，然后向东走了1公里，再向北走了1公里，回到了出发点。他看到了一只熊。熊是什么颜色的？

GPT-4

熊是白色的。

这是一道经典的地理推理题。猎人能在向南、向东、向北各走1公里后回到出发点，说明他的出发点是北极点。在北极点附近能看到的熊是北极熊，所以是白色的。

AI 能正确回答这道经典谜题，令人印象深刻。但原因很简单：这道题及其解答在互联网上出现过无数次。如果你对题目做一个微小的变形——比如改成「一个人先向北走 1 公里，再向西走 1 公里，再向南走 1 公里，回到了出发点」——AI 可能仍然给出一个自信的答案，但这次的推理很可能是错误的，因为这个变体在训练数据中的出现频率远低于原题。

多步推理的衰减

AI 在推理能力上的另一个关键锯齿出现在推理链的长度上。

对于一步或两步的推理，AI 通常表现不错。但随着推理步骤的增加，每一步中微小的概率性错误会累积起来。这就像一条由多个环节组成的链条——每个环节有 95% 的可靠性听起来很高，但十个这样的环节串联在一起，整体可靠性就降到了 60%（0.95 的 10 次方约为 0.60）。二十个环节串联起来，可靠性只剩 36%。

Dziri 等人 2024 年发表的一项研究系统性地测试了 Transformer 模型在组合性任务（compositional tasks）上的表现，发现随着组合步骤的增加，模型的准确率呈现清晰的下降趋势 (Dziri et al. 2024)。这不是特定模型的缺陷，而是当前 Transformer 架构在处理长链逻辑推理时的一个结构性局限。

对学术研究者来说，这意味着什么？如果你让 AI 帮你做一个简单的统计分析——比如计算两组数据的 t 检验——它大概率是对的。但如果你让它构建一个复杂的论证——从假设出发，经过多步推导，最后得出一个结论——你需要逐步验证每一个中间环节。因为即使每一步看起来都合理，在某个中间步骤出现的微小逻辑跳跃可能已经让后续所有推理都建立在了错误的基础上。

「推理模型」改变了什么？

2024 年以来，OpenAI 的 o1/o3、Anthropic 的 Claude Sonnet/Opus、Google 的 Gemini 等模型引入了「扩展思维」（extended thinking）机制——在生成最终答案之前，模型先进行一段内部推理过程，类似于人类的「打草稿」。

这确实提升了模型在数学、编程和逻辑推理任务上的表现，有时提升幅度是惊人的。但「推理模型」并没有从根本上消除推理的锯齿性——它只是把锯齿线整体向上推了一段。更长、更复杂的推理链仍然面临误差累积的问题。而且，扩展思维带来了一个新的风险：更长的推理过程给了模型更多的「空间」来构造看起来正确但实际有误的论证。 一个简短的错误回答容易被识别；一段分五步展开的精心论证如果在第二步引入了一个微妙的错误，后续三步看起来越合理、越有说服力，你就越难发现那个最初的错误。

数学推理的特殊困境

数学是 AI 推理能力的试金石，也是锯齿线起伏最剧烈的领域之一。

在计算层面，AI 不像你想象的那样可靠。大语言模型不是计算器——它不是通过算术规则来「算出」答案的，而是通过模式匹配来「预测」答案的。对于训练数据中常见的计算（两位数乘法、简单分数运算），它通常能给出正确结果。但对于稍微不常见的计算，它可能给出自信但错误的答案。

在证明层面，AI 能够生成格式正确的数学证明，使用恰当的术语和符号，遵循标准的证明结构。但在涉及创造性洞见的步骤——需要选择一个巧妙的辅助构造、发现一个非显然的等价变换——时，它更多是在尝试套用训练数据中见过的证明技巧，而非真正地「发现」新的数学关系。

另外一项研究揭示了一个更深层的局限：大语言模型在自我纠错方面存在系统性困难 (Huang et al. 2024)。当模型在推理过程中犯了一个错误时，如果你简单地要求它「检查一下你的推理」或「再想想」，它往往无法识别出自己的错误——有时甚至会把原本正确的答案改成错误的。这是因为自我纠错本身就是一个推理任务，而模型的推理能力正是有局限的那个环节。

2.4 偏见：系统性的倾斜

锯齿的第三个关键维度不是关于「对」或「错」，而是关于系统性的倾斜。一个回答可能在事实上没有明显错误，但在视角、选择和强调上存在系统性的偏差——而这种偏差恰恰是最难被发现的，因为它不会以「错误」的面目出现。

训练数据的镜子

大语言模型的知识来自训练数据，而训练数据来自互联网。互联网上的文本不是对人类知识的均匀采样——它在语言、地域、学科、观点和时间上都有严重的偏差 (Bender et al. 2021)。

语言偏差。 互联网文本以英语为主导。虽然中文是互联网上使用量第二大的语言，但英文内容在体量和多样性上仍然占据压倒性优势。这意味着 AI 在处理英文内容时的准确性和深度，系统性地优于处理中文内容时的表现。如果你用英文和中文分别向 AI 询问同一个学术问题，你很可能会得到质量不同的回答——不是因为模型「歧视」中文，而是因为它在英文学术文本上的训练量远大于中文。

对于使用中文从事学术研究的人来说，这带来了一个实际问题：AI 对中文学术文献的覆盖和理解往往不如英文文献。 它可能对英文的计量经济学教科书了如指掌，但对中文期刊上的同类研究相对陌生。如果你让它帮你综述中国学者在某个领域的贡献，遗漏的风险显著高于综述英文文献时的情况。

引用偏差。 训练数据中被引用最多的论文和最知名的学者在 AI 的回答中会被过度代表。如果你让 AI 推荐某个领域的重要文献，它倾向于给出引用量最高的论文——这些论文当然重要，但它们不一定代表该领域的最新进展或最多元的视角。年轻学者的工作、来自非主流机构的研究、发表在影响因子较低但学术质量同样严谨的期刊上的论文——这些在 AI 的推荐中系统性地被低估。

观点偏差。 AI 的回答倾向于反映训练数据中的主流观点。在存在学术争论的问题上，AI 不会像一个真正的专家那样客观地呈现各方论点的优劣——它会倾向于更多地呈现在训练数据中出现频率更高的那一方。如果某个研究领域存在美国学界主导的范式和欧洲学界更常采用的替代范式，AI 的回答很可能不自觉地偏向美国范式——不是因为它做了价值判断，而是因为美国学界产出的英文文本在训练数据中占据了更大的份额。

偏见在研究中的传导

Weidinger 等人对语言模型的风险进行了系统性的分类，其中偏见和歧视被列为核心风险之一 (Weidinger et al. 2022)。对学术研究者来说，偏见的传导路径往往是间接而隐蔽的。

想象这样一个场景：你正在做一项跨国比较研究，用 AI 来辅助文献综述和框架构建。AI 推荐的文献以英文文献为主，你据此构建了研究框架。这个框架可能不自觉地反映了英语学术圈偏好的理论视角和方法论路径——不是因为你有意选择了某个学术传统，而是因为 AI 的信息来源本身就存在偏差。你的研究设计因此带上了一层你可能从未意识到的系统性倾斜。

Gary Marcus 在《The Next Decade in AI》中更广泛地讨论了这一问题 (Marcus 2020)。他指出，基于统计学习的 AI 系统天然地会放大训练数据中的模式——包括那些反映社会偏见的模式。在学术研究的语境下，这意味着 AI 不仅可能在推荐文献时引入偏差，还可能在数据解读、论证构建和结论生成的各个环节引入系统性的倾斜。

偏见的隐蔽性

AI 偏见最危险的特征是它的隐蔽性。事实错误是离散的——你可以逐条检验，发现一个是一个。但偏见是弥漫性的——它不体现在任何一个具体的错误上，而是体现在整体的取向上。一篇由 AI 辅助撰写的文献综述可能每一句话都在事实上正确，但整体上系统性地忽略了某些视角、某些学术传统、某些研究群体的贡献——而你如果没有意识到这种系统性遗漏，就无法发现问题。

实用建议：当你使用 AI 辅助文献综述时，主动追问「这个主题有没有非英语世界的重要研究？」「有没有挑战主流观点的文献？」「有没有使用完全不同方法论的研究？」——强迫 AI 去覆盖它默认会忽略的角落。

2.5 自我纠错的幻觉

到目前为止，你可能在想：既然 AI 会犯这些错误，那我把它的回答再丢给它让它自己检查，不就行了？

这个直觉听起来合理，但 Huang 等人 2024 年的研究给出了一个令人警醒的结论：大语言模型在没有外部反馈的情况下，无法可靠地自我纠正推理错误 (Huang et al. 2024)。

这个发现值得仔细理解，因为它推翻了很多人关于 AI 使用的一个核心假设。

实验是这样设计的：让模型先解决一个推理问题，然后要求它「检查自己的答案并纠正任何错误」。结果发现，在没有外部信息（如正确答案的提示、其他工具的验证结果）的情况下，模型的「自我纠正」不仅没有提高准确率，在某些情况下反而降低了准确率——模型把原本正确的答案「纠正」成了错误的答案。

Prompt

请检查以下计算是否正确：427 × 38 = 16,226

Claude Sonnet 4

让我验证这个计算。

427 × 38

= 427 × 40 - 427 × 2 = 17,080 - 854 = 16,226

计算正确！427 × 38 = 16,226 ✓

Warning

上面的对话中，正确答案确实是 16,226（427 × 38 = 16,226）。但重点不在于这个具体例子的对错，而在于 AI 进行验证的方式——它不是通过独立的计算来检验，而是通过重新走一遍类似的推理路径。如果原始推理有误，验证推理很可能犯同样的错误，因为两者使用的是同一个模型、同样的推理机制。

这就像让同一个人阅卷两次——如果他第一次因为知识盲区而判错，第二次大概率还是会判错。真正的验证需要独立的信息源。

为什么 AI 不能可靠地自我纠错？原因回到了上一章的核心原理：模型的所有能力——包括「检查错误」的能力——都来自同一套模式匹配机制。用同一套有局限的机制来检查这套机制本身产出的结果，在逻辑上就是循环的。这不像人类可以通过「换一个思路」或「从不同角度审视」来发现自己的错误——人类拥有元认知（metacognition）能力，能够真正地反思自己的思维过程。AI 没有这种能力。它的「反思」只是又一次生成，遵循同样的统计规律。

这个发现对研究者的含义是直接的：不要把「让 AI 检查 AI」当作可靠的质量保证手段。 如果你需要验证 AI 的输出，你需要的是外部的、独立的验证——查原始文献、用不同的计算工具重新算、请领域专家审阅、或者自己从第一性原理出发推导。

2.6 研究者的防范策略

理解了 AI 在事实（幻觉）、推理（逻辑局限）、视角（偏见）和自检（自我纠错失效）四个维度上的锯齿之后，一个自然的问题是：那我该怎么用 AI？

答案不是「不用」，正如 BCG 实验所展示的，在前沿之内的任务上，AI 带来的提升是巨大的。答案是建立精确的信任校准——知道什么时候可以信任、什么时候必须验证、以及如何高效地验证。

策略一：建立任务分类直觉

作为研究者，你可以把与 AI 互动的任务大致分为三个信任层级：

高信任区（前沿之内）： 这些任务的特征是——标准化程度高、训练数据中有大量类似案例、且输出的正确性容易验证。

代码生成和调试（特别是常见编程语言的常见操作）
文本润色和语法修正
标准格式转换（如 APA 转 Chicago 引用格式）
概念解释和教程生成
头脑风暴和创意激发
常见统计方法的实现

中等信任区（前沿边缘）： 这些任务涉及一定程度的判断和综合，AI 的输出通常有参考价值但需要人类审核。

文献综述的初始框架
研究设计的初步建议
数据分析结果的初步解读
论文草稿的结构建议

低信任区（前沿之外）： 这些任务要求深层领域知识、创造性洞见或实质性的因果判断，AI 的输出应被视为「需要严格验证的假设」。

具体文献引用的准确性
具体数据和统计数字的准确性
因果关系的实质性判断
研究创新点的评估
领域特定的方法论选择
对研究局限性的深层分析

快速判断法

面对 AI 给你的一个回答，问自己一个问题：「如果这是一个聪明但不了解我的具体研究领域的研究生写的，我会直接用吗？」

如果答案是「会」——比如一段格式规范的代码或一份清晰的概念解释——那大概率可以信任。如果答案是「我会让他去查证一下」——比如一个具体的文献引用或一个统计数字——那你也应该去查证。如果答案是「这需要我自己来判断」——比如研究设计的核心决策——那 AI 的建议只能作为参考。

这个比喻之所以有效，是因为 AI 在很多方面确实像一个聪明但缺乏深度领域经验的研究生：知识面广、执行力强、格式规范，但在需要深层专业判断的地方不可靠。

策略二：建立验证习惯

验证不需要花很多时间，但需要成为一种自动的习惯——就像开车时自动系安全带一样，不用每次都想「今天需不需要系」。

文献验证：AI 给你的任何文献引用，至少在 Google Scholar 或你的学科数据库中搜索一下。这个动作只需要 10 秒，但可以避免引用不存在的论文这种灾难性错误。

数据验证：AI 给你的任何具体数字——百分比、金额、年份、统计量——追溯到原始来源。要求 AI 提供数据来源，然后自己去核实。

逻辑验证：对于 AI 给出的多步论证，不要只看最终结论。回到每一个中间步骤，问自己「这个推导是否成立？」。在纸上或在自己的脑海中独立走一遍推理链。

视角验证：对于 AI 辅助的文献综述或分析框架，主动问自己「它遗漏了什么视角？」。这是最难养成的习惯，因为你需要知道什么被遗漏了——而「不知道自己不知道什么」恰恰是偏见最危险的地方。一个实用的做法是主动向 AI 追问反面观点：「对于你刚才的分析，最强的反驳论点是什么？」

策略三：让 AI 暴露不确定性

默认情况下，AI 的训练让它倾向于给出自信的回答。但你可以通过提示词设计来改变这种倾向。

Prompt

请回答以下问题，但遵循这些规则： 1. 如果你不确定某个事实，明确标注为「不确定，需要验证」 2. 如果你引用文献，说明你对这条引用准确性的信心程度 3. 区分你的「确定的知识」和「基于推理的判断」 4. 如果存在不同观点，呈现各方立场而非只给一个结论

这种提示词不能保证 AI 真的会准确报告自己的不确定性——因为它本身就不可靠地「知道自己知道什么」——但它至少能在输出的形式上引入更多的对冲和限定，降低你无条件接受结论的可能性。

策略四：使用外部工具验证

正如我们讨论的，让 AI 检查 AI 不可靠。但你可以使用外部工具来验证 AI 的特定输出。

计算验证：AI 给出的数学计算，用 Python、R、Wolfram Alpha 或简单的计算器重新验证。
代码验证：AI 生成的代码，实际运行它，用测试用例检验。
文献验证：AI 推荐的文献，在 Google Scholar、Semantic Scholar 或学科数据库中查证。
事实验证：AI 陈述的事实，在原始来源（官方统计数据库、原始论文、机构报告）中核实。

这里的核心原则是：验证工具必须独立于被验证的系统。 用同一个 AI 来验证它自己的输出是循环论证；用一个独立的计算工具来验证它的计算、用一个独立的数据库来验证它的引用，才是真正有效的验证。

策略五：在团队中交叉使用

如果你在一个研究团队中工作，一个实用的策略是让不同成员使用 AI 分别独立生成同一任务的输出，然后比较差异。两个人分别让 AI 做文献综述，得到的结果如果高度一致，可信度较高；如果有显著差异，差异本身就指向了需要深入核实的地方。

这个策略的效果之所以好于「让同一个人反复问 AI」，是因为不同的人会用不同的方式提问、提供不同的上下文、关注不同的细节——这种多样性可以在一定程度上弥补 AI 单次输出中的盲区。

2.7 校准你的信任

让我们回到本章开头的 BCG 实验。那项研究最深刻的发现不是「AI 在某些任务上好、在另一些任务上差」——这是任何工具都有的特征。真正深刻的发现是：使用 AI 的人在 AI 犯错时，表现反而不如不使用 AI 的人。

这意味着 AI 不是一个中性的工具——它不仅在失败时无法帮助你，还会主动地把你拽向错误的方向。原因很简单：当一个权威性的、流畅的、自信的声音告诉你一个答案时，你的独立判断力会被削弱。你需要更大的认知努力来质疑一个看起来专业的答案，而不是从头自己思考。这就是自动化偏见（automation bias）——人类倾向于接受自动化系统的建议，即使这些建议与自己的判断相矛盾。

BCG 实验中表现最好的不是完全不用 AI 的人，也不是无条件信任 AI 的人，而是那些能够精准校准信任的人——他们在 AI 擅长的任务上充分利用 AI 的优势，在 AI 不擅长的任务上保持独立判断，并且能够准确区分这两种情况。

这就是本章的核心信息：AI 的能力边界是锯齿状的，而你的任务是学会这条锯齿线的大致形状。 不是要求你精确知道每一个锯齿的位置——那是不可能的，因为锯齿线在持续移动——而是要建立一种直觉，一种「这个输出需不需要我花额外的精力验证」的自动判断。

这种判断力不是一次性获得的，而是在使用中逐渐校准的。每一次你发现 AI 犯了一个你没有预期到的错误，你的锯齿地图就更新了一次。每一次你发现 AI 在一个你以为很难的任务上表现出色，你的地图同样更新了一次。这个持续校准的过程本身，就是本书第一部分「建立判断力」的核心目标。

让我用一个清单来总结本章的要点：

AI 的能力边界是锯齿状的，不是平滑的。 它可能在一个复杂任务上表现惊艳，紧接着在一个看似简单的任务上犯低级错误。不要从一个任务上的表现推断另一个任务上的表现。
幻觉是 AI 的固有特征，不是 bug。 AI 会自信地编造文献、数据和事实。任何具体的事实性陈述都需要独立验证。
AI 的推理能力强于模式匹配，弱于真正的逻辑推导。 在标准化格式的问题上表现好，在需要创造性洞见或长链推理的问题上表现不稳定。
AI 继承并可能放大训练数据中的偏见。 包括语言偏差、引用偏差和观点偏差。在使用 AI 辅助研究时，需要主动追问被遗漏的视角。
AI 不能可靠地自我纠错。 「让 AI 检查 AI」不是可靠的质量保证手段。真正的验证需要独立的外部信息源。
建立精准的信任校准是关键。 不是不用 AI，也不是无条件信任 AI，而是知道什么时候信任、什么时候验证。

既然 AI 有这样一条复杂的、不断移动的锯齿状能力边界，一个紧迫的实际问题随之而来：面对市场上数以百计的 AI 工具——每一个都声称能「革命性地提升你的研究效率」——你该如何评估它们、选择它们、以及避免被它们的营销话术误导？这正是下一章「遍地神灯的时代」要回答的问题。

Bender, Emily M., Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23. https://doi.org/10.1145/3442188.3445922.

Bubeck, Sébastien, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, et al. 2023. “Sparks of Artificial General Intelligence: Early Experiments with GPT-4.” arXiv Preprint arXiv:2303.12712. https://arxiv.org/abs/2303.12712.

Dell’Acqua, Fabrizio, Edward McFowland III, Ethan R. Mollick, Hila Lifshitz-Assaf, Katherine Kellogg, Saran Rajendran, Lisa Krayer, François Candelon, and Karim R. Lakhani. 2023. “Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality.” Harvard Business School Technology & Operations Mgt. Unit Working Paper, no. 24-013. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321.

Dziri, Nouha, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Sean Welleck, et al. 2024. “Faith and Fate: Limits of Transformers on Compositionality.” In Advances in Neural Information Processing Systems. Vol. 36. https://arxiv.org/abs/2305.18654.

Huang, Jie, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, and Denny Zhou. 2024. “Large Language Models Cannot Self-Correct Reasoning Yet.” arXiv Preprint arXiv:2310.01798. https://arxiv.org/abs/2310.01798.

Ji, Ziwei, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, and Pascale Fung. 2023. “Survey of Hallucination in Natural Language Generation.” ACM Computing Surveys 55 (12): 1–38. https://doi.org/10.1145/3571730.

Marcus, Gary. 2020. “The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence.” arXiv Preprint arXiv:2002.06177. https://arxiv.org/abs/2002.06177.

OpenAI. 2023. “GPT-4 Technical Report.” OpenAI. https://arxiv.org/abs/2303.08774.

Weidinger, Laura, Jonathan Uesato, Maribeth Rauh, Conor Griffin, Po-Sen Huang, John Mellor, Amelia Glaese, et al. 2022. “Taxonomy of Risks Posed by Language Models.” Proceedings of the 2022 ACM Conference on Fairness, Accountability, and Transparency, 214–29. https://doi.org/10.1145/3531146.3533088.