4 思考不能外包

AI 可以在几秒钟内生成一份文献综述的初稿、推荐一种统计方法并给出实现代码、把一段粗糙的草稿改写成流畅的学术英语。这些能力是真实的，前几章已经详细讨论过。但一个随之而来的问题是：当研究者把越来越多的学术工作交给 AI 时，他是在提高效率，还是在放弃某种不应该放弃的东西？

这个问题不是抽象的。一个让 AI 生成文献综述的研究者，在答辩或审稿时被追问某篇引用文献的具体方法论，可能发现自己答不上来——因为他没有真正读过那篇论文。一个让 AI 推荐统计方法的研究者，被问到为什么不用另一种方法时，可能无法给出有说服力的理由——因为他从未亲自权衡过不同方法的利弊。这类情况正在变得越来越常见。

前三章我们讨论了 AI 是什么、它的能力边界在哪里、以及如何在众多工具中选择。这一章要讨论一个更根本的问题：即使 AI 能替你做某件事，你是否应该让它做？ 这个问题的答案，决定了 AI 对你的学术生涯是助力还是阻力。

4.1 认知外包的诱惑

把原本需要自己思考的任务交给外部工具，心理学上有一个精确的术语：认知外包（cognitive offloading）(Risko and Gilbert 2016)。

认知外包不是 AI 时代的发明。你用计算器算积分，是把计算外包了。你用搜索引擎查找一个你记不清的概念，是把记忆检索外包了。你用 GPS 导航去一个去过很多次的地方，是把空间记忆外包了。每一次认知外包都涉及同一个交换：你放弃了亲自执行某个认知过程的机会，换取了效率的提升。

这些交换大多数时候是划算的。没有人会主张你应该放弃计算器，用手算线性代数。

但 AI 带来的认知外包，在性质上和之前的所有工具都不同。

计算器替你做的是计算——一个规则明确、不需要判断的过程。搜索引擎替你做的是检索——帮你找到信息，但理解和判断仍然是你的事。GPS 替你做的是导航——规划路线，但你仍然需要做驾驶决策。

AI 替你做的，可以是思考本身。

当你让 AI 帮你「分析」一个研究问题，它不只是检索相关信息，它会组织论证、提出假设、甚至给出结论。当你让 AI 帮你「写」一段论述，它不只是纠正语法，它会构建逻辑、选择论据、决定叙述策略。当你让 AI 帮你「评估」一篇论文，它不只是提取关键信息，它会做出质量判断、指出方法论问题、提供改进建议。

这些都是需要深度思考的任务。而现在，你可以在几秒钟内把它们全部外包出去。

诱惑是巨大的。你面对一个复杂的研究设计问题，想了半小时没有头绪。打开 AI，输入问题描述，30 秒后得到一个结构清晰、论证完整的回答。这个回答可能比你自己苦思冥想的结果更好——至少在表面上看起来更好。

问题在于：在这个过程中，你没有思考。你做的事情更接近于阅读，而不是思考。你读了 AI 的回答，觉得「嗯，有道理」，然后就把它当成了自己的理解。但「觉得有道理」和「真正理解」之间有一条深深的鸿沟。

认知外包的隐性成本

认知外包最危险的地方在于：它的成本是隐性的、延迟的、累积的。你今天让 AI 替你想了一个问题，当下什么都没失去——甚至还节省了时间。但你失去了一次锻炼思考能力的机会。一次不算什么。但当这成为习惯，当你在每一个「想不出来」的时刻都转向 AI 而不是继续自己想，你正在系统性地剥夺自己最重要的训练机会。这就像一个运动员每次觉得累了就让别人替他跑——他的成绩不会在一天之内下降，但六个月后他会发现自己跑不动了。

这就引出了一个关键问题：什么时候外包是效率提升，什么时候外包是能力退化？要回答这个问题，我们需要先理解为什么「自己想」这件事本身有着不可替代的价值。

4.2 思考的不可替代性

1978 年，心理学家 Slamecka 和 Graf 发表了一项看起来简单但影响深远的实验研究 (Slamecka and Graf 1978)。他们让两组被试学习同一批词对（如 rapid - f___）。一组人直接看完整的词对（rapid - fast），另一组人需要自己根据提示补全第二个词。结果，自己补全答案的那组人在后续记忆测试中的表现显著优于直接阅读答案的那组。

这个现象被称为生成效应（generation effect）：自己产生答案——即使过程更费力、更慢、甚至有时会出错——比被动接收答案能形成更深的记忆和理解。

生成效应不仅仅是一个关于记忆的发现。后续几十年的研究表明，主动生成的认知过程会激活更深层次的语义加工，建立更丰富的知识关联，并促进向新情境的迁移。简而言之：自己想过的东西，才真正变成了你的知识。

与此相关的是 Bjork 提出的必要难度（desirable difficulty）理论 (Bjork 1994)。这个理论指出，学习过程中的某些困难——比如需要费力回忆、需要在不同的时间间隔重复学习、需要在没有提示的情况下自己解决问题——实际上是深度学习的必要条件。消除这些困难不是在帮助学习者，而是在制造一种虚假的流畅感。

让我们把这些认知科学的发现放到学术研究的语境中。

假设你正在做一个文献综述。传统方式：你一篇一篇地读论文，做笔记，在脑子里慢慢建立起一个领域的知识图谱——谁做了什么、用了什么方法、得出了什么结论、存在什么争议。这个过程很慢，很辛苦，有时候很无聊。但在这个过程中，你在做一件至关重要的事：你在构建自己对这个领域的理解。你知道哪些论文重要、哪些不重要，因为你亲自读过并做了判断。你知道不同学者之间的分歧在哪里，因为你在阅读中感受到了这些张力。你知道什么问题还没有被回答，因为你在反复阅读中发现了空白。

现在换一种方式：你把几十篇论文的 PDF 上传给 AI，让它生成一份文献综述。五分钟后你得到了一份结构清晰、引用完整的综述。看起来很好。但在这个过程中，你跳过了所有那些「必要的困难」——阅读、比较、质疑、整合。你得到了一份文献综述的文本，但你没有获得做文献综述的认知收益。

Daniel Kahneman 在《思考，快与慢》中区分了两种认知模式 (Kahneman 2011)：系统一（快思考）是自动的、直觉的、不费力的，比如识别人脸或判断一个常见词的意思；系统二（慢思考）是有意识的、分析的、费力的，比如评估一个复杂论证的逻辑或设计一个研究方案。

AI 擅长的，本质上是模式匹配——它见过大量的文本模式，能快速从中提取和组合相关内容。这更接近系统一的运作方式。而学术研究中最核心的能力——提出好的研究问题、构建理论框架、评估证据的可靠性、在不确定的情况下做出判断——这些都是系统二的领地。

研究的价值不在于最终产出的文本，而在于产出那些文本的思考过程。 让 AI 替你做文献综述，就像让别人替你做体检——你拿到了一份报告，但你的身体状况并没有因此改善。

这个道理在写作中体现得尤为明显。Flower 和 Hayes 在 1981 年提出的写作认知过程理论 (Flower and Hayes 1981) 指出，写作不仅仅是把已经想好的内容记录下来——写作本身就是思考的过程。当你试图把一个模糊的想法写成连贯的段落时，你被迫把隐含的假设说清楚、把逻辑漏洞填补上、把不同的论点组织成一个有说服力的论证。很多研究者有过这样的经验：写着写着突然发现自己之前的想法是错的，或者在写的过程中想到了一个之前从没想到的角度。

这不是写作的副产品。这就是写作的核心价值。

当你让 AI 替你写一段论述，你丢失的不仅仅是文字——你丢失了在写作过程中可能发生的那些「写着写着想明白了」的思考时刻。AI 给你的是一段流畅的文本；你自己写（哪怕写得磕磕绊绊）得到的是一段文本加上更深的理解。

一个简单的测试

下次当你准备让 AI 帮你写一段内容时，先试试自己写。不需要写得好，甚至不需要写得完整——先把你脑子里的想法用最粗糙的方式写下来，哪怕只是几个要点、几个不完整的句子。然后再让 AI 在你的草稿基础上帮你改进。你会发现，这个「先自己想、再让 AI 帮忙」的顺序和「直接让 AI 写」产生的结果有天壤之别——因为在第一种方式中，思考发生了。

4.3 学术能力的「肌肉萎缩」

Nicholas Carr 在 2010 年出版的《浅薄》（The Shallows）中提出了一个令人不安的论点：互联网不仅仅改变了我们获取信息的方式，它正在改变我们大脑的结构 (Carr 2010)。频繁的超链接跳转、碎片化的阅读、不断涌入的通知——这些不只是让我们「分心」，而是在重塑我们的注意力模式和深度思考能力。

2011 年，Sparrow 等人在 Science 上发表的一项实验为这个论点提供了证据 (Sparrow, Liu, and Wegner 2011)。他们发现，当人们知道信息可以通过搜索引擎轻松获取时，他们对这些信息的记忆程度会显著降低——大脑似乎在说：「既然 Google 记得，我就不需要记了。」这被称为Google 效应（Google effect）或数字失忆（digital amnesia）。

如果搜索引擎对记忆有这样的影响，那么 AI 对思考能力的影响可能更加深远。因为 AI 外包的不只是记忆和检索，而是分析、判断和推理本身。

让我们具体看看，在学术研究的各个环节中，过度依赖 AI 可能导致哪些能力的退化。

文献阅读能力

一个经验丰富的研究者拿到一篇论文，通常能在 10 到 15 分钟内判断出这篇论文的质量如何、方法是否可靠、结论是否站得住脚。这种能力不是天赋，而是在阅读了几百篇论文之后逐渐形成的直觉——一种经过大量刻意练习训练出来的模式识别能力。

如果你从一开始就让 AI 替你总结论文、提取关键信息、甚至评估论文质量，你就永远不会发展出这种直觉。你可能知道一篇论文「AI 说是好的」，但你不知道为什么好、好在哪里、有什么局限性。当你遇到一篇 AI 没有见过的新方法论或一个存在微妙问题的研究设计时，你会无所适从。

方法论判断力

选择研究方法不是一个机械的决策。它需要你理解不同方法的假设前提、适用条件和局限性，需要你判断你的数据结构和研究问题是否适合某种方法，需要你预见可能的反驳并准备好回应。

如果你习惯了让 AI 推荐方法、生成代码、解释结果，你的方法论判断力会逐渐弱化。你可能能跑出正确的模型，但无法解释为什么选择这个模型而不是那个。你可能能得到统计显著的结果，但无法判断这个结果在实质上是否有意义。

一个研究者使用了 AI 推荐的多层次模型，但在被问到为什么不用固定效应模型时无法回答——这不是因为他不够聪明，而是因为他从未经历过自己权衡不同方法、做出选择、论证选择合理性的过程。

写作能力

学术写作是一项需要大量练习才能掌握的技能。清晰的逻辑结构、精确的术语使用、有效的论证策略、恰当的语气和风格——这些都需要通过反复的写作和修改来培养。

如果你从研究生阶段就开始依赖 AI 润色或代写，你的写作能力不是会退步——它可能从未真正建立起来。你可能能提交一份「看起来写得不错」的论文，但那份论文中的表达能力是 AI 的，不是你的。当你需要在学术会议上即兴回应提问、在没有 AI 辅助的情况下写一封重要的邮件、或者在审稿时用精确的语言指出一篇论文的问题时，能力的缺失就会暴露出来。

批判性思维

批判性思维是学术研究的灵魂。它要求你不断质疑：这个假设成立吗？这个证据充分吗？这个推理有漏洞吗？有没有替代解释？有没有我忽略的因素？

AI 的回答通常结构清晰、论证完整、语气自信——这些特征恰恰让人容易降低批判性审视的意愿。当一个回答看起来「很专业」的时候，你需要更多的认知努力才能去质疑它。如果你习惯了接受 AI 的分析和结论，你的质疑反射会变得迟钝。

对博士生的特别提醒

上面讨论的所有风险，对处于学术训练阶段的研究者——特别是博士生——影响最大。原因很直接：一个教授在使用 AI 时，他的文献阅读能力、方法论判断力、写作功底和批判性思维已经经过了二十年的锻炼和积累。AI 对他来说是省力的工具，因为他有能力判断 AI 的输出是否正确、是否完整、是否适用。

但如果一个博士生在这些能力尚未成熟时就大量依赖 AI，情况就完全不同了。他不是在「用 AI 节省已有能力的时间」，而是在跳过能力建设的过程本身。就像一个刚开始学开车的人直接使用自动驾驶——他可以到达目的地，但他永远学不会开车。

博士阶段是学术能力建设的关键窗口期。在这个阶段被跳过的训练，往后很难补回来。

你可能会想：「但 AI 的能力会越来越强，也许未来这些能力真的不需要了呢？」

这个想法值得认真对待。确实，如果 AI 最终能可靠地完成所有这些任务，那么人类掌握这些能力的必要性就会降低——就像我们不再需要掌握算盘的使用技巧一样。但有两个理由让我认为这个类比不成立。

第一，学术研究的核心不是执行标准化的任务，而是在不确定性中做出判断、在未知的领域中提出新问题。这些任务的本质决定了它们没有标准答案可供 AI 学习。正如我们在第二章讨论的，AI 的能力边界恰恰在面对真正的新颖性和不确定性时最为脆弱。

第二，也是更重要的，这些能力不只是「工具」——它们定义了你作为研究者是谁。一个无法独立阅读和评估文献的研究者、一个不理解自己所用方法的研究者、一个不能独立写出连贯论述的研究者——即使他能借助 AI 产出看起来合格的论文，他也不是一个真正的研究者。这不是关于效率的问题，而是关于身份和意义的问题。

4.4 划定边界：什么该交给 AI，什么不该

承认思考不能外包，并不意味着拒绝使用 AI。关键是划定一条清晰的边界。

一个实用的框架是区分执行性任务和思考性任务。

执行性任务是那些规则明确、不需要（或只需要很少）专业判断的任务。它们通常有一个「正确」的结果，你能轻松地验证 AI 的输出是否达标。这类任务非常适合交给 AI：

格式转换：把参考文献从一种引用格式转换到另一种
语法和拼写检查：纠正英文论文中的语法错误
代码调试：找出代码中的语法错误或运行时错误
数据清洗：处理缺失值、标准化变量名、合并数据集
文献检索：根据关键词搜索相关论文
翻译：把论文摘要从中文翻译成英文（然后你自己审核和修改）
排版和可视化：生成图表、调整格式、制作幻灯片模板

思考性任务是那些需要深度理解、专业判断和创造性思维的任务。它们通常没有唯一的「正确」答案，AI 的输出质量难以简单地验证。这类任务不应该完全外包给 AI：

研究问题的提出：什么问题值得研究？为什么这个问题重要？
理论框架的构建：用什么理论来组织和解释你的发现？
方法论的选择与论证：为什么用这个方法而不是那个？
结果的解释：数据告诉你什么？哪些发现是预期之内的、哪些是意外的？
论文的核心论述：你的主要论点是什么？你如何说服读者？
对现有文献的批判性评价：这篇论文的逻辑有没有问题？这个领域的共识是否合理？

当然，现实中的任务很少能整齐地归入其中一类。大多数学术任务同时包含执行和思考的成分，是一个需要你仔细拆分的灰色地带。

以文献综述为例。搜索文献——这是执行性任务，AI 可以帮你快速找到相关论文。提取每篇论文的基本信息（作者、年份、方法、主要发现）——这也偏向执行性。但是，判断哪些论文值得深入阅读、识别不同研究之间的联系和矛盾、发现文献中的空白和趋势、形成你自己对这个领域的理解——这些是思考性任务，不应该外包。

再以数据分析为例。清洗数据、生成描述性统计、画初步的图表——这些是执行性任务。但选择分析策略、解释回归系数的实质含义、判断结果的稳健性、思考替代解释——这些需要你自己来做。

一个有用的拆分方法：问自己这个问题——如果有人就这部分内容追问我，我能否不借助 AI 给出一个令人信服的回答？ 如果答案是「能」，那么这部分用 AI 帮忙是安全的。如果答案是「不能」，那你需要在这里投入自己的思考。

「AI 辅助」和「AI 替代」的区别

区分这两个概念，对于正确使用 AI 至关重要。

AI 辅助（AI-assisted）：你在主导，AI 在帮忙。你有自己的想法，用 AI 来加速执行、发现盲点、验证思路。思考的方向和最终的判断是你的。

AI 替代（AI-replaced）：AI 在主导，你在旁观。你把一个任务完整地交给 AI，接受它的输出，很少质疑或修改。思考——如果有的话——是 AI 的。

同一个工具、同一个任务，用法不同，性质就完全不同。让 AI 帮你检查论证中的逻辑漏洞是辅助；让 AI 替你写论证是替代。让 AI 帮你找到一篇你不知道的重要论文是辅助；让 AI 替你读论文并做评价是替代。区别不在于 AI 参与了多少，而在于你的思考参与了多少。

4.5 学术诚信的新边界

当 AI 能够生成看起来像「你写的」文本时，学术诚信的传统边界变得模糊了。

传统的学术不端行为——抄袭、伪造数据、篡改结果——有相对明确的定义。你复制了别人的文字而不注明来源，这是抄袭。你编造了不存在的实验数据，这是伪造。但 AI 制造了一个全新的灰色地带：你让 AI 生成了一段文字，然后署上了自己的名字。这算什么？

这个问题在 2023 年引发了全球学术界的激烈讨论。2023 年初，Nature 发表社论明确表态 (Nature Editorial 2023)：AI 工具如 ChatGPT 不能被列为论文作者，因为它们无法对论文内容承担责任。同时，Nature 要求作者在论文中透明地披露 AI 工具的使用方式。Science 走得更远，一度禁止在投稿论文中使用 AI 生成的文本。

到 2025 年，学术界的共识逐渐明晰。大多数主要期刊和学术机构接受了一个基本原则：关键不是你是否使用了 AI，而是你是否透明地披露了使用方式，以及你是否能对论文中的所有内容承担学术责任。

这个原则意味着几件事。

第一，透明性是底线。如果你使用了 AI 来辅助写作、分析数据或生成代码，你需要在论文的方法部分或致谢中说明。不需要事无巨细地列出你对 AI 说了什么，但需要说明 AI 在哪些环节发挥了什么作用。

第二，作者必须对论文的全部内容负责。你可以使用 AI 辅助写作，但你需要理解论文中的每一个论点、每一个方法选择、每一个数据解释。如果你无法解释论文中的某个部分——比如为什么选择了某种统计方法、某段论述的逻辑依据是什么——那么你就没有真正履行作者的责任。

第三，AI 不能是作者。作者身份意味着对论文的知识贡献和对内容的最终责任，AI 无法承担这些。这不是一个技术问题——将来的 AI 可能足够强大到能独立完成高质量的研究——而是一个关于学术责任归属的原则问题。

各期刊的 AI 政策在快速变化

截至 2026 年初，主要学术期刊对 AI 使用的政策仍在不断更新。一些共同趋势包括：要求在方法部分披露 AI 使用；禁止将 AI 列为作者；对 AI 生成内容的验证提出更高要求。但具体细节——比如是否允许 AI 辅助数据分析、是否要求提交 AI 对话记录、是否对不同类型的 AI 使用有不同要求——各期刊的规定差异很大。在投稿前，务必查阅目标期刊的最新 AI 使用政策。

在制度和政策之外，有一个更简单、更个人化的自检标准。我建议你在每次提交论文或回复审稿意见之前，问自己这个问题：

如果审稿人或答辩委员会问我「这段分析/论述/方法选择是你自己做的还是 AI 做的」，我能否诚实且自信地回答？

注意，这里不是要求你说「AI 没有参与任何环节」。完全不用 AI 在今天既不现实也无必要。这里要求的是：你能够清楚地说明 AI 参与了什么、你自己做了什么，以及——最关键的——你理解并能为论文中的每一个核心判断负责。

如果你对论文中某个部分的回答是「这是 AI 写的/做的，我觉得看起来没问题就用了」，那你就有一个问题需要解决——不是学术诚信的问题（虽然可能也是），而是你的理解深度的问题。

4.6 人机协作的正确姿势

批评完了过度依赖 AI 的风险，让我们来谈谈正面的问题：如何正确地与 AI 协作，使它成为你思考的催化剂而非替代品？

核心原则很简单：不是「人 OR 机」，而是「人 AND 机」。 最好的使用方式不是让 AI 替你思考，也不是完全拒绝 AI，而是让 AI 放大和增强你自己的思考。

用 AI 挑战你的想法

大多数人使用 AI 的方式是：「帮我做 X。」一种更有价值的方式是：「帮我质疑 X。」

Prompt

我计划用工具变量法来研究社交媒体使用对青少年心理健康的影响，用「所在地区的网络基础设施质量」作为工具变量。请帮我找出这个研究设计中的所有潜在问题。

Claude Sonnet 4

这个工具变量的选择有几个值得深思的问题：

1. 排他性约束可能不成立

网络基础设施质量可能通过社交媒体使用以外的渠道影响青少年心理健康：

更好的网络基础设施通常意味着更发达的地区，而地区发展水平本身就与青少年心理健康相关（教育资源、医疗条件、家庭收入等）
网络基础设施也影响在线学习、远程医疗等其他互联网使用行为，这些可能独立地影响心理健康

2. 相关性可能在弱化

随着移动网络的普及，地区网络基础设施质量与个人实际社交媒体使用时间之间的相关性可能不够强——特别是在发达国家，4G/5G 覆盖已经非常广泛，地区差异在缩小。如果工具变量是弱工具变量，IV 估计的偏差可能比 OLS 还大。

3. LATE 的可解释性问题

即使工具变量有效，你估计的是局部平均处理效应（LATE）：只针对那些因为网络基础设施质量变化而改变社交媒体使用行为的人。这个亚群体可能与你真正感兴趣的总体有很大不同。

4. 替代方案值得考虑

利用某些平台的外生性技术故障或功能变更作为自然实验
利用不同国家/地区的社交媒体监管政策差异
面板数据 + 个体固定效应来控制不可观测的个体特征

在这个对话中，你没有让 AI 替你做研究设计——你已经有了一个初步设计，你让 AI 帮你发现你可能没想到的问题。AI 的回答不是你的结论，而是你下一步思考的输入。你需要逐一评估这些批评：哪些是真正的问题、哪些可以通过额外的检验来缓解、哪些需要你重新考虑研究设计。这个评估过程，就是思考。

苏格拉底式提问

苏格拉底的教学方法不是给学生答案，而是通过提问引导学生自己发现答案。你可以用同样的方式使用 AI。

Prompt

我正在研究远程工作对员工生产力的影响。我已经收集了一家公司 2019-2024 年的员工绩效数据。我打算用疫情导致的强制远程工作作为自然实验。在我开始分析之前，请不要给我答案，而是问我一些我应该想清楚但可能还没想清楚的问题。

Claude Sonnet 4

好的，以下是一些你在开始分析前值得想清楚的问题：

你打算如何定义和度量「生产力」？你使用的绩效指标是否在远程和现场工作条件下具有可比性？（比如，如果用管理者评分，远程工作中管理者对员工表现的观察是否受限？）
疫情期间的「远程工作」和正常时期的「远程工作」是一回事吗？疫情期间员工可能同时面临健康焦虑、子女在家、社交隔离等压力——你观察到的效应有多少是远程工作本身造成的，有多少是疫情的其他影响造成的？
你的数据来自一家公司。这家公司所在的行业、企业文化、IT 基础设施、管理风格在多大程度上影响了结果的外部有效性？你的发现能推广到其他公司吗？
在疫情期间，公司的人员构成可能发生了变化——有人离职、有人被裁、有人新入职。如果留下来的人系统性地不同于离开的人（比如更有能力的人有更多外部选择），你观察到的生产力变化可能部分反映的是选择效应而非处理效应。你打算如何处理这个问题？
2024 年很多公司开始要求员工返回办公室（return-to-office）。你的数据是否覆盖了这个阶段？如果是，这给你提供了一个额外的政策变化来检验效应的对称性。
你确认过没有同时发生的其他政策变化吗？疫情期间公司可能同时调整了考核方式、沟通工具、工作流程——这些混杂因素怎么处理？

注意这个交互的关键特征：你明确告诉 AI「不要给我答案，给我问题」。AI 提出的这些问题，每一个都指向你研究设计中一个需要深入思考的维度。你不是在等 AI 告诉你怎么做，而是在用 AI 来拓展你的思考范围——发现那些你自己可能忽视的盲点。

保持「最终判断权」

在所有人机协作的模式中，有一个原则是不可妥协的：最终判断权必须在你手中。

AI 可以提供选项、分析利弊、指出风险、提出建议。但做决定的人是你。这不仅仅是一个「我应该自主」的伦理要求——更实际地说，你是唯一了解你研究的完整背景的人。你知道你的数据有什么特殊之处，你知道你的领域有什么未写入教科书的潜规则，你知道你的审稿人可能会从什么角度提出质疑。这些上下文信息 AI 不可能完全掌握。

最终判断权意味着：当 AI 的建议和你的判断发生冲突时，你需要认真思考——也许 AI 发现了你没想到的问题，也许 AI 遗漏了你知道的重要背景。无论哪种情况，做出判断和承担后果的人是你。

具体的协作模式

基于上面的原则，以下是几种经过检验的人机协作模式。

模式一：先想后问。 在向 AI 提问之前，先花时间自己思考。写下你自己的初步想法，然后再让 AI 提供补充或质疑。这保证了你的思考过程不被跳过。哪怕你的初步想法很粗糙，它也比从零开始让 AI 生成要有价值得多——因为 AI 的回应会建立在你的思考基础上，而不是完全替代你的思考。

模式二：AI 做初稿，人做深度修改。 对于那些包含大量执行性成分的任务（比如把一组分析结果写成论文的结果部分），可以让 AI 生成初稿来节省时间。但关键在于「深度修改」——不是通读一遍觉得没问题就接受，而是逐段审视：这个论述准确吗？有没有遗漏重要的发现？这个解释是否符合我对数据的理解？修改的过程就是思考的过程。

模式三：AI 提出反驳，人来回应。 把你的论文核心论点告诉 AI，让它扮演最苛刻的审稿人来提出反驳。然后你自己——不借助 AI——尝试回应这些反驳。这个过程能有效地加强你论证的严密性（strengthening arguments），同时确保你对自己的论点有深入的理解。

模式四：AI 做广度搜索，人做深度分析。 让 AI 帮你广泛搜索相关文献、找出可能相关的理论框架、列出可能的分析方法。然后你自己深入阅读那些最相关的论文、深入理解那些最适用的理论、深入学习那些最合适的方法。AI 帮你扩大视野，你负责在这个更大的视野中做出深入的判断。

一个判断人机协作质量的标准

好的人机协作应该让你在过程结束时比开始时理解得更深。如果你和 AI 交互了半小时，结束时你对你的研究问题、方法或论证有了新的、更深入的理解——这就是好的协作。如果你和 AI 交互了半小时，得到了一段可以直接使用的文本但你的理解没有任何加深——你大概只是在做认知外包。

4.7 在不确定中做出判断

让我们把视野拉高一层。

前面讨论的所有问题——什么时候该用 AI、什么时候不该、如何正确协作——其实都指向一个更深层的主题：在不确定的环境中做出判断的能力。

学术研究的本质就是在不确定中工作。你不知道你的假设是否正确（如果已经知道，就不需要研究了）。你不知道你选择的方法是否最合适（总有其他方法，总有其他假设）。你不知道你的结果是否能被复制（再现性危机教会了我们谦逊）。你甚至不知道你的研究问题是否真的重要（只有时间能告诉你）。

在这种根本性的不确定中，你需要做出一系列判断：这个问题值得花三年去研究吗？这个方法论上的取舍是否合理？这个结果的证据力有多强？我的结论是否过度延伸了？

这些判断没有标准答案。它们不能通过查阅文献或咨询 AI 来「解决」——因为它们本质上是在信息不完全的情况下做出的风险决策。一个好的研究者和一个平庸的研究者之间的区别，很大程度上就在于做出这类判断的质量。

而这种判断力，只能通过一种方式获得：不断地自己做判断、承受后果、反思经验、调整策略。没有捷径。AI 可以帮你更快地获取信息、更广泛地考虑选项、更高效地执行决定——但做判断这件事本身，它替代不了。

这就是「思考不能外包」这个标题的终极含义。它不仅仅是说你应该自己读论文、自己写文章。它说的是：作为研究者，你最核心的能力——在不确定的情况下做出合理判断——只能通过亲自思考来培养和维持。 每一次你选择自己思考而不是外包给 AI，你都在投资这种能力。每一次你选择外包而不是自己思考，你都在消耗这种能力的储备。

这不是一个全有或全无的选择。你不需要——也不应该——拒绝所有 AI 辅助。但你需要有意识地、审慎地选择在哪些环节保持自己的思考参与。本章前面提出的框架——区分执行性任务和思考性任务、先想后问、保持最终判断权——提供了一些实用的指导原则。但最终，如何在你自己的研究实践中划定这条线，需要你自己去判断。

这也是一种思考，不能外包。

4.8 第一部分回顾：我们建立了什么样的判断力？

这一章是第一部分「建立判断力」的最后一章。让我们回顾一下四章走过的路径。

第一章「从聊天机器人到通用智能」 回答了一个基础问题：AI 到底是什么？它是一台在海量文本上预测下一个词的机器，通过预训练获得了广博的「知识」，通过后训练学会了以对话的方式提供帮助，正在从被动的聊天机器人向主动的智能体演化。理解这个机制，是理解 AI 所有优点和缺陷的前提。

第二章「锯齿状的智能」 回答了第二个问题：AI 的能力边界在哪里？它不是均匀地「有时好有时差」，而是呈现出锯齿状的能力分布——在某些任务上超越绝大多数人类专家，在某些看似简单的任务上却会犯离谱的错误。理解这种锯齿状的分布，让你知道什么时候可以信任 AI 的输出、什么时候需要格外警惕。

第三章「遍地神灯的时代」 回答了一个更实际的问题：面对不断涌现的新工具和新模型，如何评估和选择？你不需要追逐每一个新工具，而是需要一套评估框架来判断什么工具适合你的需求。

第四章——也就是本章——「思考不能外包」 回答了一个最根本的问题：即使 AI 能做某件事，你是否应该让它做？答案是：取决于这件事是执行性的还是思考性的。执行性任务放心交给 AI。思考性任务——那些塑造你的学术判断力、定义你作为研究者身份的任务——必须保持你自己的深度参与。

四章合在一起，我们建立的是一种关于 AI 的元认知（meta-cognition）：不只是知道如何使用 AI，而是知道如何思考自己与 AI 的关系。这种元认知让你不会在面对 AI 的强大能力时盲目信任，也不会在面对 AI 的局限时一味拒绝。它让你成为一个有判断力的 AI 使用者——这在 AI 时代，是比任何具体的工具技巧都更重要的能力。

判断力的四个维度

回顾四章，我们建立的判断力可以概括为四个维度：

技术判断力（第1章）：理解 AI 的工作原理，知道它为什么能做到某些事、为什么做不到某些事
能力判断力（第2章）：知道 AI 的能力边界在哪里，在具体任务上能预估它的可靠性
工具判断力（第3章）：在众多工具中评估和选择，找到适合自己需求的工具
使用判断力（第4章）：知道什么该交给 AI、什么不该，如何在协作中保持自己的思考深度

这四个维度构成了一个完整的判断力框架。有了这个框架，你就不只是一个 AI 工具的用户，而是一个能够驾驭 AI 的研究者。

4.9 下一步：从判断力到实践

有了第一部分建立的判断力作为基础，第二部分「AI 工具与技巧」将深入具体的应用场景。我们将讨论如何用 AI 做智能搜索与文献发现、如何用 AI 辅助文献阅读和知识管理、如何利用 AI 编程和数据分析、如何让 AI 辅助学术写作、以及如何构建 AI Agent 工作流。

这些内容会涉及大量的具体工具、具体技巧和具体操作。但在进入那些细节之前，请记住第一部分的核心信息：工具是为你服务的，不是你为工具服务的。 你现在已经有了足够的判断力来驾驭这些工具——知道它们的原理、了解它们的边界、学会评估和选择、以及最重要的，知道什么时候该用、什么时候不该用。

带着这份判断力，让我们进入第二部分。

Bjork, Robert A. 1994. “Memory and Metamemory Considerations in the Training of Human Beings.” In Metacognition: Knowing about Knowing, edited by Janet Metcalfe and Arthur P. Shimamura, 185–205. Cambridge, MA: MIT Press.

Carr, Nicholas. 2010. The Shallows: What the Internet Is Doing to Our Brains. New York: W. W. Norton & Company.

Flower, Linda, and John R. Hayes. 1981. “A Cognitive Process Theory of Writing.” College Composition and Communication 32 (4): 365–87. https://doi.org/10.2307/356600.

Kahneman, Daniel. 2011. Thinking, Fast and Slow. New York: Farrar, Straus; Giroux.

Nature Editorial. 2023. “Tools Such as ChatGPT Threaten Transparent Science; Here Are Our Ground Rules for Their Use.” Nature 613: 612. https://doi.org/10.1038/d41586-023-00191-1.

Risko, Evan F., and Sam J. Gilbert. 2016. “Cognitive Offloading.” Trends in Cognitive Sciences 20 (9): 676–88. https://doi.org/10.1016/j.tics.2016.07.002.

Slamecka, Norman J., and Peter Graf. 1978. “The Generation Effect: Delineation of a Phenomenon.” Journal of Experimental Psychology: Human Learning and Memory 4 (6): 592–604. https://doi.org/10.1037/0278-7393.4.6.592.

Sparrow, Betsy, Jenny Liu, and Daniel M. Wegner. 2011. “Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips.” Science 333 (6043): 776–78. https://doi.org/10.1126/science.1207745.