3 遍地神灯的时代

2022 年 11 月 ChatGPT 上线时，研究者面对的 AI 工具选项还屈指可数。两年后的 2025 年，各类 AI 工具目录网站收录的产品已经超过一万个，覆盖了从文献检索到数据分析、从写作润色到实验设计的几乎每一个研究环节。每个工具都宣称能「革命性地提升效率」，每周都有新产品发布，社交媒体上「不用这个工具你就落后了」的焦虑不断蔓延。

问题不再是「有没有 AI 工具能帮我」，而是「面对这么多选择，我怎么找到真正适合自己的那几个，而不是在工具之间疲于奔命」。

上一章讨论了 AI 能力的锯齿状边界——它在某些任务上惊人地强大，在另一些任务上出乎意料地脆弱。理解了这种不均匀性之后，一个实际的问题自然浮现：面对不断涌现的新模型和新工具，你该如何评估和选择？本章要建立的，正是这个评估和选择的框架。

3.1 工具爆炸：从零到万

2022 年 11 月 30 日，ChatGPT 上线。两个月后，它的月活用户突破一亿，成为历史上增长最快的消费级应用。但 ChatGPT 引爆的不仅是用户增长，还有一场工具创业的井喷。

2023 年初，基于大语言模型的 AI 工具大约有几十个，大多数人能数得过来。到 2023 年底，这个数字变成了数千个。到 2025 年，各种 AI 工具目录网站收录的工具已经超过一万个，涵盖了从写作到编程、从设计到数据分析的几乎所有领域。

对学术研究者来说，这场爆炸尤其令人目不暇接。粗略分类，与研究直接相关的 AI 工具至少覆盖了以下领域：

文献发现与管理。 Semantic Scholar 用 AI 理解论文的语义关系，帮你找到传统关键词搜索遗漏的相关文献。Elicit 让你用自然语言提问，从数百万篇论文中提取和综合答案。Connected Papers 以可视化的方式展示论文之间的引用网络，帮你快速把握一个领域的知识地图。Research Rabbit 根据你标记的核心论文，自动推荐相关文献。这些工具各有侧重，但都在试图解决同一个问题：学术文献太多了，人工检索效率太低。

写作与语言。 Grammarly 和 Writefull 用 AI 检查语法、润色表达、建议更学术化的措辞。Paperpal 专门针对学术写作场景优化。各种通用 AI 助手（ChatGPT、Claude）也被大量用于论文写作的各个环节——从头脑风暴到大纲生成，从段落改写到摘要撰写。

编程与数据分析。 GitHub Copilot 在你写代码时实时建议下一行。Cursor 把 AI 深度集成到代码编辑器中，让你可以用自然语言描述需求，AI 帮你生成代码。ChatGPT 和 Claude 都能直接运行 Python 代码，处理数据、生成可视化。对于不以编程为主业但需要处理数据的社会科学研究者来说，这些工具降低了一个真实的门槛。

实验设计与研究方法。 一些工具开始涉足更上游的研究环节——帮你设计问卷、建议统计方法、评估样本量需求、甚至辅助研究伦理审查。

知识管理与笔记。 Notion AI、Obsidian 的各种 AI 插件、以及专门面向研究者的笔记工具，试图用 AI 帮你整理、关联和检索你积累的知识。

列举这些不是为了让你更焦虑。恰恰相反——当你看到这个清单，你应该意识到的第一件事是：你不需要、也不应该试图使用所有这些工具。 就像一个厨师不需要拥有市面上所有的刀一样，一个研究者需要的是几把趁手的、自己真正理解其特性的工具，而不是一个塞满了最新款器具但从未认真使用过的厨房。

但在做出选择之前，你需要先理解一个更基础的层面：这些工具背后的大语言模型本身。

3.2 大模型格局：谁在做什么

如果说 AI 工具是你手里的灯，那么大语言模型就是灯里的「精灵」。大多数 AI 工具——无论它的界面多么花哨、功能多么垂直——底层调用的都是少数几个主要模型家族中的某一个。理解这些模型家族的特点和差异，是评估工具的基础。

OpenAI 和 GPT 系列。 作为引发这场变革的先驱，OpenAI 一直占据着公众注意力的中心。GPT-4 在 2023 年发布时被广泛视为最强大的通用模型 (OpenAI 2023)。但 OpenAI 真正的战略转向发生在 2024 年下半年：o1 推理模型的发布标志着一个新方向——不只是让模型「知道更多」，而是让它「想得更深」。o1 及其后续版本 o3 在数学、编程和科学推理任务上的表现大幅超越了 GPT-4，代价是更长的响应时间和更高的成本。这背后的技术思路被称为「推理时间缩放」（inference-time scaling）：与其在训练阶段投入更多计算，不如让模型在回答每个问题时花更多时间「思考」——生成一个内部的思维链（chain of thought），反复检验和修正自己的推理过程。

对研究者的实际意义：如果你的任务涉及复杂的逻辑推理、多步骤的数学证明或精细的代码调试，推理模型可能比通用模型更可靠。但如果你只是需要润色一段文字或总结一篇论文，推理模型不仅不必要，反而更慢更贵。

Anthropic 和 Claude 系列。 Anthropic 由 OpenAI 的前员工创立，从一开始就把安全和可控性作为核心卖点。Claude 系列模型在两个维度上形成了差异化：一是长上下文处理能力——Claude 支持 20 万词元的上下文窗口，这意味着你可以一次性输入数十篇论文让它分析；二是指令遵循的精确度——在需要模型严格按照特定格式、规则或约束来输出内容的场景中，Claude 通常表现更稳定。

Google 和 Gemini 系列。 Google 的优势在于两个方面：多模态能力和超长上下文。Gemini 能直接处理文本、图像、音频和视频的混合输入。它的上下文窗口达到了 200 万词元——理论上可以一次性处理好几本书的内容。对于需要处理大量文档的系统性文献综述，或者需要分析包含图表的论文，这些特性有实际价值。此外 Google 将 Gemini 深度集成到了 Google Workspace 中，如果你的工作流已经依赖 Google Docs、Sheets 和 Gmail，这种集成的便利性不容忽视。

Meta 和 Llama 系列。 Meta 选择了一条与 OpenAI 和 Google 完全不同的路线：开源 (Touvron et al. 2023)。Llama 系列模型的权重完全公开，任何人都可以下载、修改、部署。这对学术研究者有特殊意义——你可以在自己的服务器上运行模型，确保敏感数据不会离开你的机构；你可以研究模型本身的行为，而不是只能通过 API 观察一个黑箱。开源模型的能力通常略低于同时代最强的闭源模型，但差距在持续缩小。

中国模型：DeepSeek、Qwen 等。 中国的大模型发展速度同样令人瞩目。DeepSeek 以极低的训练成本（据报道仅为 OpenAI 的几分之一）实现了接近前沿水平的性能，在开源社区中获得了广泛关注。阿里的 Qwen 系列和百度的文心一言在中文处理方面有天然优势。对于以中文写作和阅读为主的研究者来说，这些模型在处理中文学术文本时可能比英语为主的模型更为得心应手。

模型的「版本号」困惑

你可能已经注意到，模型的命名极其混乱。GPT-4、GPT-4 Turbo、GPT-4o、GPT-4o mini——它们的名字暗示是同一个模型的变体，但实际上在能力、速度和成本上可能有显著差异。Claude 3.5 Sonnet 的第二个版本（有时被称为 claude-3-5-sonnet-20241022）比第一个版本在代码能力上有明显提升，但名字几乎没变。

不要被版本号迷惑。一个务实的习惯是：关注模型在你关心的具体任务上的实际表现，而不是它的命名或营销宣传。今天叫「最强模型」的，三个月后可能被一个新版本超越。但如果你已经在某个模型上建立了成熟的工作流，单纯因为「有更新的模型了」就切换过去，往往得不偿失——迁移成本是真实的。

理解模型格局的关键不是记住每个模型的参数和基准分数——这些信息更新的速度远超任何书本。关键是理解一个结构性的事实：模型之间的竞争不是简单的「谁更聪明」，而是在多个维度上的差异化。 推理深度、上下文长度、多模态能力、响应速度、成本、安全性、开源与否——不同模型在这些维度上做出了不同的权衡。没有一个模型在所有维度上都是最优的，就像没有一种汽车同时是最快、最省油、最安全、最便宜的一样。

而这就引出了一个核心问题：你怎么知道哪个模型「更好」？这个「好」到底是什么意思？

3.3 基准测试：量尺的诱惑与陷阱

在模型竞赛中，一个名为「排行榜」的文化现象已经深深嵌入了 AI 行业。每当一个新模型发布，厂商第一时间亮出的不是用户评价或实际案例，而是一组基准测试分数。MMLU 多少分、HumanEval 多少分、GSM8K 多少分——这些数字被排列成整齐的表格，新模型在表格中精心选取的若干行上以粗体标注自己的领先优势。

让我们先理解这些基准在测什么，再讨论它们为什么可能误导你。

MMLU（Massive Multitask Language Understanding）是目前最被广泛引用的综合性基准之一 (Hendrycks et al. 2021)。它包含 57 个学科的选择题——从高中数学到法学院考试、从临床医学到抽象代数。每道题有四个选项，模型选择一个。它的设计思路直观：如果一个模型能在这么多领域的考试中取得好成绩，那它的「知识」应该是广泛的。

HumanEval 测试代码生成能力。给模型一个编程题的描述和函数签名，它生成代码，系统自动运行测试用例检查代码是否正确。

GSM8K 包含 8500 道小学数学应用题。听起来很简单，但对模型的多步推理能力是一个有效的测试——解一道应用题需要理解题意、提取关键信息、列出算式、逐步计算。

HELM（Holistic Evaluation of Language Models）采取了一种更系统的方法 (Liang et al. 2023)，在 42 个场景和 7 个评估维度上测试模型，试图提供一个更全面的画面。

这些基准确实提供了有价值的信息。如果一个模型在 MMLU 上只有 30 分（随机猜测的水平），你大概不会指望它帮你写文献综述。基准测试在区分「根本不可用」和「基本可用」的模型时是有效的。

但当基准分数从 85 攀升到 90 再到 92 时，情况就完全不同了。 这里出现了两个深层问题。

第一个问题是 Goodhart 定律：当一个度量成为目标时，它就不再是一个好的度量 (Goodhart 1984)。这个最初描述货币政策的规律，在 AI 基准测试中以一种几乎教科书般的方式上演。

当所有模型都在优化 MMLU 分数时，会发生什么？训练数据中会刻意包含与 MMLU 题目风格相似的内容。模型可能在不真正「理解」知识的情况下学会了识别选择题的模式——比如在四个选项中，绝对化的表述（「总是」「从不」）更可能是错误答案。一些研究发现，当 MMLU 题目的选项顺序被打乱时，部分模型的分数会显著下降——这意味着模型学到的不只是知识，还有题目的统计模式。

第二个问题更根本：基准测试测的是模型能力的切片，而不是全貌。 MMLU 测的是选择题形式的知识问答。但你在研究中需要的不是选择题——你需要模型理解一篇论文的论证逻辑，在你的数据上写出正确的分析代码，把一段晦涩的方法论描述改写得更清晰，或者在你的研究设计中发现一个你没注意到的问题。这些任务的复杂度、开放性和领域特殊性，远非任何标准化基准所能捕捉。

一个模型在 MMLU 上 92 分、另一个 89 分——这个差距在你的实际使用中可能完全无法感知。但一个模型在处理你领域的论文时总是能准确把握核心论点，另一个模型经常遗漏关键细节——这种差异对你来说意义重大，却完全不会反映在任何排行榜上。

排行榜上的数字游戏

AI 公司在发布基准测试结果时，选择性报告是一种普遍做法。每家公司都会精心挑选自己表现最好的基准来突出展示，而对表现平平的基准则轻描淡写或直接省略。

一个典型的例子：某模型发布时宣称「在数学推理上超越 GPT-4」，附上了 GSM8K 和 MATH 基准的对比。但如果你去查看它在代码生成、长文本理解或指令遵循方面的表现，可能发现它和 GPT-4 相比仍有明显差距。声称「超越」的前提是你只看它选给你看的那几个维度。

作为研究者，你对这种选择性报告应该并不陌生——它本质上和在论文中只展示支持你假设的结果、省略不显著的结果是同一回事。对待 AI 公司的基准测试宣传，应该用你审阅论文时相同的批判性眼光。

面对基准测试的局限性，一种更贴近真实使用体验的评估方式应运而生：Chatbot Arena (Zheng et al. 2024)。它的设计极其巧妙——用户向两个匿名模型同时提问同一个问题，然后不看标签、只凭回答质量来投票选择更好的那个。经过数百万次这样的盲评之后，用 Elo 评分系统（和国际象棋排名相同的算法）为所有模型生成一个排名。

Chatbot Arena 解决了传统基准的一些问题：它的评估来自真实用户的真实问题，而不是预设的标准化测试题；它是盲评的，不受品牌效应的影响；它的题目持续更新，不容易被「刷分」。

但 Chatbot Arena 也有自己的盲点。它的用户群偏向英语世界的技术人群，提问偏向编程和通用知识，不太能反映特定学术领域的需求。更重要的是，它评估的是单轮或短轮对话的质量——而你在研究中最需要 AI 的场景，往往是长时间、多轮、深入的互动：把一篇论文给它分析，在它的分析基础上追问，让它修改代码、再调试、再修改。这种深度互动的质量，没有任何现成的排行榜能告诉你。

3.4 对研究者真正重要的评估维度

既然通用的排行榜不能替你做决定，你需要建立自己的评估框架。以下六个维度，是我认为对学术研究者最关键的。

第一，准确性和可靠性。 这是最基本的维度，也是最容易被忽视的。研究者需要的不是一个「大多数时候给出令人印象深刻的回答」的模型，而是一个「在我能力范围内很难发现错误」的模型。区别至关重要：如果你让 AI 帮你写一段关于因果推断的文献综述，一个模型可能生成一段流畅而全面的综述，但在某篇论文的方法论描述上出了错——把倾向得分匹配说成了工具变量法。如果你对这个领域不够熟悉，这个错误会直接进入你的论文。

评估准确性的方法很朴素：在你最熟悉的领域里，问模型一些你已经知道答案的问题。不是为了获取信息，而是为了测试模型。看它会不会犯错、犯什么类型的错、犯错时是否会主动表示不确定。一个在你熟悉领域里经常犯错的模型，在你不熟悉的领域里只会犯更多你发现不了的错误。

第二，领域专业知识的深度。 模型在不同学术领域的表现差异很大——这正是上一章讨论的「锯齿状的智能」在具体场景中的体现。一些模型在自然科学和数学方面表现更强，另一些在社会科学和人文领域的理解更为细腻。这种差异和模型的训练数据构成有关：如果训练数据中计算机科学论文的比例远高于社会学论文，模型在前者中的表现自然更好。

一个简单的测试方法：把你领域中一篇经典论文的核心论点告诉模型，问它「这个论证有什么潜在的问题」。如果它只能给出泛泛的、任何领域都适用的批评（「样本量可能不够大」「可能存在遗漏变量」），说明它对你的领域缺乏深入理解。如果它能指出针对该研究设计的具体方法论问题，说明它在这个领域有可用的知识深度。

第三，上下文窗口大小和利用效率。 上下文窗口决定了你一次能给模型多少信息。但「支持 20 万词元」和「在 20 万词元中都能有效利用信息」是两回事。一些研究（通常被称为「大海捞针」测试）发现，当上下文特别长时，模型对中间位置信息的利用效率会下降——开头和结尾的内容被更好地「记住」，中间的内容可能被忽略。

对研究者的实际影响：如果你把 30 篇论文塞进上下文，让模型做文献综述，它可能对前几篇和最后几篇分析得很到位，但对中间的论文敷衍了事。一个更有效的策略可能是分批处理——每次给 5-8 篇论文，让模型逐批分析，最后再整合。

第四，指令遵循能力。 研究中很多任务需要模型严格遵守特定格式或规则。比如：「按照 APA 格式生成参考文献列表」「从这篇论文中只提取使用的统计方法和样本量，不要添加任何评论」「用 R 而不是 Python 写代码」。有些模型在这方面很可靠——你说只提取信息，它就只提取信息。另一些模型则倾向于「多做一点」——你让它提取信息，它忍不住加上自己的分析和评论。

这个维度在日常使用中的重要性经常被低估。当你开始把 AI 深度整合进研究工作流时，模型能否精确执行指令、不多做也不少做，直接决定了你对它输出的信任程度——而信任是效率的基础。

第五，成本效率。 这里说的成本不只是金钱，还包括时间。一个回答需要等 60 秒的推理模型，和一个 3 秒就响应的通用模型，在你需要快速迭代的时候差别巨大。同样，一个每月 200 美元的订阅和一个 20 美元的订阅，在功能差距不足以证明 10 倍价格差异时，便宜的才是理性选择。

研究者——尤其是博士生和博士后——通常预算有限。好消息是，对于大多数常见的学术任务（文本总结、语言润色、代码辅助、头脑风暴），平价模型的表现已经足够好。最强的模型应该留给最需要它的任务——复杂推理、精细的方法论讨论、高要求的代码生成——而不是浪费在每一次日常交互上。

第六，数据隐私和安全。 这个维度对学术研究者来说有特殊的重要性。如果你的研究涉及人类受试者的数据、未发表的实验结果、或者正在审稿中的论文，把这些内容上传到商业 AI 平台意味着什么？

大多数主流 AI 平台声明不会使用 API 调用的数据来训练模型，但通过网页界面的对话可能会被用于改进服务（除非你明确选择退出）。一些机构已经禁止研究者将特定类型的数据上传到外部 AI 服务。如果你的数据特别敏感，可能需要考虑本地部署的开源模型——这正是 Llama 等开源模型对学术界的特殊价值。

建立你自己的测试集

比依赖排行榜更可靠的方法，是建立一个你自己的「迷你基准测试」。具体做法很简单：

从你的研究领域中挑选 5-10 个你知道正确答案的问题。它们应该涵盖不同的难度级别和任务类型——事实性知识、方法论理解、代码生成、文本分析。
把同样的问题分别问不同的模型。
记录每个模型的回答质量。不需要精确打分，粗略分为「好」「一般」「差」就够了。
每当你考虑切换到一个新模型时，先用这个测试集跑一遍。

这个方法的价值在于：你的测试集反映的是你的需求——你的领域、你的任务类型、你的质量标准——而不是某个通用基准的设计者认为重要的东西。

3.5 工具选择的五个原则

理解了模型的差异和评估的维度之后，我们可以进入一个更实际的问题：面对琳琅满目的 AI 工具，你该如何选择？以下五个原则，不是教条，而是思考框架。

原则一：从任务出发，而非从工具出发

这是最重要也最常被违反的原则。太多人的行为模式是：看到一个新工具 → 觉得很酷 → 试图把它塞进自己的工作流。正确的顺序应该反过来：我有一个具体的痛点 → 我需要什么功能来解决它 → 哪个工具最能满足这个功能需求。

举一个研究场景的例子。你正在做一个系统性文献综述，需要从 500 篇初筛论文中找出符合纳入标准的 50 篇。这个任务的核心需求是：批量处理大量文本、按照精确的标准做分类判断、保持一致性。从这个需求出发，你需要的是一个支持 API 调用的模型（因为你不可能手动把 500 篇论文一篇一篇贴进聊天窗口），加上一个简单的脚本来自动化流程。你不需要一个花哨的「AI 文献综述工具」——它可能在界面上很好看，但在处理 500 篇论文的批量筛选上反而不如一个直接的 API 调用灵活。

Prompt

我想提高科研效率。推荐几个好用的 AI 工具吧。

Claude Sonnet 4

我理解你的诉求，但在推荐具体工具之前，我想先了解你的实际需求：

你的学科领域是什么？ 不同领域的工作流差异很大。理工科研究者可能最需要代码辅助，社科研究者可能最需要文献管理和文本分析。
你目前最耗时的环节是什么？ 是文献检索、阅读消化、数据处理、写作，还是其他环节？
你的技术背景如何？ 你是否熟悉编程？这决定了你能使用 API 级别的工具还是只适合图形界面的工具。
你的预算和数据敏感度？ 免费工具和付费工具的能力差距在某些场景下很显著。如果你的数据涉及隐私保护，这会排除一些选项。

没有「最好的 AI 工具」，只有最适合你特定需求的工具。如果你能告诉我具体场景，我可以给出更有针对性的建议。

原则二：区分「核心工具」和「辅助工具」

你的工具栈应该有一个清晰的层次结构。

核心工具是你每天都用、深度掌握其特性和局限的工具。它可能只有一两个。对大多数研究者来说，一个通用的 AI 对话助手（如 ChatGPT 或 Claude）加上一个代码辅助工具（如 Copilot 或 Cursor），已经能覆盖 80% 的需求。核心工具值得你花时间深入学习——了解它的提示技巧、知道它的弱点在哪里、掌握让它输出质量最高的方法。

辅助工具是你在特定场景下偶尔使用的工具。比如 Connected Papers 在你进入一个新研究领域时很有价值，但不是每天都需要。Writefull 在你最终打磨英文论文时才用得上。这些工具不需要你深度掌握，知道它们的存在、在需要时能找到就够了。

这个区分的意义在于分配注意力。很多研究者犯的错误是在十个工具上各花 10% 的精力——结果每个工具都只会最基本的操作，从未触及它真正强大的功能。不如在一两个核心工具上花 80% 的精力，把它用到极致。

原则三：警惕锁定效应

锁定效应（vendor lock-in）指的是当你深度依赖一个工具或平台后，切换到其他选择的成本变得很高。在 AI 工具的语境中，锁定效应表现为几种形式：

提示词锁定。 你花了很长时间为某个模型优化的提示词，换一个模型可能完全不适用。每个模型对指令的理解和偏好都有差异。
工作流锁定。 你围绕某个工具建立的整套工作流——文件组织方式、输出格式、自动化脚本——都和这个工具的特性紧密耦合。
数据锁定。 你积累在某个平台上的对话历史、知识库、自定义配置，在大多数情况下无法迁移到其他平台。

完全避免锁定效应既不现实也不必要——任何值得深入使用的工具都会产生一定程度的锁定。关键是保持迁移能力的意识：你的核心知识资产（文献笔记、研究数据、代码）应该以通用格式存储，而不是只存在于某个特定工具的生态系统中。你的分析流程应该被记录下来——不仅记录结果，还记录你给了 AI 什么提示、为什么这样设计提示——这样即使切换工具，你也能在新平台上快速重建工作流。

原则四：免费不等于没有成本

很多 AI 工具提供免费版本。这当然是好事——它降低了尝试的门槛。但「免费」的工具有三种常见的隐性成本：

数据成本。 一些免费工具通过收集和利用你的数据来支撑商业模式。你的对话内容可能被用于训练未来版本的模型，或者被分析以精准推送广告。对于普通聊天这可能无所谓，但如果你和 AI 讨论的是未发表的研究想法或敏感数据，这个「免费」的代价可能比你想象的大。

质量成本。 免费版本通常使用能力较弱的模型、限制对话次数、或者在高峰期降低响应质量。如果你在一个关键的分析任务中因为模型能力不足而得到了误导性的结果，纠正错误所花的时间可能远超一个付费订阅的成本。

注意力成本。 免费工具为了维持运营，可能会在界面上嵌入广告、推送升级提醒、或者通过各种「引导」来促使你付费。这些干扰看似微小，但在你需要集中精力做研究的时候，每一次分心都有代价。

这不是说你应该为所有 AI 工具付费。而是说，在决定是否为一个工具付费时，你应该把隐性成本纳入考量。如果一个免费工具的数据隐私政策让你不敢在上面讨论正在进行的研究，那它对你来说实际上是不可用的——这比它标价 20 美元一个月更「贵」。

原则五：最贵最新的不一定最适合

AI 领域有一种隐含的假设：最新发布的模型一定比旧的好，最贵的订阅一定比便宜的强。这个假设在很多情况下是错的。

首先，新模型的发布往往经过精心的营销包装。它可能在某些特定基准上超越了前代模型，但在你关心的具体任务上可能没有实质性提升——甚至可能因为训练策略的调整而在某些方面出现倒退。这在 AI 领域并不罕见，被称为「能力回退」（capability regression）：一个新版本模型在修复某些问题的同时，可能无意中损害了在其他任务上的表现。

其次，对于很多常见的学术任务，模型之间的差异在一个合理的提示工程之后会显著缩小。一段精心设计的提示词在一个「中等」模型上的输出，往往比一段草率的提示词在「最强」模型上的输出更好。投资在学习如何更有效地使用你手头的工具，比频繁追逐最新最贵的工具更有回报。

研究者的「工具栈」

就像软件工程师有自己的「技术栈」一样，研究者可以建立自己的「AI 工具栈」。一个典型的配置可能是：

核心对话模型：一个你最熟悉的通用 AI 助手（如 ChatGPT Plus 或 Claude Pro），用于日常的问题解答、头脑风暴、文本编辑。
代码辅助：GitHub Copilot 或 Cursor，用于编程相关的任务。
文献工具：Semantic Scholar 或 Elicit，用于文献检索和初步筛选。
写作工具：Writefull 或 Grammarly，用于英文论文的最终润色。

关键不在于选了哪些工具，而在于你对每个工具的定位是清晰的——什么时候用什么工具、每个工具的优势和局限各是什么。一个对两个工具了如指掌的研究者，比一个在十个工具之间手忙脚乱的研究者效率高得多。

3.6 API 与界面：两种使用 AI 的方式

大多数研究者接触 AI 的方式是通过网页界面——打开 ChatGPT 或 Claude 的网站，在对话框里输入问题，等待回答。这种方式直观、门槛低，对于探索性的使用完全足够。但如果你要把 AI 深度整合进研究工作流，你需要了解另一种方式：API 调用（Application Programming Interface，应用编程接口）。

API 本质上是一个让你的代码直接和 AI 模型通信的接口。通过 API，你可以用 Python 或 R 写一个脚本，把 100 篇论文的摘要逐一发给模型，让它按照你定义的标准分类，然后把结果自动整理成一个表格。整个过程不需要你手动操作任何界面。

网页界面和 API 的差异可以用一个类比来理解：网页界面像是去餐厅吃饭——你点菜、厨师做、你吃。API 像是买了食材和食谱自己做——你要花时间学做菜，但你可以精确控制每一步，而且可以同时做很多份。

两种方式各有适用场景：

维度	网页界面	API 调用
适合场景	探索性问答、日常使用、一次性任务	批量处理、可复现研究、自动化工作流
技术门槛	几乎为零	需要基本编程能力
灵活性	受限于界面提供的功能	高度可定制
可复现性	低（对话记录难以精确复现）	高（代码本身就是操作记录）
成本模式	月度订阅（固定费用）	按使用量计费（可控费用）

对于学术研究者来说，API 的最大价值在于可复现性。当你在论文中报告「我用 AI 辅助了文献筛选」时，如果你的操作是通过网页界面一篇一篇手动对话完成的，审稿人或读者无法验证你的流程。但如果你提供了一段 API 调用的代码——包括使用的模型版本、完整的提示词、处理逻辑——任何人都可以复现你的步骤。在科学研究越来越重视可复现性的今天，这个优势不是锦上添花，而是一种方法论上的正确性。

API 调用的另一个优势是成本控制。网页订阅的费用是固定的——无论你用了多少，每月都是同一个价格。API 按实际使用量计费，对于使用量不大的研究者来说通常更便宜。更重要的是，API 让你能精确选择为每个任务使用哪个模型。日常的文本总结用便宜的小模型就够了；只有在需要深度推理时才调用最强（也最贵）的模型。这种灵活性在网页界面中是做不到的。

你不需要成为程序员

听到「API」和「编程」，很多研究者会本能地退缩。但实际上，使用 AI API 所需要的编程技能非常基础。一个典型的 API 调用——发送一段文本给模型、接收回答——用 Python 写只需要不到 10 行代码。而且，AI 本身就是学习这些技能的最好老师：你可以让 ChatGPT 或 Claude 帮你写调用它们自己 API 的代码。

本书第二部分会用整整一章来讲解 AI 编程辅助。现在你只需要知道：学会基本的 API 使用不需要计算机科学背景，大多数研究者花一个下午就能上手。如果你已经会用 R 或 Stata 做数据分析，使用 API 对你来说不会比学一个新的 R 包更难。

这里有一个值得强调的事实：通过 API 调用模型和通过网页界面使用模型，底层的模型是一样的，但行为可能不完全一样。网页版本通常有一些额外的包装——系统提示、安全过滤、记忆功能——这些在 API 调用中可以更精细地控制。换句话说，API 给你的是一个更「原始」的模型，你需要自己提供更多的上下文和约束，但也因此获得了更大的控制权。

对于严肃的学术研究——特别是当你需要在论文中报告你如何使用了 AI——API 是更合适的选择。它提供了可复现性、可控性和透明度，而这些正是科学研究对方法论的基本要求。

3.7 开源与闭源：一个事关研究自由的选择

在选择模型时，一个容易被忽略但对学术研究者影响深远的维度是：模型是开源的还是闭源的。

闭源模型（如 GPT-4、Claude、Gemini）只通过 API 或网页界面提供服务。你不知道模型的确切架构、参数量、训练数据构成、训练方法的细节。你能做的只是输入、观察输出、推测内部机制。模型的行为可以在没有通知的情况下发生变化——厂商更新了模型版本，你上周还管用的提示词这周可能效果变差了。

开源模型（如 Llama、Mistral、Qwen 的开源版本）发布了模型权重，允许任何人下载、研究、修改和部署。你可以在自己的服务器上运行模型，确保数据不会离开你的控制；你可以微调模型，让它更好地适应你领域的特定需求；你可以研究模型本身的行为——比如分析它在某类问题上为什么会犯特定的错误。

对学术研究者来说，开源模型在几个场景中有不可替代的价值：

涉及敏感数据的研究。 如果你研究的数据包含个人健康信息、商业机密、或者受 IRB（Institutional Review Board，机构审查委员会）保护的人类受试者数据，把这些数据上传到外部 API 可能违反研究伦理协议。本地部署的开源模型让你在享受 AI 辅助的同时保持对数据的完全控制。

需要模型透明度的研究。 如果你的研究涉及 AI 本身——比如评估 AI 在特定任务上的偏差、测试不同提示策略的效果——闭源模型是一个黑箱，你无法控制也无法完全理解它的行为。开源模型让你可以检查架构、分析注意力权重、甚至修改模型的特定组件来理解它们的作用。

可复现性的严格要求。 闭源模型的版本可能在你毫不知情的情况下更新。你在 2025 年 1 月做的实验，到 2025 年 6 月审稿人要求复现时，底层的模型可能已经不同了。开源模型的特定版本可以被精确锁定——你可以指定使用 Llama 3.1-70B 的某个特定检查点，确保任何人在任何时间都能复现你的结果。

当然，开源模型也有代价。本地部署需要计算资源——运行一个 70B 参数的模型至少需要一块高端 GPU，这对个人研究者来说可能是一笔不小的硬件投资。开源模型的能力通常不如同时代最强的闭源模型，尽管这个差距在持续缩小 (Bommasani et al. 2022)。社区支持和文档的质量也参差不齐。

最务实的方案可能是组合使用：用闭源模型处理日常任务和非敏感数据，用开源模型处理敏感数据和需要严格可复现性的研究。 这不是二选一的问题，而是为不同的需求选择不同的工具——正如前面讨论的「从任务出发」的原则。

3.8 变化中的不变量

如果你读到这里感到有些不安——「这些模型和工具的信息更新这么快，我今天学的东西明天就过时了怎么办？」——这种不安是合理的，但也是可以化解的。

让我们做一个思想实验。假设你在 2023 年初花时间学会了使用 GPT-3.5 来辅助研究。到 2023 年底，GPT-4 发布了，GPT-3.5 在很多任务上不再是最优选择。2024 年，Claude 3 和 Gemini Ultra 先后推出，竞争格局又变了。2025 年，推理模型横空出世，整个范式似乎又变了。

表面上看，你 2023 年学的东西每过半年就「过时」一次。但仔细想想——你真正学到的是什么？

你学到的不是「GPT-3.5 的 API 端点地址」这样的技术细节——那确实会过时。你学到的是：如何把一个模糊的研究需求翻译成清晰的提示词；如何判断 AI 的输出是否可靠；如何把 AI 嵌入一个可复现的研究工作流；如何在 AI 的帮助和自己的判断之间找到平衡。这些能力不会因为模型版本更新而过时——它们是元能力，适用于任何当前和未来的模型。

这就引出了一个重要的认知：具体的模型和工具是变量，但评估和使用它们的框架是不变量。 你不需要追踪每一个新模型的发布——你需要的是一个稳定的框架，能让你在任何新模型出现时快速评估它对你是否有价值。

这个框架的核心组成部分，我们在本章已经讨论了大部分：

你自己的测试集：用你领域内的典型问题来评估新模型，而不是依赖通用排行榜。
清晰的需求优先级：你知道对你最重要的维度是什么——是准确性、速度、成本、还是数据隐私——这样当一个新模型宣传它的优势时，你能立刻判断这些优势是否和你相关。
分层的工具栈：你的核心工具不会每个月都换，只有当新工具在你最重要的维度上有显著提升时才值得切换。
可迁移的工作方式：你的提示词设计原则、输出验证习惯、工作流逻辑——这些是和具体工具无关的。

一个有用的类比：你不需要每年学习新的统计学——回归分析的原理和适用场景不会因为统计软件的更新而改变。但你需要知道怎么在新的软件版本中实现回归分析。同样，你不需要重新学习「如何评估 AI 的可靠性」——这个技能是稳定的。但当一个新模型出现时，你需要用这个稳定的技能去评估它。

关于 FOMO

FOMO（Fear of Missing Out，错失恐惧）在 AI 工具领域特别严重。社交媒体上每天都有人发帖说「这个新工具改变了我的工作方式」「不会用这个你就落后了」。这些帖子中有一部分是真诚的经验分享，但更多的是营销内容、流量文章或者对新奇事物的初期兴奋。

一个有效的心理策略是：把「我应该试试那个新工具」替换为「那个新工具能帮我解决什么我现在的工具解决不了的问题？」如果你想不出一个具体的答案，那你不需要试它——至少现在不需要。你的时间和注意力是真正稀缺的资源，比任何一个新工具都珍贵。

还有一个事实可以缓解焦虑：在任何领域，真正改变游戏规则的突破是稀少的。大多数「新工具」是已有能力的微调和重新包装。当真正重要的变化发生时——就像 ChatGPT 的出现——你不会错过它，因为整个学术圈都会在讨论。

3.9 一个实际的选择流程

让我们把上面讨论的原则串联成一个实际可操作的流程。假设你是一位刚开始考虑在研究中使用 AI 的博士生。

第一步：识别你的核心痛点。 不要从「我想用 AI」开始，而要从「我的工作流中，哪个环节最耗时、最痛苦、最可能从自动化中受益」开始。对于大多数文科和社科博士生来说，答案通常是文献阅读和整理、英文写作的润色、或者数据清洗和初步分析。对于理工科博士生，可能是代码调试、公式推导的验证、或者论文中图表的生成。

第二步：从一个通用工具开始。 不要一上来就试用十个垂直工具。选择一个主流的通用 AI 助手——ChatGPT Plus 或 Claude Pro 是目前最常见的选择——花两到四周的时间，把它深入地用在你的核心痛点上。学会写有效的提示词，了解它在你领域的表现水平，找到它的能力边界。

第三步：在核心工具上遇到瓶颈时，才考虑垂直工具。 如果你发现通用 AI 助手在文献检索上的表现不能满足你的需求——比如它推荐的论文不够相关、经常遗漏重要文献——这时候才去试用 Elicit 或 Semantic Scholar。如果你发现用 ChatGPT 写代码的效率不够高——需要频繁地在对话框和代码编辑器之间来回切换——这时候才去试用 Copilot 或 Cursor。

第四步：定期审视你的工具栈。 每隔三到六个月，问自己两个问题：「我订阅的工具中，有哪些我已经不再使用？」和「我的核心痛点有没有发生变化？」取消不用的订阅，根据新的需求调整工具配置。

这个流程的核心精神是渐进式采纳——从少量核心工具开始，根据真实需求逐步扩展，而不是一次性拥抱所有工具。就像学术研究本身一样，最好的工具使用策略也是渐进、迭代、基于证据的。

3.10 写给不同阶段研究者的建议

不同职业阶段的研究者，面对 AI 工具的需求和约束是不同的。

本科生和硕士生。 你的首要任务是学习——学习研究方法、学习批判性思维、学习你的领域。AI 工具可以帮你更快地获取信息和理解概念，但不能替代学习过程本身。一个危险的模式是用 AI 来跳过你应该经历的困难——比如让 AI 帮你写文献综述而不自己阅读论文，或者让 AI 帮你写代码而不理解代码在做什么。

建议：把 AI 当作一个随时可问的助教，而不是代写你作业的枪手。用它来解释你不理解的概念、检查你已经完成的工作、提供你没想到的视角。但论文要自己写，代码要自己理解，文献要自己读。

博士生。 你同时面临两个压力：产出（发论文）和深度（建立真正的专业能力）。AI 工具在产出方面有直接帮助——加速文献检索、辅助数据分析、润色写作。但深度方面需要你特别警惕：如果你总是让 AI 帮你思考方法论问题而不自己苦恼和钻研，你可能会在毕业时发现自己对方法论的理解很浅——你知道怎么让 AI 生成一段方法论描述，但不知道背后的直觉和权衡。

建议：在你的核心研究方法上，先自己做、自己想，遇到瓶颈后再问 AI，然后把 AI 的回答和你自己的理解做对比。在外围任务上——格式调整、语言润色、文献初筛——放心使用 AI 来节省时间。这第四章会更深入地讨论这个问题。

助理教授和副教授。 你的时间是最稀缺的资源。在教学、写基金申请、指导学生、自己的研究之间分配有限的时间，是你面临的核心挑战。AI 工具在时间管理方面的价值最为显著：用它快速了解你不熟悉的领域（比如审稿时遇到的非自己专长的论文）、用它生成教学材料的初稿、用它辅助基金申请的文献综述部分。

建议：投资学习 API 使用和基本的自动化——你带的学生越多、管理的项目越多，批量处理和自动化工作流能节省的时间就越多。考虑在实验室或课题组层面建立共享的 AI 使用规范和最佳实践。

正教授和资深研究者。 你的判断力和学术声誉是你最大的资产。AI 工具对你的价值主要在于扩展你的视野和效率——快速理解新兴交叉领域的进展、辅助大型项目的管理、帮助你跟上快速变化的方法论前沿。

建议：利用你的经验优势——你比任何人都更清楚你的领域中什么是重要的、什么是正确的。这使你在使用 AI 时有更强的质量控制能力。但也要对 AI 可能带来的范式变化保持开放——你的博士生可能已经在用一些你不了解的工具做出了你做不到的事。

3.11 本章要点

让我们回顾本章的核心信息。

工具爆炸是真实的，但焦虑是可以管理的。 AI 工具的数量会继续增长，但大多数新工具是已有能力的变体。对你真正重要的突破不会被你错过。

理解模型格局比记住具体参数更重要。 OpenAI、Anthropic、Google、Meta、以及中国的模型厂商各有侧重。模型之间的竞争是多维的，没有全面碾压其他所有模型的「最强模型」。

基准测试有价值但有严重局限。 排行榜上的分数差距可能在你的实际使用中毫无意义。Chatbot Arena 比传统基准更接近真实体验，但最可靠的评估来自你自己的测试——用你领域内的问题来测试模型。

工具选择应该从任务出发。 先明确你的痛点，再寻找工具；区分核心工具和辅助工具；警惕锁定效应；理解「免费」的隐性成本；最贵最新的不一定最适合。

API 不是程序员的专利。 对于需要批量处理、可复现性和成本控制的研究任务，学会基本的 API 使用是值得的投资。

开源模型对学术研究有特殊价值。 数据隐私、模型透明度和严格的可复现性——这些学术研究的基本要求，在开源模型上更容易实现。

变化中有不变量。 模型和工具会更新换代，但评估工具的框架、设计提示词的原则、验证输出的习惯——这些元能力是稳定的。投资在元能力上，而不是追逐每一个新工具。

到这里，我们已经讨论了三个层面的判断力：理解 AI 的技术本质（第一章）、认识它的能力边界（第二章）、以及在工具丛林中做出明智的选择（本章）。

但有了好的工具和评估框架，一个更根本的问题浮现了——哪些事情应该交给 AI，哪些事情即使 AI 能做也不应该交给它？ 一个 AI 可以帮你写出一段流畅的论述，但如果那段论述中的思考不是你自己完成的，你从研究中获得了什么？一个 AI 可以帮你做文献综述，但如果你从未亲自阅读过那些论文，你对领域的理解建立在谁的判断之上？

下一章「思考不能外包」将直面这个问题。它不是一个技术问题，而是一个关于研究者身份和学术诚信的根本问题。在你开始把 AI 深度整合进研究流程之前，你需要先想清楚这条线画在哪里。

Bommasani, Rishi, Drew A. Hudson, Ehsan Adeli, Russ Altman, Simran Arber, Sydney von Arx, Michael S. Bernstein, et al. 2022. “On the Opportunities and Risks of Foundation Models.” arXiv Preprint arXiv:2108.07258. https://arxiv.org/abs/2108.07258.

Goodhart, Charles A. E. 1984. “Problems of Monetary Management: The UK Experience.” Monetary Theory and Practice, 91–121.

Hendrycks, Dan, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. 2021. “Measuring Massive Multitask Language Understanding.” In International Conference on Learning Representations. https://arxiv.org/abs/2009.03300.

Liang, Percy, Rishi Bommasani, Tony Lee, Dimitris Tsipras, Dilara Soylu, Michihiro Yasunaga, Yian Zhang, et al. 2023. “Holistic Evaluation of Language Models.” Annals of the New York Academy of Sciences 1525 (1): 140–46. https://doi.org/10.1111/nyas.15007.

OpenAI. 2023. “GPT-4 Technical Report.” OpenAI. https://arxiv.org/abs/2303.08774.

Touvron, Hugo, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, et al. 2023. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv Preprint arXiv:2307.09288. https://arxiv.org/abs/2307.09288.

Zheng, Lianmin, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, et al. 2024. “Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference.” arXiv Preprint arXiv:2403.04132. https://arxiv.org/abs/2403.04132.