Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology

基于评估反馈，我将直接改写这篇博客，聚焦于AI能力评估方法论、贝叶斯建模方法，以及in silico benchmark与真实世界性能差距这一核心洞见。

---
layout: post-wide
title: "Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology"
date: 2026-02-19 09:00:37 +0800
category: AI
author: Hank Li
use_math: true
source_url: https://arxiv.org/abs/2602.16703v1
generated_by: Claude Code CLI
---

## 一句话总结

这项 RCT 研究发现：2025 年中期的主流 LLM 对新手完成真实实验室生物学任务的成功率**没有统计显著提升**——这与 AI benchmark 上的亮眼表现形成鲜明对比，为 AI 能力评估方法论提供了重要的反例。

---

## 背景：AI 评估中的"基准幻觉"

AI 能力评估存在一个长期争议：**in silico benchmark 到底能不能预测真实世界表现？**

在 LLM 领域，这个问题尤为突出。GPT-4、Claude 等模型在 MMLU、GPQA、MedQA 等学术基准上表现惊人，但这些分数是否意味着它们能真正帮助用户完成复杂的现实任务？

这篇论文采用了一种少见但更严格的方法来回答这个问题：**随机对照实验（RCT）**。

研究者招募了一批没有相关背景的新手，让他们尝试完成病毒反向遗传学工作流程——一项需要专业知识和动手操作的复杂实验室任务。实验组可以使用 GPT-4o、Claude 3.5 Sonnet 等主流 LLM，对照组则没有 AI 辅助。

**核心发现：LLM 辅助组的任务完成率与对照组没有统计显著差异。**

---

## 为什么这个结论重要？

### 1. 反驳了"LLM 能显著降低技能门槛"的直觉

许多人（包括不少 AI 研究者）直觉上认为，LLM 能帮助新手"站在巨人肩膀上"，快速跨越知识门槛。这个实验给出了一个反例：

- LLM 在**信息检索和概念解释**上确实有帮助
- 但在需要**动手操作技能、实验判断力、错误排查**的环节，LLM 的辅助效果接近于零

这与认知科学中的"知识 vs. 能力"区别吻合——知道怎么做（declarative knowledge）和能够做到（procedural skill）是两回事。

### 2. 揭示了 Benchmark 与现实的鸿沟

| 维度 | Academic Benchmark | 真实世界任务 |
|------|-------------------|-------------|
| 评估形式 | 多选题 / 短答题 | 开放性、多步骤操作 |
| 反馈机制 | 即时标准答案 | 延迟、模糊、依赖物理现实 |
| 错误代价 | 低（重试即可） | 高（实验失败、资源损耗） |
| 知识类型 | 陈述性知识 | 程序性技能 + 情境判断 |
| LLM 优势 | 显著 | 有限 |

### 3. 对生物安全评估的意义

这个研究的原始动机之一是生物安全：**LLM 是否会降低危险生物实验的门槛？** 结果表明，至少在 2025 年中期的模型上，答案是"并不显著"。

这个发现本身是令人宽慰的——但它也警示我们：随着 LLM 能力的提升，这个结论可能在未来某个时间点发生反转，因此持续的真实世界评估比一次性 benchmark 更有价值。

---

## 方法论解析：贝叶斯序数回归

论文的统计方法值得详细讨论，因为它比普通的 t 检验或卡方检验更适合这类实验数据。

### 为什么用序数回归？

任务完成情况往往不是简单的 0/1，而是有层次的：

$$\text{完成度} \in \{\text{失败}, \text{部分完成}, \text{基本完成}, \text{完全完成}\}$$

这是**有序分类数据（ordinal data）**，用普通线性回归会损失信息，用二项逻辑回归则需要粗暴地二值化。序数回归（Ordinal Regression）正好处理这种情况。

### 贝叶斯框架的优势

论文使用贝叶斯方法而非频率派检验，核心原因：

1. **小样本友好**：RCT 招募参与者成本高，样本量往往有限，贝叶斯方法在小样本下的推断更可靠
2. **不依赖"显著性"二元判断**：可以直接报告效应量的后验分布，而非仅仅说"p < 0.05"
3. **先验知识整合**：可以引入合理的先验（如"LLM 至多有中等效果"）

### Python 实现示例

以下用 PyMC 实现类似的贝叶斯序数回归：

```python
import numpy as np
import pymc as pm
import arviz as az

# 模拟实验数据
# 0=失败, 1=部分完成, 2=基本完成, 3=完全完成
np.random.seed(42)
n_control = 50
n_treatment = 50

# 对照组：大多数人停留在低完成度
y_control = np.random.choice([0, 1, 2, 3], n_control, p=[0.45, 0.30, 0.15, 0.10])
# 实验组（LLM辅助）：分布略有变化，但差异不大
y_treatment = np.random.choice([0, 1, 2, 3], n_treatment, p=[0.40, 0.30, 0.18, 0.12])

y = np.concatenate([y_control, y_treatment])
treatment = np.concatenate([np.zeros(n_control), np.ones(n_treatment)])

with pm.Model() as ordinal_model:
    # 截距（阈值参数），控制各类别的边界
    # 使用有序约束确保 cutpoints 单调递增
    cutpoints = pm.Normal(
        "cutpoints",
        mu=[-1, 0, 1],
        sigma=1.5,
        transform=pm.distributions.transforms.ordered,
        shape=3
    )
    
    # 治疗效应（LLM辅助的效果）
    beta_treatment = pm.Normal("beta_treatment", mu=0, sigma=1)
    
    # 线性预测子
    eta = beta_treatment * treatment
    
    # 序数似然
    y_obs = pm.OrderedLogistic(
        "y_obs",
        eta=eta,
        cutpoints=cutpoints,
        observed=y
    )
    
    # MCMC 采样
    trace = pm.sample(2000, tune=1000, return_inferencedata=True, progressbar=False)

# 分析治疗效应
az.plot_posterior(trace, var_names=["beta_treatment"])
print(az.summary(trace, var_names=["beta_treatment"]))

解读输出

# 计算 P(beta > 0)，即LLM有正向效果的概率
beta_samples = trace.posterior["beta_treatment"].values.flatten()
p_positive = (beta_samples > 0).mean()
print(f"P(LLM有正向效果) = {p_positive:.3f}")

# 计算效应量的95%可信区间
hdi = az.hdi(trace, var_names=["beta_treatment"])
print(f"95% HDI: [{hdi['beta_treatment'].values[0]:.3f}, {hdi['beta_treatment'].values[1]:.3f}]")

# 如果区间包含0，说明效果不确定
# 如果 P(beta > 0) 接近 0.5，说明LLM辅助效果微弱

论文的实际结果类似于：beta_treatment 的后验分布几乎以 0 为中心，说明 LLM 辅助没有可检测的效应。

与其他 AI 能力评估研究的对比

METR 的自主任务评估

METR（Model Evaluation & Threat Research）机构采用类似的思路，通过让 AI 完成真实的工程任务来评估能力。他们的发现与本文一致：模型在开放性多步骤任务中的表现远低于封闭式 benchmark 预期。

HELM 和 BIG-bench 的局限性

HELM、BIG-bench 等综合 benchmark 的问题在于：

测试的是模型的静态知识，而非动态问题解决
用户使用 LLM 的方式高度多样化，benchmark 无法覆盖
“满分”的 benchmark 任务不代表真实场景下的实用性

Cybersecurity 领域的类比

网络安全领域的研究发现了类似规律：LLM 在 CTF 题目（格式化、有标准答案）上表现不错，但在真实渗透测试场景中，新手使用 LLM 的成功率提升有限，而经验丰富的专家反而能从 LLM 中获得更大加速——因为他们知道如何提问和验证答案。

核心洞见与批判性分析

洞见 1：LLM 是知识放大器，不是能力替代器

LLM 能快速提供信息，但不能替代：

实验判断力（”这个结果异常吗？”）
动手技能（操作熟练度）
错误诊断（”哪步出了问题？”）

类比：拥有一本完整的烹饪书，并不意味着你能做出米其林星级菜肴。

洞见 2：评估时机的重要性

论文特别强调”Mid-2025”的时间节点。这暗示了一个动态视角：今天的结论可能在模型迭代后失效。好的评估需要持续进行，而非一次性的。

洞见 3：样本选择对结论的影响

这项研究关注的是新手（novice）。如果研究对象换成有一定背景知识的中级研究者，结论可能不同。LLM 的效果可能呈现”倒 U 型”：

\[\text{LLM效用} = f(\text{用户背景知识})\]

完全新手：缺乏评估 LLM 输出的能力，难以纠错
中级用户：能提出好问题、验证答案，LLM 效用最大
专家：已有高效的工作流，LLM 边际价值递减

局限性

任务特异性：病毒反向遗传学是高度专业化的领域，结论未必推广到其他任务
提示工程技能：参与者如何使用 LLM 本身就是变量，研究没有控制提示质量
时效性：模型能力在快速进步，6个月后可能需要重新评估

什么时候该参考这个研究？

适用场景：

评估”AI 能否降低专业门槛”的政策决策
设计 AI 辅助工具时，理解用户先验知识的重要性
质疑过于乐观的 benchmark 宣传

不适用场景：

评估专家使用 LLM 的效率提升（本文研究的是新手）
推断 2026 年以后的模型能力（模型在快速迭代）
文本生成、代码补全等标准化任务（非本文场景）

结语

这篇论文最大的价值，不在于它研究了什么（病毒反向遗传学），而在于它怎么研究的：用 RCT + 贝叶斯序数回归来测量 LLM 的真实效果，而不是依赖 benchmark 分数。

对 AI 研究者而言，这是一个重要提醒：我们需要更多真实世界的 RCT 评估，而不仅仅是更难的 benchmark。 当 GPT-5 宣称在某个评估集上超越人类水平时，真正的问题是：它能帮助真实的用户完成真实的任务吗？

答案需要实验，不需要猜测。 ```