我的位置：上观号 > 上海经信委 > 文章详情

「科研品味」不再是人类专利？创智&复旦让 AI 学到科研品味

转自：上海经信委 2026-03-25 11:37:09

转载自：上海创智学院

引言

顶尖科学家与普通研究者之间的差距，往往不在于谁更会跑实验，而在于一种难以言喻的“科研品味”——一种精准判断什么研究值得做、什么方向能出大成果的前瞻力。

本研究发现，AI 也能学到科研品味！

利用大规模科研社区的反馈信号进行训练，模型不仅能判断研究的潜在影响力，还能提出更有影响力的科研思路，让 AI 向人类级别科学家迈出关键一步。

图1：研究训练的Scientific Judge科研判断力超过SOTA模型（左图）；Scientific Thinker训练后，科研想法构思能力有了大幅提升（右图）。

论文标题：AI Can Learn Scientific Taste
论文链接：https://arxiv.org/abs/2603.14473
项目网站：https://tongjingqi.github.io/AI-Can-Learn-Scientific-Taste
代码仓库：https://github.com/tongjingqi/AI-Can-Learn-Scientific-Taste
数据和模型：https://huggingface.co/collections/OpenMOSS-Team/ai-can-learn-scientific-taste

科研品味：AI 科学家缺失的重要能力

科研品味并不是主观任性的。正如哲学家休谟所言，品味的标准建立在“合格评判者的共同裁决”之上；康德也认为品味包含着某种广泛的共识。在科学研究中，这种共同裁决本质上是学术共同体长期互动的结果：被广泛复用、持续延伸的研究，因契合了科研共同体的集体判断而产生了高影响力。基于此，研究将科研品味定义为：判断和构思高影响力研究想法的能力。

目前，AI 科学家虽能检索文献、编写代码、运行实验，却恰恰在判断 “什么值得研究” 以及 “构思高影响力研究”方面有明显不足。为填补这一空白，本研究设计了科研判断与科研构思这两个任务：

科研判断（Scientific Judgement）：给两篇论文（标题+摘要），通过推理判断哪篇有更高的影响力（图2）。

图2：Scientific Judgement 任务示例，对应研究训练的 Scientific Judge 模型

科研构思（Scientific Ideation）：给一篇论文（标题+摘要），构思一个高潜力的后续科研思路，输出标题+摘要（图3）。

图3：Scientific Ideation任务示例，对应研究训练的Scientific Thinker模型

RLCF 范式：基于社区反馈的强化学习

科研构思并无标准答案，RLVR 不适用；而 RLHF 也存在局限：人工标注昂贵，且难以体现社区层面的集体偏好。

研究因此提出了新范式：Reinforcement Learning from Community Feedback（RLCF）。核心思想在于，有影响力的工作被广泛复用、跟进与延伸，形成海量科研社区的反馈信号（如引用数），天然可以用于训练。

图4：RLCF 范式的三个步骤。(1) 收集社区反馈（如引用数）；(2) GRPO 训练 Judge；(3) GRPO 训练 Thinker，用 Judge 对一组想法排序从而确定奖励。

RLCF 分为三步（图4）：

Step 1：收集社区反馈，构建偏好对：对于同领域、同年份论文，有明显引用差异的两篇论文配对。
Step 2：训练 Judge：学会正确判断两篇论文哪篇更有影响力。
Step 3：训练 Thinker：基于所给论文构思后续研究思路，用 Judge 作为奖励模型进行优化。

Scientific Judge：学会判断什么研究更有影响力

研究构建了 SciJudgeBench 这一大规模数据集：70万对 arXiv 论文（领域&年份严格匹配，引用数差异显著），为 Judge 的训练与评测提供坚实基础。

训练后的 Scientific Judge 表现出三个显著特点：

扩展效应明显

数据量越大、模型参数越多，性能越强（如图5），证明了学习可扩展。

图5：Scientific Judge 训练的 Scaling Effect，两种颜色对应 4B 和 30B 的模型

超越SOTA

30B 的 Judge 超越 Gemini 3 Pro、GLM-5 等顶尖模型，如表1。

表1：域内评测结果，测试和训练数据所处时间一致，均为 2024 年及之前

三重域外泛化（图6）

时间域外泛化：准确判断 2025 年（训练数据之后）的论文。
不同领域泛化：只训练 CS 领域论文，能泛化到数学、物理、生物等领域。
同行审稿标准：仅基于引用数训练后，比较 ICLR 得分也更加准确。

图6：三方面域外测试评测结果。上方：时间域外；中间：领域域外；下方：指标域外（ICLR 得分比较）。

由此可知，Judge 模型并不只是 “记忆”，而是学习到了一种通用的、可迁移的科研判断力，不受时间、具体领域或特定指标的限制。

Scientific Thinker：学会构思更有影响力的科研想法

科研构思能力实现显著提升。30B 和 4B 的 Thinker 模型构思的想法，对基座模型的胜率达到 75~80%，并泛化到“未来”论文（晚于训练数据）的研究主题上（图7上方）。

Scientific Judge 是更好的生成式奖励模型。以 Judge 作为奖励模型训练得到的 Thinker，表现远超使用基线奖励模型的版本（图7的上下对比）。

图7：Scientific Thinker相对训前模型的胜率。左、右分别是 30B 和 4B 的策略模型。第一行使用 Scientific Judge 作为奖励模型，第二行使用基线奖励模型。“Out-of-Domain” 指测试数据所处时间晚于训练数据。

与 SOTA 模型相媲美。30B 的 Thinker 与三个顶尖模型进行科研想法对决，也有出色表现（表2）。

表2：30B 的 Scientific Thinker 对战三个 SOTA 模型的胜率

至此，科研品味学习完美闭环：Scientific Judge 精准判断，并促成 Scientific Thinker 优秀构思。

总结

“科研品味” 并非人类科学家的专属天赋。通过从大量科研社区的反馈中学习，AI 也能学到科研品味，“从不可能到可能”，迈向人类水平的 AI 科学家。

欢迎转发，但请注明出处“上海经信委”

觉得不错请点赞！

用户名：
密码：
验证码：	看不清

	忘记密码？