科研工具比较(1-2)——测试网页版模型的能力

科研工具比较(1/2)——测试网页版模型的能力
本页是一个 Demo,用来对比 3 个网页版大模型(GEMINI、GPT、Claude)在科研场景中的表现。通过截图与主观评价,帮助我自己选择更适合的「找论文、读论文、想 idea」的助手。

测试的模型

  • GEMINI-3.1 Pro(网页版,模型来自 Google 官方,导出对话图片来自 Gemini Voyage
  • GPT-5.3(网页版,来自 SoruxGPT,导出对话图片为 SouruxGPT 自带)
  • Claude-Sonnet 4.6(网页版,来自 SoruxGPT,导出对话pdf为 SoruxGPT 自带,后pdf转图片)

soruxGPT:推荐码是:74e136cb-c728-4977-94f3-70140f310af4 ( 使用推荐码推荐朋友注册购买,双方可以获得 5R 返现。 )

强调

  • 只做快速测试,反映模型基本能力。如果 Prompt 设计得更精细,模型应该能发挥更好效果。
  • 测试结果由个人打分,反映作者个人偏好,且未在大规模数据上测试,不具有代表性,仅供观众参考对比和选择工具。

测试项目与评价维度

1. 找论文

  • 时效性:能否找到 1–2 年内的最新相关论文?
  • 准确性:返回的论文是否真正与 query 高度相关?是否是顶会 / 高质量期刊?
  • 覆盖度:能否覆盖不同思路或分支,而不是只给一条路?

2. 论文理解

  • 准确性:对论文核心方法 / 公式 / 实验设置的理解是否到位?
  • 条理性:解释是否结构清晰,有逻辑、有层次?
  • 可操作性:是否能提炼出可以直接在自己研究中复用的要点?

3. 论文 idea 创新

  • 创新性:能不能给出真正「新」的角度,而不是简单的「微调原文」?
  • 合理性:这些 idea 在当前领域是否站得住脚,而不是天马行空?
  • 落地性:是否提出了可验证的实验方案或评估指标?

任务 1:找论文(Task 1)

说明:此任务主要测试三个模型在「找论文」场景下的表现(时效性 + 准确性 + 覆盖度)。每一行对应一个 prompt,每一列对应一个模型的截图。

实验设置

目的:以最快速最简单的方式获取需要的论文信息。

  • Gemini-3.1 Pro:没有类似其他两家的联网模式,只有一个相对耗时的 Deep Research,本次采用的是简单的对话,没有启动其他工具。
  • GPT-5.3:启用网页搜索功能。
  • Claude-Sonnet 4.6:启用 Web Search 能力,并勾选 Extended Thinking。

快速主观印象

  • Gemini:分析很透彻也很有条理,但由于没有搜索模式,找出的多是 24–25 年的文章。
  • GPT:分析比较散,可读性一般;优点是能找到最新的文章。
  • Claude:分析透彻,给的论文相对较少,但能提出某些论文的消融实验覆盖搜索意图,或者某个关键论文恰好能解释实验结果(即使我没有给任何数据),有让人眼前一亮的灵感,是加分点。

Task 1 使用的 Prompts

Prompt 编号 Prompt 内容(原文)
Prompt 1 请帮我找24-26年发表在顶会上的,有关视频模态到声音模态的任务的文章。特别是video-to-music领域。他们用了哪些视频编码器。以及不同编码器会有什么不同的效果。
Prompt 2 请帮我找24-26年发表在顶会上的,有关LLM+能力注入的文章。特别是数学推理领域。他们是怎么注入的,以及为什么出于什么目的要注入这种能力?
Prompt 3 请帮我找24-26年发表在顶会上的,有关Gemini,GPT,Claude三个闭源模型对比的文章。他们是在什么任务上进行对比,以及三个模型优劣的原因和分析?
GEMINI GPT Claude
Task1 Prompt1 GEMINI Task1 Prompt1 GPT Task1 Prompt1 Claude
Task1 Prompt2 GEMINI Task1 Prompt2 GPT Task1 Prompt2 Claude
Task1 Prompt3 GEMINI Task1 Prompt3 GPT Task1 Prompt3 Claude

任务 1 主观打分表(总分 10 分,已根据上方细则给出个人评分)

Prompt / 模型 GEMINI GPT Claude
Prompt 1 7 8 8
Prompt 2 7 7 8
Prompt 3 5 8 8
平均得分 6.33 7.66 8

任务 2:论文理解(Task 2)

说明:此任务主要测试三个模型在「理解论文」场景下的表现(准确性 + 条理性 + 可操作性)。同样是 3 行 prompt × 3 列模型截图。

实验设置

目的:测试对 2026 最新论文 的理解能力,尽量避免训练集中出现过。

  • GPT 与 Claude:关闭网页搜索功能,仅使用模型本身。
  • 其余设置与任务 1 类似。

快速主观印象

  • Gemini:分析一般,整体偏简单。
  • GPT:分析十分全面,有自己的解读。
  • Claude:中规中矩,可读性高,但不太涉及复杂公式。

Task 2 使用的 Prompts

Prompt 编号 Prompt 内容(原文)
Prompt 1 《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》请分析这篇论文。
Prompt 2 《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》请分析这篇论文。
Prompt 3 《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》请分析这篇论文。
GEMINI GPT Claude
Task2 Prompt1 GEMINI Task2 Prompt1 GPT Task2 Prompt1 Claude
Task2 Prompt2 GEMINI Task2 Prompt2 GPT Task2 Prompt2 Claude
Task2 Prompt3 GEMINI Task2 Prompt3 GPT Task2 Prompt3 Claude

任务 2 主观打分表(总分 10 分,已根据上方细则给出个人评分)

Prompt / 模型 GEMINI GPT Claude
Prompt 1 7 9 8
Prompt 2 6 9 7
Prompt 3 6 9 7
平均得分 6.33 9 7.33

任务 3:论文 idea 创新(Task 3)

说明:此任务主要测试三个模型在「生成研究 idea」场景下的表现(创新性 + 合理性 + 落地性)。依然是 3 行 prompt × 3 列模型截图。

实验设置

目的:让模型针对给定的科研痛点,提供大概的抽象思路和可执行 idea,考察「创新 + 合理 + 可实现」三个维度。

  • GPT 与 Claude:关闭网页搜索功能,其余设置与前述类似。

快速主观印象

  • Gemini:给出的可实现方案与人类推理出来的方案相对一致,但给不了太多新灵感
  • GPT:分析原因非常详细,针对原因给了很多可实现的方案,还会排列优先级
  • Claude:分析原因相对简单,创新性一般,但也给出了一些可实现路径的思路。

Task 3 使用的 Prompts

Prompt 编号 Prompt 内容(原文)
Prompt 1 我们想做视频到音乐任务,目前用30w的30s片段训了一个200M的小模型,目前在30s左右的视频能够生成正常音色的片段,超过30s以上的视频就是噪音。原因是什么,下一步应该怎么做?关键点或者说创新点可以在什么地方?
Prompt 2 我们想尝试让模型拥有类似于CoT那种内化的指定特殊能力,从而提升模型在数学推理上的能力。但是目前SFT+GRPO这种范式似乎并没有太大提升。实验观察到SFT后指标大幅度下降,模型能够学会特殊格式,但是GRPO提升点很少。原因是什么,下一步应该怎么做?关键点或者说创新点可以在什么地方?
Prompt 3 我们想做一个benchmark用来测试闭源模型在科研上的能力。目前提出了找论文,论文理解,论文idea创新三个任务。还有什么可以测试的内容?在有这些内容之后,下一步应该怎么做?关键点或者说创新点可以在什么地方?
GEMINI GPT Claude
Task3 Prompt1 GEMINI Task3 Prompt1 GPT Task3 Prompt1 Claude
Task3 Prompt2 GEMINI Task3 Prompt2 GPT Task3 Prompt2 Claude
Task3 Prompt3 GEMINI Task3 Prompt3 GPT Task3 Prompt3 Claude

任务 3 主观打分表(总分 10 分,已根据上方细则给出个人评分)

Prompt / 模型 GEMINI GPT Claude
Prompt 1 8 10 7
Prompt 2 8 10 7
Prompt 3 8 9 6
平均得分 8 9.66 6.66

小结:如何使用本页 Demo

  • 快速浏览截图:直接在表格中对比三模型回答风格、信息密度与版式。
  • 点击放大细看:点击任意截图,会在新标签页打开原图,方便放大查看细节。
  • 结合上方评价维度:可以一边看截图,一边在心里给每个模型按「找论文 / 论文理解 / idea 创新」三个维度打分,形成自己的主观结论。

This line appears after every note.

Notes mentioning this note


Here are all the notes in this garden, along with their links, visualized as a graph.