科研工具比较(1-2)——测试网页版模型的能力
科研工具比较(1/2)——测试网页版模型的能力
本页是一个 Demo,用来对比 3 个网页版大模型(GEMINI、GPT、Claude)在科研场景中的表现。通过截图与主观评价,帮助我自己选择更适合的「找论文、读论文、想 idea」的助手。
测试的模型
- GEMINI-3.1 Pro(网页版,模型来自 Google 官方,导出对话图片来自 Gemini Voyage)
- GPT-5.3(网页版,来自 SoruxGPT,导出对话图片为 SouruxGPT 自带)
- Claude-Sonnet 4.6(网页版,来自 SoruxGPT,导出对话pdf为 SoruxGPT 自带,后pdf转图片)
soruxGPT:推荐码是:74e136cb-c728-4977-94f3-70140f310af4 ( 使用推荐码推荐朋友注册购买,双方可以获得 5R 返现。 )
强调
- 只做快速测试,反映模型基本能力。如果 Prompt 设计得更精细,模型应该能发挥更好效果。
- 测试结果由个人打分,反映作者个人偏好,且未在大规模数据上测试,不具有代表性,仅供观众参考对比和选择工具。
测试项目与评价维度
1. 找论文
- 时效性:能否找到 1–2 年内的最新相关论文?
- 准确性:返回的论文是否真正与 query 高度相关?是否是顶会 / 高质量期刊?
- 覆盖度:能否覆盖不同思路或分支,而不是只给一条路?
2. 论文理解
- 准确性:对论文核心方法 / 公式 / 实验设置的理解是否到位?
- 条理性:解释是否结构清晰,有逻辑、有层次?
- 可操作性:是否能提炼出可以直接在自己研究中复用的要点?
3. 论文 idea 创新
- 创新性:能不能给出真正「新」的角度,而不是简单的「微调原文」?
- 合理性:这些 idea 在当前领域是否站得住脚,而不是天马行空?
- 落地性:是否提出了可验证的实验方案或评估指标?
任务 1:找论文(Task 1)
说明:此任务主要测试三个模型在「找论文」场景下的表现(时效性 + 准确性 + 覆盖度)。每一行对应一个 prompt,每一列对应一个模型的截图。
实验设置
目的:以最快速最简单的方式获取需要的论文信息。
- Gemini-3.1 Pro:没有类似其他两家的联网模式,只有一个相对耗时的 Deep Research,本次采用的是简单的对话,没有启动其他工具。
- GPT-5.3:启用网页搜索功能。
- Claude-Sonnet 4.6:启用 Web Search 能力,并勾选 Extended Thinking。
快速主观印象
- Gemini:分析很透彻也很有条理,但由于没有搜索模式,找出的多是 24–25 年的文章。
- GPT:分析比较散,可读性一般;优点是能找到最新的文章。
- Claude:分析透彻,给的论文相对较少,但能提出某些论文的消融实验覆盖搜索意图,或者某个关键论文恰好能解释实验结果(即使我没有给任何数据),有让人眼前一亮的灵感,是加分点。
Task 1 使用的 Prompts
| Prompt 编号 | Prompt 内容(原文) |
|---|---|
| Prompt 1 | 请帮我找24-26年发表在顶会上的,有关视频模态到声音模态的任务的文章。特别是video-to-music领域。他们用了哪些视频编码器。以及不同编码器会有什么不同的效果。 |
| Prompt 2 | 请帮我找24-26年发表在顶会上的,有关LLM+能力注入的文章。特别是数学推理领域。他们是怎么注入的,以及为什么出于什么目的要注入这种能力? |
| Prompt 3 | 请帮我找24-26年发表在顶会上的,有关Gemini,GPT,Claude三个闭源模型对比的文章。他们是在什么任务上进行对比,以及三个模型优劣的原因和分析? |
| GEMINI | GPT | Claude |
|---|---|---|
|
|
|
|
|
|
|
|
|
任务 1 主观打分表(总分 10 分,已根据上方细则给出个人评分)
| Prompt / 模型 | GEMINI | GPT | Claude |
|---|---|---|---|
| Prompt 1 | 7 | 8 | 8 |
| Prompt 2 | 7 | 7 | 8 |
| Prompt 3 | 5 | 8 | 8 |
| 平均得分 | 6.33 | 7.66 | 8 |
任务 2:论文理解(Task 2)
说明:此任务主要测试三个模型在「理解论文」场景下的表现(准确性 + 条理性 + 可操作性)。同样是 3 行 prompt × 3 列模型截图。
实验设置
目的:测试对 2026 最新论文 的理解能力,尽量避免训练集中出现过。
- GPT 与 Claude:关闭网页搜索功能,仅使用模型本身。
- 其余设置与任务 1 类似。
快速主观印象
- Gemini:分析一般,整体偏简单。
- GPT:分析十分全面,有自己的解读。
- Claude:中规中矩,可读性高,但不太涉及复杂公式。
Task 2 使用的 Prompts
| Prompt 编号 | Prompt 内容(原文) |
|---|---|
| Prompt 1 | 《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》请分析这篇论文。 |
| Prompt 2 | 《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》请分析这篇论文。 |
| Prompt 3 | 《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》请分析这篇论文。 |
| GEMINI | GPT | Claude |
|---|---|---|
|
|
|
|
|
|
|
|
|
任务 2 主观打分表(总分 10 分,已根据上方细则给出个人评分)
| Prompt / 模型 | GEMINI | GPT | Claude |
|---|---|---|---|
| Prompt 1 | 7 | 9 | 8 |
| Prompt 2 | 6 | 9 | 7 |
| Prompt 3 | 6 | 9 | 7 |
| 平均得分 | 6.33 | 9 | 7.33 |
任务 3:论文 idea 创新(Task 3)
说明:此任务主要测试三个模型在「生成研究 idea」场景下的表现(创新性 + 合理性 + 落地性)。依然是 3 行 prompt × 3 列模型截图。
实验设置
目的:让模型针对给定的科研痛点,提供大概的抽象思路和可执行 idea,考察「创新 + 合理 + 可实现」三个维度。
- GPT 与 Claude:关闭网页搜索功能,其余设置与前述类似。
快速主观印象
- Gemini:给出的可实现方案与人类推理出来的方案相对一致,但给不了太多新灵感。
- GPT:分析原因非常详细,针对原因给了很多可实现的方案,还会排列优先级。
- Claude:分析原因相对简单,创新性一般,但也给出了一些可实现路径的思路。
Task 3 使用的 Prompts
| Prompt 编号 | Prompt 内容(原文) |
|---|---|
| Prompt 1 | 我们想做视频到音乐任务,目前用30w的30s片段训了一个200M的小模型,目前在30s左右的视频能够生成正常音色的片段,超过30s以上的视频就是噪音。原因是什么,下一步应该怎么做?关键点或者说创新点可以在什么地方? |
| Prompt 2 | 我们想尝试让模型拥有类似于CoT那种内化的指定特殊能力,从而提升模型在数学推理上的能力。但是目前SFT+GRPO这种范式似乎并没有太大提升。实验观察到SFT后指标大幅度下降,模型能够学会特殊格式,但是GRPO提升点很少。原因是什么,下一步应该怎么做?关键点或者说创新点可以在什么地方? |
| Prompt 3 | 我们想做一个benchmark用来测试闭源模型在科研上的能力。目前提出了找论文,论文理解,论文idea创新三个任务。还有什么可以测试的内容?在有这些内容之后,下一步应该怎么做?关键点或者说创新点可以在什么地方? |
| GEMINI | GPT | Claude |
|---|---|---|
|
|
|
|
|
|
|
|
|
任务 3 主观打分表(总分 10 分,已根据上方细则给出个人评分)
| Prompt / 模型 | GEMINI | GPT | Claude |
|---|---|---|---|
| Prompt 1 | 8 | 10 | 7 |
| Prompt 2 | 8 | 10 | 7 |
| Prompt 3 | 8 | 9 | 6 |
| 平均得分 | 8 | 9.66 | 6.66 |
小结:如何使用本页 Demo
- 快速浏览截图:直接在表格中对比三模型回答风格、信息密度与版式。
- 点击放大细看:点击任意截图,会在新标签页打开原图,方便放大查看细节。
- 结合上方评价维度:可以一边看截图,一边在心里给每个模型按「找论文 / 论文理解 / idea 创新」三个维度打分,形成自己的主观结论。
This line appears after every note.