科研工具比较（1-2）——测试网页版模型的能力

Last updated on March 16, 2026

科研工具比较（1/2）——测试网页版模型的能力
本页是一个 Demo，用来对比 3 个网页版大模型（GEMINI、GPT、Claude）在科研场景中的表现。通过截图与主观评价，帮助我自己选择更适合的「找论文、读论文、想 idea」的助手。

测试的模型

GEMINI-3.1 Pro（网页版，模型来自 Google 官方，导出对话图片来自 Gemini Voyage）
GPT-5.3（网页版，来自 SoruxGPT，导出对话图片为 SouruxGPT 自带）
Claude-Sonnet 4.6（网页版，来自 SoruxGPT，导出对话pdf为 SoruxGPT 自带，后pdf转图片）

soruxGPT：推荐码是：74e136cb-c728-4977-94f3-70140f310af4 ( 使用推荐码推荐朋友注册购买，双方可以获得 5R 返现。 )

强调

只做快速测试，反映模型基本能力。如果 Prompt 设计得更精细，模型应该能发挥更好效果。
测试结果由个人打分，反映作者个人偏好，且未在大规模数据上测试，不具有代表性，仅供观众参考对比和选择工具。

测试项目与评价维度

1. 找论文

时效性：能否找到 1–2 年内的最新相关论文？
准确性：返回的论文是否真正与 query 高度相关？是否是顶会 / 高质量期刊？
覆盖度：能否覆盖不同思路或分支，而不是只给一条路？

2. 论文理解

准确性：对论文核心方法 / 公式 / 实验设置的理解是否到位？
条理性：解释是否结构清晰，有逻辑、有层次？
可操作性：是否能提炼出可以直接在自己研究中复用的要点？

3. 论文 idea 创新

创新性：能不能给出真正「新」的角度，而不是简单的「微调原文」？
合理性：这些 idea 在当前领域是否站得住脚，而不是天马行空？
落地性：是否提出了可验证的实验方案或评估指标？

任务 1：找论文（Task 1）

说明：此任务主要测试三个模型在「找论文」场景下的表现（时效性 + 准确性 + 覆盖度）。每一行对应一个 prompt，每一列对应一个模型的截图。

实验设置

目的：以最快速最简单的方式获取需要的论文信息。

Gemini-3.1 Pro：没有类似其他两家的联网模式，只有一个相对耗时的 Deep Research，本次采用的是简单的对话，没有启动其他工具。
GPT-5.3：启用网页搜索功能。
Claude-Sonnet 4.6：启用 Web Search 能力，并勾选 Extended Thinking。

快速主观印象

Gemini：分析很透彻也很有条理，但由于没有搜索模式，找出的多是 24–25 年的文章。
GPT：分析比较散，可读性一般；优点是能找到最新的文章。
Claude：分析透彻，给的论文相对较少，但能提出某些论文的消融实验覆盖搜索意图，或者某个关键论文恰好能解释实验结果（即使我没有给任何数据），有让人眼前一亮的灵感，是加分点。

Task 1 使用的 Prompts

Prompt 编号	Prompt 内容（原文）
Prompt 1	请帮我找24-26年发表在顶会上的，有关视频模态到声音模态的任务的文章。特别是video-to-music领域。他们用了哪些视频编码器。以及不同编码器会有什么不同的效果。
Prompt 2	请帮我找24-26年发表在顶会上的，有关LLM+能力注入的文章。特别是数学推理领域。他们是怎么注入的，以及为什么出于什么目的要注入这种能力？
Prompt 3	请帮我找24-26年发表在顶会上的，有关Gemini，GPT，Claude三个闭源模型对比的文章。他们是在什么任务上进行对比，以及三个模型优劣的原因和分析？

GEMINI	GPT	Claude

任务 1 主观打分表（总分 10 分，已根据上方细则给出个人评分）

Prompt / 模型	GEMINI	GPT	Claude
Prompt 1	7	8	8
Prompt 2	7	7	8
Prompt 3	5	8	8
平均得分	6.33	7.66	8

任务 2：论文理解（Task 2）

说明：此任务主要测试三个模型在「理解论文」场景下的表现（准确性 + 条理性 + 可操作性）。同样是 3 行 prompt × 3 列模型截图。

实验设置

目的：测试对 2026 最新论文 的理解能力，尽量避免训练集中出现过。

GPT 与 Claude：关闭网页搜索功能，仅使用模型本身。
其余设置与任务 1 类似。

快速主观印象

Gemini：分析一般，整体偏简单。
GPT：分析十分全面，有自己的解读。
Claude：中规中矩，可读性高，但不太涉及复杂公式。

Task 2 使用的 Prompts

Prompt 编号	Prompt 内容（原文）
Prompt 1	《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》请分析这篇论文。
Prompt 2	《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》请分析这篇论文。
Prompt 3	《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》请分析这篇论文。

GEMINI	GPT	Claude

任务 2 主观打分表（总分 10 分，已根据上方细则给出个人评分）

Prompt / 模型	GEMINI	GPT	Claude
Prompt 1	7	9	8
Prompt 2	6	9	7
Prompt 3	6	9	7
平均得分	6.33	9	7.33

任务 3：论文 idea 创新（Task 3）

说明：此任务主要测试三个模型在「生成研究 idea」场景下的表现（创新性 + 合理性 + 落地性）。依然是 3 行 prompt × 3 列模型截图。

实验设置

目的：让模型针对给定的科研痛点，提供大概的抽象思路和可执行 idea，考察「创新 + 合理 + 可实现」三个维度。

GPT 与 Claude：关闭网页搜索功能，其余设置与前述类似。

快速主观印象

Gemini：给出的可实现方案与人类推理出来的方案相对一致，但给不了太多新灵感。
GPT：分析原因非常详细，针对原因给了很多可实现的方案，还会排列优先级。
Claude：分析原因相对简单，创新性一般，但也给出了一些可实现路径的思路。

Task 3 使用的 Prompts

Prompt 编号	Prompt 内容（原文）
Prompt 1	我们想做视频到音乐任务，目前用30w的30s片段训了一个200M的小模型，目前在30s左右的视频能够生成正常音色的片段，超过30s以上的视频就是噪音。原因是什么，下一步应该怎么做？关键点或者说创新点可以在什么地方？
Prompt 2	我们想尝试让模型拥有类似于CoT那种内化的指定特殊能力，从而提升模型在数学推理上的能力。但是目前SFT+GRPO这种范式似乎并没有太大提升。实验观察到SFT后指标大幅度下降，模型能够学会特殊格式，但是GRPO提升点很少。原因是什么，下一步应该怎么做？关键点或者说创新点可以在什么地方？
Prompt 3	我们想做一个benchmark用来测试闭源模型在科研上的能力。目前提出了找论文，论文理解，论文idea创新三个任务。还有什么可以测试的内容？在有这些内容之后，下一步应该怎么做？关键点或者说创新点可以在什么地方？

GEMINI	GPT	Claude

任务 3 主观打分表（总分 10 分，已根据上方细则给出个人评分）

Prompt / 模型	GEMINI	GPT	Claude
Prompt 1	8	10	7
Prompt 2	8	10	7
Prompt 3	8	9	6
平均得分	8	9.66	6.66

小结：如何使用本页 Demo

快速浏览截图：直接在表格中对比三模型回答风格、信息密度与版式。
点击放大细看：点击任意截图，会在新标签页打开原图，方便放大查看细节。
结合上方评价维度：可以一边看截图，一边在心里给每个模型按「找论文 / 论文理解 / idea 创新」三个维度打分，形成自己的主观结论。

This line appears after every note.

Notes mentioning this note

三个网页版大模型科研对比（个人小结）

本文是我在科研场景下，用 Gemini-3.1 Pro / GPT-5.3 / Claude-Sonnet 4.6 做的一次小范围对比，只看 3 个具体任务，结论只代表个人体验。完整demo含模型回答截图与打分细则）可以在这里看到： https://thomas-s-ai-home.netlify.app/model-comparison 本文中 GPT / Claude 均通过 SoruxGPT 使用：...

Here are all the notes in this garden, along with their links, visualized as a graph.