三个网页版大模型科研对比(小红书版)
这是我在实际科研场景里,对 Gemini-3.1 Pro / GPT-5.3 / Claude-Sonnet 4.6 做的一次「轻量横评」。
只做了少量、有代表性的测试题,结论完全是个人主观感受,仅供参考,不代表模型真实上限。
测试模型 & 使用方式
-
Gemini-3.1 Pro(网页版)
- 来自 Google 官方网页端
- 截图通过 Gemini Voyage 导出
-
GPT-5.3(网页版)
- 使用平台:SoruxGPT
- 截图为 SoruxGPT 自带导出
-
Claude-Sonnet 4.6(网页版)
- 使用平台:SoruxGPT
- 对话先导出为 PDF,再转成图片
SoruxGPT 使用体验还不错,这次 GPT / Claude 的测试都是在这里完成的。
测试设计(3 个核心科研场景)
我只关心三个最贴近日常科研的能力:
- 找论文:能不能帮我快速、靠谱地把「该看的论文」抓出来
- 论文理解:能不能看懂 2026 年的新论文,并且讲清楚
- 论文 idea 创新:在我给定一个具体科研痛点后,能不能提出有点新意、又能落地的想法
每个场景我都设计了 3 个 Prompt,然后分别让三个模型独立作答,再根据自己设定的简单 rubric 打分。
总体印象:一句话总结三模型
-
Gemini-3.1 Pro:
- 优点:逻辑和结构都很清晰,解释型回答很好看
- 短板:没有方便的联网检索模式,在「找最新论文」上吃亏
-
GPT-5.3:
- 优点:信息量大、搜索范围广,能较快摸到最新工作
- 短板:有时候表达会有点「碎」,需要自己再做二次整理
-
Claude-Sonnet 4.6:
- 优点:整体回答风格舒服,偶尔会给出让人眼前一亮的 insight
- 短板:文献数量不一定多,但会挑重点讲
场景一:找论文(Task 1)
场景:
- 找 24–26 年顶会上的 Video→Music / LLM 能力注入 / 闭源大模型对比 等方向的最新论文
- 看模型能不能:找到对的论文、够新、而且覆盖不同思路
我的主观平均评分(满分 10 分):
| 模型 | 平均得分 | 我的直观感受 |
|---|---|---|
| Gemini-3.1 Pro | 6.33 / 10 | 没有搜索模式,更多停留在 24–25 年,信息质量不错但不够「前沿」 |
| GPT-5.3 | 7.66 / 10 | 能较好命中最新论文,但解读有点散,需要我再整理 |
| Claude-Sonnet 4.6 | 8 / 10 | 论文数量不多,但会精准点到关键论文和消融实验,有启发性 |
对「找论文」这个子任务,目前我个人更愿意:
- 用 GPT 做第一轮大范围搜索
- 再用 Claude 帮我精读、筛重点和灵感
场景二:论文理解(Task 2)
场景:
- 直接丢给模型几篇 2026 年的最新 Arxiv 论文
- 不开搜索,只让模型「闭卷」解释:在讲什么、核心贡献是什么、方法细节和局限在哪里
涉及论文包括:
- 《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》
- 《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》
- 《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》
我的主观平均评分(满分 10 分):
| 模型 | 平均得分 | 我的直观感受 |
|---|---|---|
| Gemini-3.1 Pro | 6.33 / 10 | 能给出大概意思,但比较「平」、技术细节不多 |
| GPT-5.3 | 9 / 10 | 整体理解非常到位,会主动补充自己的结构化解读 |
| Claude-Sonnet 4.6 | 7.33 / 10 | 表达清晰易读,但在复杂公式/细节上点得不够深入 |
如果是「快速看懂一堆新论文」,我会首选 GPT,然后用 Claude 帮忙做更友好的文字表达。
场景三:论文 idea 创新(Task 3)
场景:
- 给模型一个真实科研痛点,例如:
- Video→Music 小模型训练到 30 秒就变噪音
- 想给 LLM 注入某种「内化能力」,但 SFT+GRPO 效果不好
- 想设计一个「闭源模型科研能力 Benchmark」
- 让模型给出:原因分析 + 改进方向 + 可执行实验方案
我的主观平均评分(满分 10 分):
| 模型 | 平均得分 | 我的直观感受 |
|---|---|---|
| Gemini-3.1 Pro | 8 / 10 | 能给出和人类专家类似的「稳妥方案」,偏保守但可实现 |
| GPT-5.3 | 9.66 / 10 | 会系统分析原因,并给出一整套从 easy → hard 的实验路线,很像「实验负责人」 |
| Claude-Sonnet 4.6 | 6.66 / 10 | 思路偏保守,创新性一般,但也会给出几条可执行的大方向 |
在「一起想点新东西」这个任务上,GPT 给我的惊喜最多,更像在和一个很上心的合作者开组会。
一个非常主观的小结
-
如果只选一个帮你做科研的「主力」网页端模型:
- 就这次测试来说,我会先选 GPT-5.3,作为「综合型选手」:
- 找论文:范围广、时效性好
- 论文理解:解释到位,有自己的结构
- 想 idea:能给出一整套有优先级的实验路线
- 就这次测试来说,我会先选 GPT-5.3,作为「综合型选手」:
- Gemini-3.1 Pro 更像一个稳重的「讲解型老师」,适合理顺概念、做清晰解释
- Claude-Sonnet 4.6 像是「灵感型合作者」,偶尔一句话就能点醒一个实验思路
再次强调一遍:
- 测试题目很少,完全不具备统计代表性
- 分数只是我个人在当前科研阶段的偏好
- 真正适合你的模型,一定和你的研究方向 & 使用习惯强相关
如果你对具体 Prompt、截图细节感兴趣,可以到我主页里看完整版本的对比 Demo。
This line appears after every note.
Notes mentioning this note
There are no notes linking to this note.