三个网页版大模型科研对比(小红书版)

这是我在实际科研场景里,对 Gemini-3.1 Pro / GPT-5.3 / Claude-Sonnet 4.6 做的一次「轻量横评」。
只做了少量、有代表性的测试题,结论完全是个人主观感受,仅供参考,不代表模型真实上限

测试模型 & 使用方式

  • Gemini-3.1 Pro(网页版)
    • 来自 Google 官方网页端
    • 截图通过 Gemini Voyage 导出
  • GPT-5.3(网页版)
    • 使用平台:SoruxGPT
    • 截图为 SoruxGPT 自带导出
  • Claude-Sonnet 4.6(网页版)
    • 使用平台:SoruxGPT
    • 对话先导出为 PDF,再转成图片

SoruxGPT 使用体验还不错,这次 GPT / Claude 的测试都是在这里完成的。

测试设计(3 个核心科研场景)

我只关心三个最贴近日常科研的能力:

  1. 找论文:能不能帮我快速、靠谱地把「该看的论文」抓出来
  2. 论文理解:能不能看懂 2026 年的新论文,并且讲清楚
  3. 论文 idea 创新:在我给定一个具体科研痛点后,能不能提出有点新意、又能落地的想法

每个场景我都设计了 3 个 Prompt,然后分别让三个模型独立作答,再根据自己设定的简单 rubric 打分。

总体印象:一句话总结三模型

  • Gemini-3.1 Pro
    • 优点:逻辑和结构都很清晰,解释型回答很好看
    • 短板:没有方便的联网检索模式,在「找最新论文」上吃亏
  • GPT-5.3
    • 优点:信息量大、搜索范围广,能较快摸到最新工作
    • 短板:有时候表达会有点「碎」,需要自己再做二次整理
  • Claude-Sonnet 4.6
    • 优点:整体回答风格舒服,偶尔会给出让人眼前一亮的 insight
    • 短板:文献数量不一定多,但会挑重点讲

场景一:找论文(Task 1)

场景:

  • 找 24–26 年顶会上的 Video→Music / LLM 能力注入 / 闭源大模型对比 等方向的最新论文
  • 看模型能不能:找到对的论文、够新、而且覆盖不同思路

我的主观平均评分(满分 10 分):

模型 平均得分 我的直观感受
Gemini-3.1 Pro 6.33 / 10 没有搜索模式,更多停留在 24–25 年,信息质量不错但不够「前沿」
GPT-5.3 7.66 / 10 能较好命中最新论文,但解读有点散,需要我再整理
Claude-Sonnet 4.6 8 / 10 论文数量不多,但会精准点到关键论文和消融实验,有启发性

对「找论文」这个子任务,目前我个人更愿意:

  • GPT 做第一轮大范围搜索
  • 再用 Claude 帮我精读、筛重点和灵感

场景二:论文理解(Task 2)

场景:

  • 直接丢给模型几篇 2026 年的最新 Arxiv 论文
  • 不开搜索,只让模型「闭卷」解释:在讲什么、核心贡献是什么、方法细节和局限在哪里

涉及论文包括:

  • 《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》
  • 《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》
  • 《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》

我的主观平均评分(满分 10 分):

模型 平均得分 我的直观感受
Gemini-3.1 Pro 6.33 / 10 能给出大概意思,但比较「平」、技术细节不多
GPT-5.3 9 / 10 整体理解非常到位,会主动补充自己的结构化解读
Claude-Sonnet 4.6 7.33 / 10 表达清晰易读,但在复杂公式/细节上点得不够深入

如果是「快速看懂一堆新论文」,我会首选 GPT,然后用 Claude 帮忙做更友好的文字表达。

场景三:论文 idea 创新(Task 3)

场景:

  • 给模型一个真实科研痛点,例如:
    • Video→Music 小模型训练到 30 秒就变噪音
    • 想给 LLM 注入某种「内化能力」,但 SFT+GRPO 效果不好
    • 想设计一个「闭源模型科研能力 Benchmark」
  • 让模型给出:原因分析 + 改进方向 + 可执行实验方案

我的主观平均评分(满分 10 分):

模型 平均得分 我的直观感受
Gemini-3.1 Pro 8 / 10 能给出和人类专家类似的「稳妥方案」,偏保守但可实现
GPT-5.3 9.66 / 10 会系统分析原因,并给出一整套从 easy → hard 的实验路线,很像「实验负责人」
Claude-Sonnet 4.6 6.66 / 10 思路偏保守,创新性一般,但也会给出几条可执行的大方向

在「一起想点新东西」这个任务上,GPT 给我的惊喜最多,更像在和一个很上心的合作者开组会。

一个非常主观的小结

  • 如果只选一个帮你做科研的「主力」网页端模型
    • 就这次测试来说,我会先选 GPT-5.3,作为「综合型选手」:
      • 找论文:范围广、时效性好
      • 论文理解:解释到位,有自己的结构
      • 想 idea:能给出一整套有优先级的实验路线
  • Gemini-3.1 Pro 更像一个稳重的「讲解型老师」,适合理顺概念、做清晰解释
  • Claude-Sonnet 4.6 像是「灵感型合作者」,偶尔一句话就能点醒一个实验思路

再次强调一遍:

  • 测试题目很少,完全不具备统计代表性
  • 分数只是我个人在当前科研阶段的偏好
  • 真正适合你的模型,一定和你的研究方向 & 使用习惯强相关

如果你对具体 Prompt、截图细节感兴趣,可以到我主页里看完整版本的对比 Demo。

This line appears after every note.

Notes mentioning this note

There are no notes linking to this note.


Here are all the notes in this garden, along with their links, visualized as a graph.