三个网页版大模型科研对比（小红书版）

Last updated on March 16, 2026

这是我在实际科研场景里，对 Gemini-3.1 Pro / GPT-5.3 / Claude-Sonnet 4.6 做的一次「轻量横评」。
只做了少量、有代表性的测试题，结论完全是个人主观感受，仅供参考，不代表模型真实上限。

测试模型 & 使用方式

SoruxGPT 使用体验还不错，这次 GPT / Claude 的测试都是在这里完成的。

我只关心三个最贴近日常科研的能力：

每个场景我都设计了 3 个 Prompt，然后分别让三个模型独立作答，再根据自己设定的简单 rubric 打分。

Gemini-3.1 Pro：
- 优点：逻辑和结构都很清晰，解释型回答很好看
- 短板：没有方便的联网检索模式，在「找最新论文」上吃亏
GPT-5.3：
- 优点：信息量大、搜索范围广，能较快摸到最新工作
- 短板：有时候表达会有点「碎」，需要自己再做二次整理
Claude-Sonnet 4.6：
- 优点：整体回答风格舒服，偶尔会给出让人眼前一亮的 insight
- 短板：文献数量不一定多，但会挑重点讲

场景：

找 24–26 年顶会上的 Video→Music / LLM 能力注入 / 闭源大模型对比 等方向的最新论文

看模型能不能：找到对的论文、够新、而且覆盖不同思路

我的主观平均评分（满分 10 分）：

模型	平均得分	我的直观感受
Gemini-3.1 Pro	6.33 / 10	没有搜索模式，更多停留在 24–25 年，信息质量不错但不够「前沿」
GPT-5.3	7.66 / 10	能较好命中最新论文，但解读有点散，需要我再整理
Claude-Sonnet 4.6	8 / 10	论文数量不多，但会精准点到关键论文和消融实验，有启发性

对「找论文」这个子任务，目前我个人更愿意：

用 GPT 做第一轮大范围搜索

再用 Claude 帮我精读、筛重点和灵感

场景：

直接丢给模型几篇 2026 年的最新 Arxiv 论文

不开搜索，只让模型「闭卷」解释：在讲什么、核心贡献是什么、方法细节和局限在哪里

涉及论文包括：

《Plan and Budget: Effective and Efficient Test-Time Scaling on Reasoning Large Language Models》
《Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective》
《NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control》

我的主观平均评分（满分 10 分）：

如果是「快速看懂一堆新论文」，我会首选 GPT，然后用 Claude 帮忙做更友好的文字表达。

场景：

给模型一个真实科研痛点，例如：

Video→Music 小模型训练到 30 秒就变噪音

想给 LLM 注入某种「内化能力」，但 SFT+GRPO 效果不好

想设计一个「闭源模型科研能力 Benchmark」

让模型给出：原因分析 + 改进方向 + 可执行实验方案

我的主观平均评分（满分 10 分）：

模型	平均得分	我的直观感受
Gemini-3.1 Pro	8 / 10	能给出和人类专家类似的「稳妥方案」，偏保守但可实现
GPT-5.3	9.66 / 10	会系统分析原因，并给出一整套从 easy → hard 的实验路线，很像「实验负责人」
Claude-Sonnet 4.6	6.66 / 10	思路偏保守，创新性一般，但也会给出几条可执行的大方向

在「一起想点新东西」这个任务上，GPT 给我的惊喜最多，更像在和一个很上心的合作者开组会。

如果只选一个帮你做科研的「主力」网页端模型：
- 就这次测试来说，我会先选 GPT-5.3，作为「综合型选手」：
  - 找论文：范围广、时效性好
  - 论文理解：解释到位，有自己的结构
  - 想 idea：能给出一整套有优先级的实验路线
Gemini-3.1 Pro 更像一个稳重的「讲解型老师」，适合理顺概念、做清晰解释
Claude-Sonnet 4.6 像是「灵感型合作者」，偶尔一句话就能点醒一个实验思路

再次强调一遍：

如果你对具体 Prompt、截图细节感兴趣，可以到我主页里看完整版本的对比 Demo。

This line appears after every note.

There are no notes linking to this note.

Here are all the notes in this garden, along with their links, visualized as a graph.