Icml'25 forest Of Thought scaling test Time compute for enhancing llm reasoning

Last updated on March 16, 2026

ICML’25 Forest-of-Thought Scaling Test-Time Compute for Enhancing LLM Reasoning

作者：Zhenni Bi † Kai Han † Chuanjian Liu Yehui Tang * Yunhe Wang * 机构：华为诺亚方舟实验室

文章理解

之前工作的缺点：

这个方法有n个推理树，每个树从不同角度输入问题。以稀疏激活的方式考虑这些树的结果，同时通过决策策略产生高质量的响应。此外，提出了一种动态自我纠正策略来提高准确性。

稀疏激活确保选择最相关的推理树进行计算。对于每个树的每一层，我们选择得分最高的节点进行下一步推理，如果树没法给出有效输出，则提前终止这个树的扩展。

“面对复杂的问题时，我们的认知过程通常会从快速，直观的“快速思考”转变为更深入，更系统的‘缓慢思考’”。构建知识库B支持推理过程，通过检索知识库B中最相关的问题来引入额外知识。

方法动态评估每个推理步骤，当分数低于阈值，自动矫正和修复误差。

Consensus-Guided Expert Decision (CGED)，交给LLM专家指导推理过程。每个激活树都生成了最佳解决方案，通过共识投票和专家评估确定最终答案。

LLM reasoning benchmarks：Game of 24、GSM8K、 MATH Model : Llama3-8B-Instruct、Mistral-7B、GLM-4-9B

每个策略进行消融实验

相同计算资源下的准确率

不同参数设置下的实验

自动矫正最佳阈值实验

子树越多，准确率提升越大

不同难度下的表现

早停策略的消融实验

在Game of 24 与各种主流方法的对比

在三个不同难度的数据集上实验，证明方法增强模型性能的有效性。

消融实验充分，但是我很好奇是怎么保证计算资源相同的，同时我对最后一个实验的动机有疑问，为什么使用Qwen和QwQ，以及和rStar-MATH对比的原因是什么，像是reviewer说了然后补充的实验。
好像比较流行从算法上面迁移一些思路到LLM运用上，还有必要现在学算法吗。
工作扩展

This line appears after every note.

Math Reasoning [[ICML’25 Forest-of-Thought Scaling Test-Time Compute for Enhancing LLM Reasoning]]

Here are all the notes in this garden, along with their links, visualized as a graph.