⭐⭐⭐⭐acl'24 champ a competition Level dataset for fine Grained analyses of llms’ mathematical reasoning capabilities

Last updated on March 16, 2026

作者：Yujun Mao、 Yoon Kim 、 Yilun Zhou

机构：波士顿大学 MIT、salesforce

文章理解

之前工作的缺点：

论文贡献：

用实验验证一些观点，得出两个结论
- 一个模型可能在错误的推理路径下得到正确的答案
- 大部分model验证他们的解法是比较困难的
  相关工作
competition-level problems：MATH，对于公式的应用并没有那么直白
- CHAMP：我们注释相关的概念和提示，并在每个解决步骤上进一步标记它们。比如允许在上下文引入额外的注释信息。
我们的数据集包含第一个出现错误的步骤解析，可以用来验证模型在指定回答上的验证效果。
- PRM800K：MATH ，每个步骤标记为正确不正确和中性
- FELM:GSM8K和MATH 400道题目的注释
- 前两个通过众包来标注，我们数据集通过多种模型混合生成
论文想法和LLM如何理解不同文本是一致的。
- 较大参数量的模型会抵制吸收与训练过程不一样的知识
- 本篇论文是为了探索不同方式英雄LLM的行为

问题来自Problem-Solving Strategies by Engel，高中数学竞赛的经典。改写将其中证明题改为可验证最终答案的题目。270道题目：number theory (80), polynomial (50), sequence (50), inequality (50) and combinatorics (40).
注释概念和提示：概念是等式或定理，提示是特定题目的解题技巧和策略。同时还标注了category、name、parent concept
First wrong step (FWS) annotations:分析LLM生成的解法识别客观错误。
实验

表明只看final answer accuracy是不够的，对于full solution accuracy仍然存在问题。会夸大模型能力

将GT当做学生答案，让模型评判，大部分模型表现得较好，是由于他们没有对应的评判能力，所以一昧地输出No-mistake。

是一篇实验充分的讨论性文章，没有提出太多新颖的东西，但是用自己创造的dataset验证了很多idea。
可以看出不同参数的模型利用Concept和Hint的能力不同，同时模型在判断正误的能力上仍然需要进步。启发我们的就是我们提出的利用Q-former类似的结构加入的额外信息能否像这里的hint和concept一样起效果。
但是由于时代进步，MATH相对简单，同时model已经进化了一个level了，这个概念是否正确是存疑的。

This line appears after every note.

Math Reasoning [[ICML’25 Forest-of-Thought Scaling Test-Time Compute for Enhancing LLM Reasoning]]

Here are all the notes in this garden, along with their links, visualized as a graph.