Icml'25 cogmath assessing llms’ authentic mathematical ability from a human cognitive perspective

Last updated on March 16, 2026

ICML’25 CogMath Assessing LLMs’ Authentic Mathematical Ability from a Human Cognitive Perspective

作者：Jiayu Liu 1 2 Zhenya Huang 2 3 Wei Dai 1 Cheng Cheng 2 3 Jinze Wu 2 4 Jing Sha 2 4 Song Li 2 4 Qi Liu 1 2 Shijin Wang 2 4 Enhong Chen 2 3

机构：中国科学技术大学

文章理解

Facts：

典型dataset：

之前工作的缺点：

之前的工作都是针对特定任务的，如长文本理解
总是看粗粒度的准确度测量，而不能捕捉LLM的全部数学能力解决方法：
借鉴人类推理过程时的认知阶段，设计了九个测试维度
- problem comprehension
- problem solving
- solution summarization：引入中间问题和反向推理任务，测试模型是否可以通过推理途径追溯
设计了一个多agent系统“Inquiry-Judge-Reference”，针对问题询问九个维度的查询确保模型完全掌握
- 提出特定维度查询
- 完善查询来确保质量
- 提供正确答案作为参考
将CogMath应用于GSM8K和MATH以及自创数据集MExam，测试七个主流模型

论文贡献：

作者参考了心理学上有关人类推理的理论，提出三个阶段，九个维度。针对每个维度使用multi-agent系统获取问题和答案

Problem comprehension
- sentence paraphrasing ：改变措辞和句式结构，保留数学本质
- ==sentence disruption ==：避免模型单纯记住问题和答案，随机破坏单词顺序，从人类角度是不可读的，预期的相应是无法解决，如果与原始答案相同表明可能是记忆答案而非理解问题。（很骚的操作，但是LLM从原理上来说很难避免？）
- missing condition：去掉一些条件问题不可解
- Redundant Condition：引入冗余条件，judge代理需要确保冗余条件不影响问题求解。
Problem solving
- Analogical Reasoning：人类可以用相同的解题步骤举一反三。在不改变难度的情况下出新题
- Numerical Transformation：修改初始问题数值
- Knowledge Redefinition：创建一个新的定义（可能和现实违背），用新定义来解题。（对Reference Agent要求较高？）
Solution Summarization
- Intermediate Step Questioning.：询问关键中间步骤
- Backward Reasoning：从解决方案中推断出丢失的信息，掩码问题关键信息，要求根据解题步骤推断掩码信息。