上海AI实验室揭秘：让AI像人类一样思考数学的＂代码秘籍＂

这项由上海人工智能实验室的林鸿林、裴启智等研究人员与上海交通大学、苏州大学合作完成的研究，发表于2025年10月7日的arXiv预印本平台（论文编号：arXiv:2510.04081v1），为我们展示了一种全新的人工智能训练方法。有兴趣深入了解的读者可以通过该论文编号查询完整论文。

当我们谈到人工智能解决数学问题时，你可能会联想到一个学生在做数学作业的场景。传统的AI就像一个只会按照固定模板答题的学生，虽然能解出答案，但过程往往缺乏逻辑性，有时甚至会出现计算错误。而这项研究提出的Caco方法，则像是给AI配备了一位严格的数学老师，不仅要求它给出正确答案，还要求它用代码的方式展示完整的解题思路。

传统的AI数学推理方法存在着几个令人头疼的问题。就如同一个只靠死记硬背的学生，AI往往会在推理过程中出现错误，而这些错误又很难被发现和纠正。更糟糕的是，制作高质量的数学推理训练数据需要大量人工标注，这就像需要无数老师手工批改作业一样费时费力。

Caco方法的核心创新在于引入了代码作为AI推理的"验证器"。研究团队巧妙地将数学问题的解决过程转换为可执行的Python代码，这就像是为每道数学题配备了一个自动计算器，不仅能验证答案的正确性，还能检查推理步骤的逻辑性。这种方法最大的优势是可以自动生成大量高质量的训练数据，研究团队最终创建了包含130万个问题-答案对的庞大数据集。

实验结果令人振奋。在多个著名的数学推理基准测试中，使用Caco方法训练的AI模型表现出色。以LLaMA3-8B模型为例，使用Caco训练后的平均准确率达到了57.3%，相比之前最好的方法提升了44.3%。在一些极具挑战性的奥林匹克数学竞赛题目中，Caco训练的模型甚至达到了67.7%的准确率，这个成绩足以让很多人类学生羡慕。

这项研究的意义远不止于提升AI的数学能力。它为我们展示了一种全新的AI训练范式：通过代码验证来确保推理过程的可靠性。这种方法不仅适用于数学领域，还可能扩展到需要逻辑推理的其他领域，如物理问题求解、编程任务等。

**一、从自然语言到代码：AI推理的华丽转身**

当我们回顾AI解决数学问题的发展历程，就像观察一个学生学习数学的成长过程。早期的AI就像刚开始学数学的小学生，只会简单地按照老师教的步骤机械地计算，缺乏灵活性和创造性。随着技术发展，出现了链式思维推理方法，这就像教会学生写出详细的解题步骤，AI开始能够展示它的"思考过程"。

然而，这种传统方法存在一个根本性问题：就像学生在草稿纸上的计算可能出错一样，AI在自然语言推理过程中也会犯错，而且这些错误很难被及时发现。更令人担忧的是，错误往往会像多米诺骨牌一样传播，一个小错误可能导致整个解题过程功亏一篑。

Caco方法的研究团队敏锐地意识到了这个问题。他们提出了一个巧妙的解决方案：既然自然语言推理容易出错且难以验证，为什么不让AI用代码来"思考"呢？代码有一个天然的优势：它可以被计算机执行，执行结果要么正确，要么立即报错，不存在模糊地带。

这种转变就像是给学生配备了一台永不出错的计算器，但这台计算器不仅能算出结果，还能完整记录计算过程。当AI用代码表达它的解题思路时，我们可以通过运行代码来验证每一步推理是否正确，这种验证过程是完全自动化的，不需要人工干预。

研究团队首先收集了大量来自数学和编程领域的问题，包括著名的MATH数据集、DeepScaleR数据集等，总共涉及约30万个问题。然后，他们使用强大的语言模型将这些问题的解答过程转换为统一的Python代码格式。这个转换过程就像是将不同风格的数学解答翻译成同一种"代码语言"。

在代码转换过程中，研究团队制定了严格的格式要求。每个代码解答都必须包含明确的输入字典、函数调用和输出打印语句。以一个计算期望值的概率问题为例，传统的解答可能包含大量文字描述和手工计算，而代码版本则清晰地定义了概率数组、数值数组，并通过简洁的函数计算出最终结果。这种标准化处理确保了所有问题都能以统一的方式进行处理和验证。

**二、CodeGen模型：专业的"代码推理生成器"**

有了统一的代码推理数据后，研究团队面临下一个挑战：如何让AI学会自动生成这样的代码推理过程？这就像是要训练一个学生不仅会做数学题，还要会把解题过程写成规范的代码形式。

为了解决这个问题，研究团队开发了一个名为CodeGen的专门模型。这个模型的设计理念很独特：它不是从问题出发生成代码，而是专门学习生成各种数学推理的代码模式。就像一个经验丰富的程序员，能够根据不同的需求写出相应的代码框架。

CodeGen的训练过程采用了无条件生成的方式，这意味着它专注于学习代码推理的内在逻辑和结构，而不是简单地记忆特定问题的答案。这种设计使得模型能够产生更加多样化和创新性的推理路径。训练完成后，CodeGen可以源源不断地生成新的代码推理模式，每个模式都代表了一种独特的问题解决方法。

通过温度采样技术，CodeGen能够在保持逻辑性的同时引入适度的随机性，这就像是让一个有创造力的学生在严格的数学框架内发挥想象力。研究团队使用这种方法生成了大约530万个候选代码样本，这个数量足以覆盖各种可能的推理模式和问题类型。

CodeGen的另一个重要特点是它的可扩展性。随着训练数据的增加，模型的生成能力也会相应提升。研究结果显示，从10万个训练样本扩展到130万个样本时，模型的性能持续改善，这证明了这种方法具有良好的扩展潜力。

**三、严格的质量控制：确保每一行代码都经得起考验**

生成大量代码样本只是第一步，如何确保这些代码的质量才是关键所在。研究团队建立了一套严格的质量控制体系，就像是为代码推理设立了多道质量检查关卡。

第一道关卡是可执行性检查。所有生成的代码必须能够在Python环境中成功运行，不能出现语法错误或运行时错误。这就像是要求学生的解题步骤不仅要逻辑清晰，还要能够被完整执行。任何无法运行的代码都会被立即淘汰。

第二道关卡是效率检查。考虑到实际应用的需要，研究团队设定了10秒的执行时间限制。超过这个时间的代码被认为是低效的，不适合实际使用。这个要求确保了生成的推理过程不仅正确，而且高效。

第三道关卡是复杂度检查。研究团队要求每个代码样本至少包含6行有效代码，这是为了避免过于简单或平凡的解答。同时，他们还使用抽象语法树分析技术，确保代码中定义的所有变量都被有效使用，避免冗余或无意义的代码段。

通过这套严格的筛选机制，研究团队从530万个候选样本中筛选出了460万个高质量的代码推理样本。这个筛选过程虽然严格，但确保了后续训练数据的质量。

**四、从代码回到自然语言：构建完整的问题-解答对**

有了高质量的代码推理样本后，研究团队还需要将这些代码"翻译"回自然语言，形成完整的问题-解答对。这个过程就像是要求一个程序员不仅要写出代码，还要用通俗的语言解释这段代码是如何解决问题的。

这个翻译过程分为两个阶段。首先是问题反向生成阶段，研究团队使用强大的语言模型根据代码逻辑生成相应的数学问题。这就像是从一个解题方法反推出可能的题目类型。为了保证多样性，模型会为同一个代码逻辑生成多种不同表述的问题，这样既保持了逻辑的一致性，又增加了表面形式的丰富性。

第二个阶段是自然语言解答生成。研究团队让语言模型根据生成的问题给出详细的自然语言解答过程。这个过程类似于让一个优秀的数学老师为学生详细讲解解题步骤。为了确保质量，研究团队采用了两阶段生成策略：先生成问题，再基于问题生成解答，这样可以避免模型在看到代码提示后产生"偷懒"行为。

质量验证是这个阶段的重中之重。研究团队设计了双重验证机制：答案一致性验证和推理一致性验证。答案一致性验证确保自然语言解答得出的最终答案与代码执行结果完全一致。推理一致性验证则更进一步，要求自然语言的推理逻辑与代码逻辑保持一致，避免表面答案正确但推理过程错误的情况。

通过这套完整的流程，研究团队最终获得了约130万个高质量的问题-解答对。这个数据集不仅规模庞大，而且质量可靠，每一个样本都经过了代码验证和逻辑一致性检查。

**五、实验验证：数据说话的时刻**

为了验证Caco方法的有效性，研究团队进行了大规模的实验对比。他们选择了三种不同类型的基础模型进行测试：专门针对数学问题优化的DeepSeekMath-7B和Qwen2.5-Math-7B，以及通用型的LLaMA3-8B模型。这样的选择能够全面评估Caco方法在不同类型模型上的适用性。

实验涵盖了六个权威的数学推理基准测试，包括MATH、GSM8K、CollegeMath、DeepMind-Mathematics、OlympiadBench-Math和TheoremQA。这些测试覆盖了从高中水平到大学水平，再到奥林匹克竞赛水平的各种数学问题，能够全面检验AI的数学推理能力。

实验结果令人印象深刻。以LLaMA3-8B模型为例，使用传统方法训练的最好成绩平均准确率为39.7%，而使用Caco-1.3M数据集训练后，准确率提升到了57.3%，相对提升幅度达到44.3%。在具有挑战性的奥林匹克数学竞赛题目中，Caco方法的表现更加突出，准确率从17.2%提升到34.1%，几乎翻了一倍。

有趣的是，Caco方法在专业数学模型上的表现同样优异。Qwen2.5-Math-7B使用Caco训练后，平均准确率从原来的63.6%提升到67.7%。虽然提升幅度相对较小，但考虑到这个模型本身已经具有很强的数学能力，这样的提升仍然是非常有意义的。

研究团队还发现了一个重要现象：Caco方法的效果随着数据规模的增加而持续改善。从10万个训练样本增加到130万个样本的过程中，模型性能呈现稳定的上升趋势，这表明这种方法具有良好的可扩展性。

**六、深度分析：揭秘Caco成功的三大关键因素**

为了深入理解Caco方法成功的原因，研究团队进行了详细的分析研究，发现了三个关键因素：数据多样性、方法可扩展性和验证机制的有效性。

数据多样性方面，研究团队使用先进的文本嵌入技术对生成的数据进行了分析。他们将所有问题转换为数学向量，然后使用可视化技术展示数据分布。结果显示，Caco生成的数据不仅覆盖了原始训练数据的所有区域，还在某些区域产生了全新的问题类型。通过聚类分析，研究团队识别出了12个不同的数学主题类别，包括代数、几何、概率统计、数据结构算法等，证明了Caco方法能够产生真正多样化的训练数据。

可扩展性分析揭示了Caco方法的另一个重要优势。研究团队比较了不同数据规模下的模型性能，发现随着训练数据从10万增加到130万，模型在MATH基准测试上的表现持续提升。这种趋势在通用模型LLaMA3-8B上表现得尤为明显，表明Caco方法特别适合于提升基础能力相对较弱的模型。

验证机制的重要性通过对比实验得到了充分证明。研究团队比较了使用验证机制和不使用验证机制的训练数据质量。结果显示，经过验证的数据在问题可解性和答案正确性方面都有显著提升：可解问题比例从91%提升到97%，正确答案比例从88%提升到93%。更重要的是，使用经过验证的数据训练的模型在下游任务上的表现也明显更好，平均准确率提升了约1个百分点。

**七、突破领域边界：Caco的广泛适用性**

虽然Caco方法最初是为数学推理设计的，但研究团队发现它的适用范围远比预期更广泛。他们进行了跨领域测试，结果表明Caco训练的模型在多个非数学领域也表现出色。

在代码生成任务中，Caco训练的LLaMA3-8B模型在HumanEval+基准测试上的表现从32.3%提升到34.2%。在科学推理任务中，模型在ARC-c测试上的准确率从79.0%跃升到83.1%。在逻辑推理任务中，BBH基准测试的成绩从19.8%大幅提升到33.8%。这些结果表明，通过代码推理训练获得的逻辑思维能力能够有效迁移到其他需要系统性推理的领域。

为了进一步验证这种跨领域能力，研究团队还将Caco方法应用到了科学推理数据集MegaScience上。他们从5200个科学推理种子数据出发，使用Caco流程生成了37000个高质量的问答对。使用这些数据训练的模型在AGIEval、ARC-c和MMLU-STEM等测试中都表现出色，平均成绩从59.0提升到63.4。

这些跨领域的成功应用证明了Caco方法的核心价值：通过代码这种精确的表达方式来训练推理能力，能够培养AI更加严谨和系统的思维方式。这种思维方式一旦形成，就能够应用到各种需要逻辑推理的任务中。

**八、效率与成本：实用性的重要考量**

在追求技术突破的同时，研究团队也非常关注方法的实用性。他们详细记录了Caco数据生成过程的计算成本，为其他研究者提供了宝贵的参考信息。

整个Caco-1.3M数据集的生成过程在配备8块NVIDIA A100 GPU的单台机器上耗时约55小时。具体来说，统一代码推理阶段耗时2小时处理33.9万个样本，代码推理扩展阶段耗时8小时生成530万个样本，问题反向生成阶段耗时5小时处理460万个样本，答案生成阶段耗时40小时完成460万个样本的处理。

值得注意的是，整个过程完全依赖开源模型，避免了使用商业API的高昂费用。研究团队估算，如果使用商业API服务，成本可能会增加数倍。这种开源方案的设计使得其他研究机构和个人开发者也能够复现和应用这种方法。

与传统的数据增强方法相比，Caco方法虽然在初期需要较多的计算资源，但其一次性投入能够产生大量高质量的训练数据，长期来看具有很高的性价比。而且，随着硬件性能的提升和模型效率的优化，这种方法的成本还会进一步下降。

**九、技术细节：构建可复现的研究框架**

为了确保研究的可复现性和实用性，研究团队公开了详细的技术实现细节。他们使用了多种先进的开源工具和框架，为其他研究者提供了完整的技术路线图。

在代码生成和验证阶段，研究团队使用Qwen2.5-72B-Instruct模型进行统一代码推理的生成，使用Qwen2.5-Coder-7B作为CodeGen模型的基础。在问题生成和答案生成阶段，他们使用Qwen3-8B进行自然语言处理。在质量评估阶段，使用Qwen3-32B进行问题可解性、答案正确性和推理一致性的判断。

训练配置方面，所有模型都使用LlamaFactory框架在8块NVIDIA A100 GPU上进行训练。训练采用3个epoch，学习率设置为5×10^-6，批处理大小为128，使用AdamW优化器配合余弦学习率衰减策略。这些参数设置经过了精心调优，既保证了训练效果，又避免了过拟合问题。

评估过程采用统一的框架，在零样本设置下使用贪婪解码策略，最大生成长度设置为2048个token。所有测试都报告Pass@1准确率，即模型第一次尝试就给出正确答案的比例。这种严格的评估标准确保了实验结果的公正性和可比性。

说到底，Caco方法代表了AI训练领域的一次重要创新。它巧妙地利用代码的精确性和可验证性，解决了传统推理训练方法中存在的质量控制难题。通过将抽象的数学推理过程转换为具体的代码实现，这种方法不仅提高了训练数据的质量，还大大降低了人工标注的成本。

更重要的是，Caco方法揭示了一个深刻的洞察：精确的表达方式能够促进精确的思维。当AI学会用代码这种严格的语言来表达推理过程时，它自然而然地发展出了更加严谨和可靠的推理能力。这种能力不仅适用于数学问题，还能迁移到其他需要逻辑推理的领域。

从实际应用的角度来看，这项研究为开发更智能、更可靠的AI系统提供了新的思路。随着这种方法的进一步完善和推广，我们有理由期待AI在解决复杂问题方面会有更加出色的表现。同时，开源的技术方案也降低了应用门槛，使得更多的研究者和开发者能够受益于这一创新成果。

这项研究的价值不仅在于技术本身，更在于它所体现的研究思路：通过跨学科的方法融合，寻找解决复杂问题的新途径。正如代码与数学推理的结合产生了意想不到的效果一样，我们有理由相信，类似的跨界创新将继续推动AI技术的发展，为人类社会带来更多的便利和可能性。

Q&A

Q1：Caco方法的核心创新是什么？

A：Caco方法的核心创新是将数学推理过程转换为可执行的Python代码，然后通过代码执行来验证推理的正确性。这就像给AI配备了一个永不出错的计算器，不仅能验证答案，还能检查推理步骤的逻辑性，从而确保训练数据的高质量。

Q2：使用Caco方法训练的AI模型性能提升有多大？

A：实验结果显示提升非常显著。以LLaMA3-8B模型为例，使用Caco训练后平均准确率从39.7%提升到57.3%，相对提升44.3%。在奥林匹克数学竞赛题目中，准确率从17.2%提升到34.1%，几乎翻了一倍。

Q3：Caco方法生成130万个训练样本需要多长时间和多少成本？

A：在配备8块NVIDIA A100 GPU的单台机器上，整个Caco-1.3M数据集生成过程耗时约55小时。研究团队完全使用开源模型，避免了商业API的高昂费用。虽然初期需要较多计算资源，但一次性投入能产生大量高质量训练数据，长期性价比很高。

上海AI实验室揭秘：让AI像人类一样思考数学的＂代码秘籍＂

浙江大学发现：推理AI拒绝回答有害问题的能力为何突然＂跳崖＂？

斯坦福与特拉维夫大学揭秘信息绑定的神秘机制