月之暗面发布首款数学模型 k0

2025-09-01 13:09:18 - 风谈聚

今天，暗面在京东科技大厦，发布月之暗面创始人杨植麟宣布 Kimi 数学模型 k0-math 正式发布，首款数学其数学能力对标OpenAI o1系列，模型还公布了截止2024年10月 Kimi 月活超过 3600万。暗面

杨植麟称未来会更关注基于强化学习的发布广州高中泄露全集方法去scale，不仅仅是首款数学简单地预测下一个token是什么，因为这是模型基于静态信息集，使得大模型不能完成更难的暗面任务。在这个过程中，发布很关键的首款数学是让AI具备思考的能力。

用Next—Token prediction是模型做不到的，而用强化学习的暗面方法一定程度上可以学习到这种思考的方式。例如解一道数学题，发布想要知道它的首款数学广州中学偷拍体验解题思路是怎样的，最后的结果是怎么一步步推导出来的，这就是一个深度思考的过程。

伽利略曾说，数学是宇宙的语言，所以数学场景是一个很广泛的应用场景，是培养 AI 具备思考能力的最佳场景。OpenAI的 o1 模型最初也是从数学场景出发，好处是不用跟外界进行交互，可以自成一体。

k0—math正是从数学场景出发，再推理泛化到更多的任务上。

例如，问它一个很难的竞赛题，k0—math 通过大量的尝试，可能尝试了八九中不同的做法，最后发现还没能得到最终的答案，那么它可以把前面几种不同的解法综合一下，就能得到一个正确的答案。

月之暗面发布首款数学模型 k0-math，对标o1

根据上图，在多项基准能力测试中，k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型：o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中，k0-math 初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中，k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。

未来的一到两周时间内，k0-math 强化模型将会放到 Kimi 探索版中，包含了意图增强、信源分析、链式思考三个特点。

月之暗面发布首款数学模型 k0-math，对标o1

其中，模型在深度思考的过程中，生成的学习信息是否都有用以及是否正确，这是强化学习中的一个核心问题，以前做Next—Token prediction，处理的是静态信息，可以做静态过滤、打分筛选，而在强化学习中则对奖励模型的效果提出挑战，核心是是怎么更好的训练奖励模型，设置奖励的机制，以此来让模型尽可能地减少学习错误的信息。

k0-math在思考的过程中会出现「过度思考」，例如问它1+1等于多少，正常人是不需要思考的，而k0-math 就会给出一整套它的思考推理过程，最后才得出1+1等于2。

对于这个问题，杨植麟称是因为奖励上没有对它的长度做任何的限制，让它自由地思考，也可以通过改变奖励模型的结构，一定程度能抑制过度思考。

同时，杨植麟称，该包含了k0-math 强化模型的 Kimi 探索版大概率会让客户自己选择使用，早期通过这种方式可以更好地分配、满足客户的预期，这里面包含了一个工艺问题，一是能够动态地分配最优的算力，如果模型足够聪明就应该知道什么样的问题不需要想很久，就跟人一样1+1等于几不用想；第二个点是成本不断下降的过程。

未来，k0-math 还将从数学问题上的推理泛化到更多任务上，例如物理学、化学、生物医学等等。

去年今天，是Kimi Chat 面向全社会开放支持的日子，今年10月推出AI搜索功能，再到今天推出数学模型 k0-math，三个动作月之暗面整整走了一年。

可以看到，在一众大模型公司中，月之暗面的产物策略更克制。

杨植麟称，是他们主动做了业务的减法，聚焦去做离 AGI 上限最高的事情，然后做好；始终保持卡和人的比例最高。去年整个大模型行业经历了大扩张，而到目前为止，月之暗面人数是所有大模型公司中最少的，不超过200人。

「我们不希望把团队扩那么大，扩太大对创新会有致命性的伤害。如果你想把团队保持在一定的规模，那最好的方式是在业务上做一些减法。」杨植麟称，一开始月之暗面也尝试过几个产物一起做，这在一定时期内有可能有效，到后来发现还是要聚焦，把一个产物做到极致是最关键的，如果几个业务一起做，把自己活生生变成大厂，创业公司的优势就丢掉了。

杨植麟认为Kimi目前最核心的任务是提升留存。

对于当下愈演愈烈、有关于Scaling Laws「撞墙」的争辩，杨植麟认为「预训练还有空间」，这个空间会在明年释放出来，明年领先的模型会把预训练做到极致。

他判断，接下来最关键的是强化学习带来的工艺范式上改变，但它依然还是scale。至于Scaling Laws是否到上限，核心在于原来用的是静态信息集，这属于简单粗暴的使用方式，现在用强化学习的方式——很多情况下有人参与标注信息的过程，比如人标注 100条信息，就能产生非常大的作用，剩下的让AI自己思考。AI 加上人的杠杆，上限是很高的。「雷峰网(公众号：雷峰网)」

雷峰网原创文章，未经授权禁止转载。详情见转载须知。