月之暗面发布首款数学模型 k0
2025-09-01 13:09:18 - 风谈聚
今天,暗面在京东科技大厦,发布月之暗面创始人杨植麟宣布 Kimi 数学模型 k0-math 正式发布,首款数学其数学能力对标OpenAI o1系列,模型还公布了截止2024年10月 Kimi 月活超过 3600万。暗面
杨植麟称未来会更关注基于强化学习的发布广州高中泄露全集方法去scale,不仅仅是首款数学简单地预测下一个token是什么,因为这是模型基于静态信息集,使得大模型不能完成更难的暗面任务。在这个过程中,发布很关键的首款数学是让AI具备思考的能力。
用Next—Token prediction是模型做不到的,而用强化学习的暗面方法一定程度上可以学习到这种思考的方式。例如解一道数学题,发布想要知道它的首款数学广州中学偷拍体验解题思路是怎样的,最后的结果是怎么一步步推导出来的,这就是一个深度思考的过程。
伽利略曾说,数学是宇宙的语言,所以数学场景是一个很广泛的应用场景,是培养 AI 具备思考能力的最佳场景。OpenAI的 o1 模型最初也是从数学场景出发,好处是不用跟外界进行交互,可以自成一体。
k0—math正是从数学场景出发,再推理泛化到更多的任务上。
例如,问它一个很难的竞赛题,k0—math 通过大量的尝试,可能尝试了八九中不同的做法,最后发现还没能得到最终的答案,那么它可以把前面几种不同的解法综合一下,就能得到一个正确的答案。
根据上图,在多项基准能力测试中,k0-math 的数学能力可对标全球领先的 OpenAI o1 系列可公开使用的两个模型:o1-mini和o1-preview。在中考、高考、考研以及包含入门竞赛题的MATH等 4 个数学基准测试中,k0-math 初代模型成绩超过o1-mini和o1-preview模型。在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。
未来的一到两周时间内,k0-math 强化模型将会放到 Kimi 探索版中,包含了意图增强、信源分析、链式思考三个特点。
其中,模型在深度思考的过程中,生成的学习信息是否都有用以及是否正确,这是强化学习中的一个核心问题,以前做Next—Token prediction,处理的是静态信息,可以做静态过滤、打分筛选,而在强化学习中则对奖励模型的效果提出挑战,核心是是怎么更好的训练奖励模型,设置奖励的机制,以此来让模型尽可能地减少学习错误的信息。
k0-math在思考的过程中会出现「过度思考」,例如问它1+1等于多少,正常人是不需要思考的,而k0-math 就会给出一整套它的思考推理过程,最后才得出1+1等于2。
对于这个问题,杨植麟称是因为奖励上没有对它的长度做任何的限制,让它自由地思考,也可以通过改变奖励模型的结构,一定程度能抑制过度思考。
同时,杨植麟称,该包含了k0-math 强化模型的 Kimi 探索版大概率会让客户自己选择使用,早期通过这种方式可以更好地分配、满足客户的预期,这里面包含了一个工艺问题,一是能够动态地分配最优的算力,如果模型足够聪明就应该知道什么样的问题不需要想很久,就跟人一样1+1等于几不用想;第二个点是成本不断下降的过程。
未来,k0-math 还将从数学问题上的推理泛化到更多任务上,例如物理学、化学、生物医学等等。
去年今天,是Kimi Chat 面向全社会开放支持的日子,今年10月推出AI搜索功能,再到今天推出数学模型 k0-math,三个动作月之暗面整整走了一年。
可以看到,在一众大模型公司中,月之暗面的产物策略更克制。
杨植麟称,是他们主动做了业务的减法,聚焦去做离 AGI 上限最高的事情,然后做好;始终保持卡和人的比例最高。去年整个大模型行业经历了大扩张,而到目前为止,月之暗面人数是所有大模型公司中最少的,不超过200人。
「我们不希望把团队扩那么大,扩太大对创新会有致命性的伤害。如果你想把团队保持在一定的规模,那最好的方式是在业务上做一些减法。」杨植麟称,一开始月之暗面也尝试过几个产物一起做,这在一定时期内有可能有效,到后来发现还是要聚焦,把一个产物做到极致是最关键的,如果几个业务一起做,把自己活生生变成大厂,创业公司的优势就丢掉了。
杨植麟认为Kimi目前最核心的任务是提升留存。
对于当下愈演愈烈、有关于Scaling Laws「撞墙」的争辩,杨植麟认为「预训练还有空间」,这个空间会在明年释放出来,明年领先的模型会把预训练做到极致。
他判断,接下来最关键的是强化学习带来的工艺范式上改变,但它依然还是scale。至于Scaling Laws是否到上限,核心在于原来用的是静态信息集,这属于简单粗暴的使用方式,现在用强化学习的方式——很多情况下有人参与标注信息的过程,比如人标注 100条信息,就能产生非常大的作用,剩下的让AI自己思考。AI 加上人的杠杆,上限是很高的。「雷峰网(公众号:雷峰网)」
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
特朗普表示最近中美关系有所改善,外交部回应

【环球时报-环球网报道 记者李萌】在7月9日外交部例行记者会上,有记者提问称,美国总统特朗普日前表示,最近中美关系有所改善,中国政府在贸易领域一直对美进行一种公平的政策,外交部如何看待这个表态?对此,
听花岛悬疑短剧《破晓》定档5月31日,探索人性深渊与亲情光辉

来源标题:听花岛悬疑短剧《破晓》定档5月31日,探索人性深渊与亲情光辉当短剧市场深陷霸总题材同质化泥沼时,精品短剧头部厂牌听花岛再次以一部悬疑新作《破晓》撕开类型创新的裂口,这部定档5月31日9点登陆
《英雄联盟:云顶之弈》庆祝6周年,云顶之弈时光机携专属玩家奖励回归

来源标题:《英雄联盟:云顶之弈》庆祝6周年,云顶之弈时光机携专属玩家奖励回归《英雄联盟:云顶之弈》6周年活动于6月12日在PC端发布 《英雄联盟:云顶之弈》马上六岁了,欢迎大家来一起庆祝。6月12日起
CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

今年到CNCC现场参会的朋友,想必都对CNCC 2024举办所在地——超过6200亩的横店圆明新园印象深刻!虽然园内建筑身临其境,并且薅了主办方一把羊毛,免门票游览了圆明新园与横店多个著名旅游景点,但
GAIR 2023 正式开幕:AI 如此绽放之时,昭示着熙春已至

8月14日,新加坡,大厦起伏如丘,树木葱茏,云卷云舒,风也是清新的。建立在大模型技术爆炸时代语境下的第七届GAIR全球人工智能与机器人大会,正式在新加坡乌节大酒店举办。大会共开设10个主题论坛,聚焦大
歌向西行・剧传薪火:原创音乐剧《轨迹》生动演绎西迁精神

来源标题:歌向西行・剧传薪火:原创音乐剧《轨迹》生动演绎西迁精神 为营造高校美育氛围,提升学生审美感受力与鉴赏力,2025年5月29日晚,由西安交通大学研究生院、人文学院主办的“新港报告美
GRPO在《时空谜题》中击败o1、o3

近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Resear
当咖啡杯邂逅千年蜀韵:瑞幸首次联名非遗,带火三大四川瑰宝

来源标题:当咖啡杯邂逅千年蜀韵:瑞幸首次联名非遗,带火三大四川瑰宝“跟着世运”游成都、“跟着展演”游成都、“到成都街头走一走”&
事故现场“警车”司机被抓?“辽O”车牌露馅了

近日辽宁省沈阳市和平区平融路路口一辆警车与电动自行车发生剐碰正在路口执勤的和平交警大队民警徐继凯、安启宁迅速上前处置“指挥中心,现场伤者并无大碍机动车牌照为辽OA079警……”辽O?发现情况异常的徐继
CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

今年到CNCC现场参会的朋友,想必都对CNCC 2024举办所在地——超过6200亩的横店圆明新园印象深刻!虽然园内建筑身临其境,并且薅了主办方一把羊毛,免门票游览了圆明新园与横店多个著名旅游景点,但
大模型隐藏玩家上桌:DeepSeek 向左,面壁向右

作者丨朱可轩编辑丨陈彩娴大模型赛跑两年后,玩家已逐步分化为三种趋势:一类玩家仍追随 OpenAI 的脚步卷大参数基座模型,另外一类烧不起钱的玩家转头拥抱应用端,而第三类则自始至终都在摸索如何更高效打造
2025岳云鹏《非要唱》巡回演唱会北京站:用音乐讲最朴素的真心话

来源标题:2025岳云鹏《非要唱》巡回演唱会北京站:用音乐讲最朴素的真心话岳云鹏,这位在春晚舞台逗乐亿万观众的国民相声演员,2025年要做一件“不务正业”的大事—&