分享好友 最新资讯首页 最新资讯分类 切换频道
K2大模型受国际关注 Kimi找到了适合自己的路
2025-08-05 09:14

图片

图说:记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰。

最近两周以来,Kimi K2成为了最受国际关注的国产开源大模型,其不仅登顶全球开源模型榜单,在全球开发者社区引发轰动,还被《自然》杂志网站评价为世界迎来“又一个时刻”,大有在4个月后“接棒”DeepSeek之势。

值得注意的是,两家公司在地理上的距离也并不远,均位于北京市海淀区:从DeepSeek北京总部所在的融科资讯中心向南步行1.4公里,就可以抵达Kimi所在的京东科技大厦。

事实上,2024年以来,Kimi曾历经和豆包在“投流”领域的竞争,以及两次和DeepSeek发布“撞车”。面对陡然加大的竞争压力和市场环境的剧烈变化,这家“清华系”公司坚持住了自己的初心,并通过K2的发布证明了自己的实力。

Kimi发布K2大模型之前经历了哪些故事?新京报贝壳财经记者对北京月之暗面科技有限公司进行了探访。

重回基础研发轨道 Kimi感谢DeepSeek

“从研究者的角度,我其实非常感谢DeepSeek,它的出现对我们是一件好事,让我们更加能够以长期主义视角看待实现的梦想。”Kimi研究人员杜羽伦在接受记者采访时表示。

此前,Kimi1.5的发布日期曾和DeepSeek-R1“撞车”。对此,杜羽伦反思认为Kimi1.5的反响不如deeps-R1热烈,一部分原因是Kimi方面没有进行开源,另外参数规模比较小,技术上也没有强调计算效率,“接下来我们并没有‘一拍脑袋’把强化学习干到底,反而更加注重第一性原理,即先把基座模型做好,所以我们在3到4个月的时间里没有发布任何模型,也拒绝了抢发模型的诱惑,而做了一件更长期的事。”

贝壳财经记者注意到,“第一性原理”也是英伟达创始人黄仁勋经常挂在嘴边的词语,前不久黄仁勋在北京参加链博会期间,也称赞了DeepSeek和Kimi在开源领域取得的成功。这一原理的核心在于回归事物本源,而在大模型领域,这就是基础模型。

事实上,贝壳财经记者曾在今年3月,DeepSeek火爆之后不久这一时间节点上探访过Kimi。一名曾在数据公司工作,后跳槽到Kimi的员工告诉记者,“AI行业迭代速度远超传统领域,现在每周都有重大技术突破,比如我们和DeepSeek曾两次在同一天发布相似论文。在这类竞争压力下,如果研发进度落后,技术优势可能瞬间消失,一旦晚推出,就必须有更显著的提升才有意义。”

但历经DeepSeek冲击后,Kimi公司内部却反而有了一股“解脱”感。“之前许多技术人员的脑子会被产品带着走,需要分出部分精力给用户反馈的问题‘打补丁’、关注DAU(日活跃用户数量),这在让产品变好的同时,也或多或少影响了底层技术的开发。DeepSeek的出现让我们回归到了本来就擅长的技术领域,现在我们集中资源研发下一代模型,就像蒸汽机发明初期,重点在于核心技术创新而非局部优化。”这名员工对贝壳财经记者表示。

显然,从当前的国际反响上来看,Kimi找到了适合自己的路,被誉为“AI搜索神器”,有望接替Google的美国知名创业公司Perplexity首席执行官阿拉温德·斯里尼瓦斯表示Kimi模型在“内部测试中表现卓越”,是一个“不可思议的模型”,该公司将会利用K2来进行训练,而上一个被他们拿来训练的模型是DeepSeek- R1。其表现还征服了致力于大模型生态社区建设的公司Hugging Face。公司联合创始人托马斯·沃尔夫评价Kimi模型“简直令人震惊……月之暗面团队在过去几个月里推出了一系列令人印象深刻的模型,我们很可能会在新闻中频繁看到这些名字。”

当大模型用钢琴弹奏卡农 下一版本的模型会变得更强

获得国际上的“一致好评”后,Kimi还公布了官方技术报告,进一步把开源进行到底。作为北京的大模型公司,这也和北京“建设开源之都”的理念不谋而合。

事实上,DeepSeek开源技术细节后,Kimi K2也继承了的架构。Kimi团队成员刘少伟表示,K2在DeepSeek-V3的基础上进行增加专家数量、减少注意力头数量等调整,最终实现了较强的性能。K2模型架构一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。

根据Kimi团队公布的技术报告,K2采用了三大核心创新技术:MuonClip优化器,抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练;大规模Agentic Tool Use数据合成,构建可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具;通用强化学习框架,结合可验证奖励(RLVR)和自我批判评估奖励,将对齐从静态扩展到开放域。

得益于这些技术创新,K2在多项基准性能测试中取得优异表现,展现出在自主编程、智能体工具调用和数学推理等方面的领先能力。根据其公布的测评结果,K2在自主编程、工具调用和数学推理三个维度的表现上,都超过了同为开源模型的DeepSeek-V3和阿里Qwen3。

Kimi K2项目组成员詹皓冰表示,K2的前端编程能力很强,在3D、游戏、动画制作等场景上,用简单的指令和K2交互,就能得到很惊艳的效果。另一方面,智能体的工具调动能力也让模型整体上有了很大提升。

贝壳财经记者注意到,Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。据悉,月之暗面创始人杨植麟就因为这张专辑定下了公司的名称。

图片

图说:Kimi总部的门口摆放着一架钢琴,上面摆放了摇滚乐队Pink Floyd的专辑《The Dark Side of the Moon》(月之暗面)。

詹皓冰告诉记者,在K2发布的前夜,公司员工们使用K2编写了一个工具,让它去弹奏这架钢琴,最终K2从“扒琴谱”开始,再学习如何通过代码弹奏钢琴,最终完整弹奏出了一曲《卡农》,“这就像我们听到AI说出的那句‘hello world’,大家很激动。当时创始人在会议室谈发布的事,看到我们在弹钢琴,他特意过来看了钢琴是怎么弹奏的,然后又回去忙。”

杜羽伦表示,贯彻第一性原理,做好基座模型这一长期战略看来对团队非常有益,“我们既得到了技术突破,也得到了一个非常好的模型,并且这个模型目前还没有经过大规模的强化学习,等我们在下一版经过了大规模的强化学习之后,它的能力会变得更强。”

贝壳财经记者在采访中了解到,“K2”这一名字由杨植麟所取。同时,K2也是乔戈里峰的名字,乔戈里峰被称为攀登难度最大的山峰,也许这就是杨植麟为Kimi下一代大模型取名“K2”背后的意义。

新京报贝壳财经记者 罗亦丹

编辑 岳彩周

校对 柳宝庆

最新文章
赤水润京华| 习酒·品酒师以智雅盛宴,敬呈北京君子
千年古城韵,一脉习酒香。7月16日至19日,习酒・品酒师北京站活动如约而至,在古都的烟火与风雅间,铺展开一场关于北京生活新范
具身智能,正在翻越三座大山
过去十几年,科技圈最不缺的就是“风口”。VR眼镜、虚拟货币区块链、元宇宙,这些概念哪个曾经不是看着前途无量,到最后却都“哑
致敬峥嵘岁月,八一慰问传递社区温情
在“八一”建军节来临之际,为弘扬拥军优属光荣传统,表达对退役军人的关怀,7月29日,姑苏区双塔街道杨枝社区组织开展八一走访
销售易14周年:14载同行以数智之力,共绘增长新篇
14年,在时间的长河中,是信任沉淀的年轮,也是无数客户与我们共同书写增长故事的旅程。2011年,销售易怀揣着“让销售更容易”的
TCL华星“屏宇宙”进阶亮相ChinaJoy2025
8月1日-4日,第二十二届中国国际数码互动娱乐展览会(下称“ChinaJoy2025”)开幕,作为为数不多硬件展商之一,TCL华星携手三星
关于警惕黄金投资领域非法金融活动的风险提示
(一)认准持牌机构。根据中国人民银行《关于黄金资产管理业务有关事项的通知》(银办发〔2018〕215号)规定,黄金资产管理业务是指银
触摸非遗 传承匠心 狮山横塘街道狮山一社区开展御窑金砖博物馆亲子研学
为弘扬中华优秀传统文化,增强文化自信,丰富青少年暑假生活,8月7日下午,狮山横塘街道狮山一社区新时代文明实践站组织辖区15组
沈阳2斤装巴拿马茅台酒瓶整套回收日常收购价在线查看
沈阳2斤装巴拿马茅台酒瓶整套回收日常收购价在线查看1、30年茅台酒瓶子回收:常年高价提供30年茅台酒瓶子、30年贵州茅台酒瓶、30
离家3年不见父母,这个老兵这样劝
东新分局茅店派出所社区民警舒德强1995年入伍2018年转业这位从陆军工程大学军械士官学校转业的老兵现已在警营里坚守了7年从穿军
腾讯又上一层楼?连续两年狂增后,瓦手暑期压轴登场!
昨晚(8月3日),在上海复星艺术中心举办的发布会上,《无畏契约:源能行动》官宣定档8月19日,一下点燃了国内射击玩家圈子。原
推荐文章