輪播

原生掌握“邊思考，邊用工具” ，Kimi “史上最強”開源思考模型能否破局AI紅海？

2025-11-08 13:02:30

11月6日晚，月之暗面旗下Kimi大模型發布Kimi K2 Thinking，稱其是“Kimi迄今能力最強的開源思考模型”，在多項測試中達SOTA水平，且在通用基礎能力上同步升級，目前其API已上架。但Kimi面臨市場競爭壓力，大廠憑借生態優勢擠壓獨立應用空間，且AI交互成本下降。Kimi嘗試垂類合作探索商業化，能否將模型能力轉化為用戶價值、構建可持續商業模式是其破局關鍵。

每經記者｜李宇彤每經編輯｜黃博文

月之暗面今年以來的技術迭代還在繼續。

11月6日晚間，月之暗面旗下Kimi大模型發布了Kimi K2 Thinking，并稱其為“Kimi迄今能力最強的開源思考模型”。

Kimi官方表示，Kimi K2 Thinking是基于“模型即Agent（智能體）”理念訓練的新一代Thinking Agent，它原生掌握“邊思考，邊使用工具”的能力。

從實測成績來看，Kimi K2 Thinking在“人類最后的考試”（Humanity's Last Exam）、自主網絡瀏覽能力（BrowseComp）、復雜信息收集推理（SEAL-0）等多項基準測試中表現達到SOTA（當前技術水平的最前沿）水平。

自7月進入“K2”版本之后，Kimi的升級正在提速。9月5日，Kimi發布Kimi K2模型的最新版本“0905”，進一步提升其在真實編程任務中的表現。9月25日，月之暗面Kimi發布全新Agent模式“OK Computer”并開啟灰度測試。

這也是整個AI市場的一個縮影。事實上，AI市場正進入快速迭代階段。據QuestMobile發布的2025年三季度AI應用行業報告，以頭部互聯網集團為例，今年1月—9月共完成182次模型發布/更新/迭代，平均每5.7天就迎來一次模型升級。

模型迭代節奏持續加快，技術競爭正轉向應用能力與推理深度的實戰較量。

在“人類最后的考試”中超越GPT-5（High）

據Kimi官方，Kimi K2 Thinking是“Kimi迄今能力最強的開源思考模型”，這一定位源于其在技術架構、任務執行與評測表現上的系統性突破。

作為基于“模型即Agent”理念訓練的新一代Thinking Agent，Kimi K2 Thinking實現了“邊思考，邊使用工具”的原生能力融合。該模型可在無人干預的情況下，自主完成多達300輪的工具調用與多輪思考，可提升處理復雜問題的連續性與穩定性。

在多項關鍵能力維度上，Kimi K2 Thinking均有明顯進步，其Agentic（智能代理）搜索、Agentic編程、寫作與綜合推理性能得到進一步強化。

在推理能力方面，該模型在涵蓋100多個專業領域的“人類最后的考試”（Humanity's Last Exam）中取得了卓越成績。該測試允許使用搜索、Python及網絡瀏覽等工具，Kimi K2 Thinking以44.9%的得分達到SOTA水平。作為對比，Kimi公布的同場測試中GPT-5（High）的成績為41.7%。

面對信息過載的復雜搜索場景，Kimi K2 Thinking同樣表現出色。BrowseComp測試旨在評估AI在信息密集環境中的堅持性與創造力。在該項測試中，人類平均得分僅為29.2%，而Kimi K2 Thinking以60.2%的成績刷新了SOTA紀錄。

此外，該模型在編程相關任務中亦有穩步提升。在多語言軟件工程基準SWE-Multilingual、SWE-bench驗證集以及Terminal終端使用等測試中，其表現有了進一步提升。

除了專項能力的突破，Kimi表示Kimi K2 Thinking模型在通用基礎能力上也實現同步升級。無論是在創意寫作、學術研究，還是在回應個人與情感類問題時，模型都展現出更成熟的理解與表達能力。

為進行對比驗證，《每日經濟新聞》記者使用與測試Kimi K2時相同的提示詞，要求Kimi K2 Thinking模型以2025年北京高考作文題“數字閃耀時”為例，模擬高中生身份完成一篇一類記敘文。從結果看，文章結構完整、扣題準確，但在切題方式上，該模型與K2一樣，仍存在表達略顯生硬的情況。

使用了長思考模式的Kimi撰寫的作文圖片來源：Kimi網頁版截圖

目前，Kimi K2 Thinking模型的API（應用程序編程接口）已在Kimi開放平臺正式上架，支持256K上下文長度，定價與Kimi K2-0905相同：每百萬Token（大模型處理文本時的最小單位）輸入收費4元，輸出16元，若命中緩存，輸入費用僅為1元。同時，平臺也推出了生成速度高達100 Token/s的Turbo API，其每百萬Token輸入為8元，輸出58元，命中緩存的輸入同樣為1元。

Kimi能否破局“紅海”競爭

然而，技術優勢能否成功轉化為市場認可，是擺在Kimi K2面前的首要挑戰。

QuestMobile數據顯示，今年三季度，接近60%的原生App陷入負增長，對于新入局者或中小應用而言，獨立打造一款成功的原生App的窗口正在收窄。2025年，國內大模型競爭已從初期的“百花齊放”步入“巨頭主導”的新階段。

Kimi自身的增長也面臨壓力。

根據量子位智庫10月數據，在AI助手APP新增下載榜上，Kimi與DeepSeek分別以超420萬和360萬的下載量位列第三、四位，但相較9月，兩者的下載量均下滑超過13%。與此同時，字節跳動的“豆包”以近2800萬新增下載穩居第一，騰訊“元寶”則以超1300萬下載、環比14%的漲幅位列第二。大廠憑借其生態優勢，持續擠壓著獨立應用的生存空間。

并且，更多跨界玩家正依托自身業務場景加速入局。11月3日，美團LongCat（龍貓）團隊宣布推出全新開源大模型LongCat-Flash-Omni，這也是美團在兩個月內第四次發布新模型。

另一個行業信號是AI交互成本的下降。

QuestMobile在報告中表示，人均單次Token消耗的下降也標志著AI行業進入了一個以“效率提升、成本控制、價值驅動”為特征的新階段。這是行業走向成熟和商業化的關鍵信號。

在此背景下，今年以來的Kimi正嘗試通過垂類合作探索商業化路徑。今年“雙11”期間，《每日經濟新聞》記者測試發現Kimi更新了“導購”功能，可根據用戶需求推薦商品并附帶淘寶或京東鏈接，不過商品多來自代理店鋪，尚未與官方旗艦店打通。相較于字節“豆包+抖音”、阿里“通義+電商”的生態閉環，Kimi暫未形成同等強度的業務綁定。

數據表明，具備清晰場景的垂直類AI應用仍具有增長潛力。據QuestMobile，字節跳動旗下即夢AI、豆包愛學及螞蟻集團旗下AQ健康管家等垂類應用三季度月活躍用戶規模復合增長率分別達12.1%、15.7%和83.4%。

對Kimi而言，差異化的核心在于將模型能力轉化為用戶可感知的價值。其能否在Agent搜索、編程助手、深度研究等場景建立起不可替代性，將決定技術升級的市場成效。

Kimi K2 Thinking展現出的技術縱深，為月之暗面在“思考型Agent”這一差異化路徑上贏得了重要籌碼。然而，在白熱化的大模型競爭中，技術領先性只是入場券，能否將“長思考”“強推理”的模型能力，轉化為用戶高頻依賴的應用場景，并構建起可持續的商業模式，才是真正的破局關鍵。

封面圖片來源：圖片來源：視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

揭秘本周大宗交易：815筆大宗交易成交115.74億元，機構席位掃貨這8只個股（附名單）

返回每經網首頁

下一篇文章

暈了暈了！機構大動作調倉，55只行業主題ETF被瘋狂掃貨，而熱門的半導體竟被悄然拋售