每日經濟新聞
輪播

每經網首頁 > 輪播 > 正文

原生掌握“邊思考,邊用工具” ,Kimi “史上最強”開源思考模型能否破局AI紅海?

2025-11-08 13:02:30

11月6日晚,月之暗面旗下Kimi大模型發布Kimi K2 Thinking,稱其是“Kimi迄今能力最強的開源思考模型”,在多項測試中達SOTA水平,且在通用基礎能力上同步升級,目前其API已上架。但Kimi面臨市場競爭壓力,大廠憑借生態優勢擠壓獨立應用空間,且AI交互成本下降。Kimi嘗試垂類合作探索商業化,能否將模型能力轉化為用戶價值、構建可持續商業模式是其破局關鍵。

每經記者|李宇彤    每經編輯|黃博文    

月之暗面今年以來的技術迭代還在繼續。

11月6日晚間,月之暗面旗下Kimi大模型發布了Kimi K2 Thinking,并稱其為“Kimi迄今能力最強的開源思考模型”。

Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能體)”理念訓練的新一代Thinking Agent,它原生掌握“邊思考,邊使用工具”的能力。

從實測成績來看,Kimi K2 Thinking在“人類最后的考試”(Humanity's Last Exam)、自主網絡瀏覽能力(BrowseComp)、復雜信息收集推理(SEAL-0)等多項基準測試中表現達到SOTA(當前技術水平的最前沿)水平。

自7月進入“K2”版本之后,Kimi的升級正在提速。9月5日,Kimi發布Kimi K2模型的最新版本“0905”,進一步提升其在真實編程任務中的表現。9月25日,月之暗面Kimi發布全新Agent模式“OK Computer”并開啟灰度測試。

這也是整個AI市場的一個縮影。事實上,AI市場正進入快速迭代階段。據QuestMobile發布的2025年三季度AI應用行業報告,以頭部互聯網集團為例,今年1月—9月共完成182次模型發布/更新/迭代,平均每5.7天就迎來一次模型升級。

模型迭代節奏持續加快,技術競爭正轉向應用能力與推理深度的實戰較量。

在“人類最后的考試”中超越GPT-5(High)

據Kimi官方,Kimi K2 Thinking是“Kimi迄今能力最強的開源思考模型”,這一定位源于其在技術架構、任務執行與評測表現上的系統性突破。

作為基于“模型即Agent”理念訓練的新一代Thinking Agent,Kimi K2 Thinking實現了“邊思考,邊使用工具”的原生能力融合。該模型可在無人干預的情況下,自主完成多達300輪的工具調用與多輪思考,可提升處理復雜問題的連續性與穩定性。

在多項關鍵能力維度上,Kimi K2 Thinking均有明顯進步,其Agentic(智能代理)搜索、Agentic編程、寫作與綜合推理性能得到進一步強化。

在推理能力方面,該模型在涵蓋100多個專業領域的“人類最后的考試”(Humanity's Last Exam)中取得了卓越成績。該測試允許使用搜索、Python及網絡瀏覽等工具,Kimi K2 Thinking以44.9%的得分達到SOTA水平。作為對比,Kimi公布的同場測試中GPT-5(High)的成績為41.7%。

面對信息過載的復雜搜索場景,Kimi K2 Thinking同樣表現出色。BrowseComp測試旨在評估AI在信息密集環境中的堅持性與創造力。在該項測試中,人類平均得分僅為29.2%,而Kimi K2 Thinking以60.2%的成績刷新了SOTA紀錄。

此外,該模型在編程相關任務中亦有穩步提升。在多語言軟件工程基準SWE-Multilingual、SWE-bench驗證集以及Terminal終端使用等測試中,其表現有了進一步提升。

除了專項能力的突破,Kimi表示Kimi K2 Thinking模型在通用基礎能力上也實現同步升級。無論是在創意寫作、學術研究,還是在回應個人與情感類問題時,模型都展現出更成熟的理解與表達能力。

為進行對比驗證,《每日經濟新聞》記者使用與測試Kimi K2時相同的提示詞,要求Kimi K2 Thinking模型以2025年北京高考作文題“數字閃耀時”為例,模擬高中生身份完成一篇一類記敘文。從結果看,文章結構完整、扣題準確,但在切題方式上,該模型與K2一樣,仍存在表達略顯生硬的情況。

使用了長思考模式的Kimi撰寫的作文圖片來源:Kimi網頁版截圖

目前,Kimi K2 Thinking模型的API(應用程序編程接口)已在Kimi開放平臺正式上架,支持256K上下文長度,定價與Kimi K2-0905相同:每百萬Token(大模型處理文本時的最小單位)輸入收費4元,輸出16元,若命中緩存,輸入費用僅為1元。同時,平臺也推出了生成速度高達100 Token/s的Turbo API,其每百萬Token輸入為8元,輸出58元,命中緩存的輸入同樣為1元。

Kimi能否破局“紅海”競爭

然而,技術優勢能否成功轉化為市場認可,是擺在Kimi K2面前的首要挑戰。

QuestMobile數據顯示,今年三季度,接近60%的原生App陷入負增長,對于新入局者或中小應用而言,獨立打造一款成功的原生App的窗口正在收窄。2025年,國內大模型競爭已從初期的“百花齊放”步入“巨頭主導”的新階段。

Kimi自身的增長也面臨壓力。

根據量子位智庫10月數據,在AI助手APP新增下載榜上,Kimi與DeepSeek分別以超420萬和360萬的下載量位列第三、四位,但相較9月,兩者的下載量均下滑超過13%。與此同時,字節跳動的“豆包”以近2800萬新增下載穩居第一,騰訊“元寶”則以超1300萬下載、環比14%的漲幅位列第二。大廠憑借其生態優勢,持續擠壓著獨立應用的生存空間。

并且,更多跨界玩家正依托自身業務場景加速入局。11月3日,美團LongCat(龍貓)團隊宣布推出全新開源大模型LongCat-Flash-Omni,這也是美團在兩個月內第四次發布新模型。

另一個行業信號是AI交互成本的下降。

QuestMobile在報告中表示,人均單次Token消耗的下降也標志著AI行業進入了一個以“效率提升、成本控制、價值驅動”為特征的新階段。這是行業走向成熟和商業化的關鍵信號。

在此背景下,今年以來的Kimi正嘗試通過垂類合作探索商業化路徑。今年“雙11”期間,《每日經濟新聞》記者測試發現Kimi更新了“導購”功能,可根據用戶需求推薦商品并附帶淘寶或京東鏈接,不過商品多來自代理店鋪,尚未與官方旗艦店打通。相較于字節“豆包+抖音”、阿里“通義+電商”的生態閉環,Kimi暫未形成同等強度的業務綁定。

數據表明,具備清晰場景的垂直類AI應用仍具有增長潛力。據QuestMobile,字節跳動旗下即夢AI、豆包愛學及螞蟻集團旗下AQ健康管家等垂類應用三季度月活躍用戶規模復合增長率分別達12.1%、15.7%和83.4%。

對Kimi而言,差異化的核心在于將模型能力轉化為用戶可感知的價值。其能否在Agent搜索、編程助手、深度研究等場景建立起不可替代性,將決定技術升級的市場成效。

Kimi K2 Thinking展現出的技術縱深,為月之暗面在“思考型Agent”這一差異化路徑上贏得了重要籌碼。然而,在白熱化的大模型競爭中,技術領先性只是入場券,能否將“長思考”“強推理”的模型能力,轉化為用戶高頻依賴的應用場景,并構建起可持續的商業模式,才是真正的破局關鍵。


封面圖片來源:圖片來源:視覺中國-VCG211478193393

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

1

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
亚洲日韩一区二区综合另类 | 一级日本大片免费观看视频 | 精品亚洲视频在线 | 亚洲一级AV在线大片 | 亚洲精品在看在线观看高清 | 日本天堂天v在线播放 |