2025 年 7 月,万亿参数基础模型 Kimi K2 横空出世;9 月,K2 - 0905 代码能力升级,上下文窗口跃升至 256K;昨夜,聚焦 Agent 与推理能力的 Kimi K2 Thinking 震撼发布,并开放全场景使用,尊龙凯时 - 人生就是搏!算力云平台已率先接入。
图 | 模型API服务
作为新一代开源思考模型,Kimi K2 Thinking 以“模型即 Agent”为核心理念,原生支持“边思考边用工具”,在推理、搜索浏览、编程等多场景达成 SOTA 表现。具体来说:
图 | 模型基准测试
✅ 强劲的智能体能力
Artificial Analysis 数据显示,Kimi K2 Thinking 在 τ²-Bench Telecom(智能体工具使用基准)中得分 93% ,为独立测量的最高值。其在智能体场景中的工具使用能力上较前代有显著提升,支持自主 200 - 300 轮工具调用和多轮思考。[1]
图 | Artificial Analysis
✅ INT4 精度的效率优化
经 INT4 精度优化,Kimi K2 Thinking 模型体积压缩至约594GB,较前代 FP8 精度(超1TB)实现两大突破:推理与训练效率约 2 倍提升,且同时兼容早期硬件设备(因 pre-Blackwell 架构的 NVIDIA GPU 不支持 FP4,INT4 更具兼容性)。[1]
在涵盖 100 + 专业领域的 Humanity's Last Exam 测试中,Kimi K2 Thinking 在工具辅助下取得 44.9% 的成绩,超越 GPT-5、Grok-4 等模型。
图 | Artificial Analysis
官方示例中,模型在面对 Humanity's Last Exam 测试题目时,经过 5 轮深入的循环搜索和推理,最终给出了答案:
在 Open AI 的 BrowseComp 基准测试中,Kimi K2 Thinking 以 60.2% 的成绩拔得头筹。模型尤其擅长“刨根问底”,分解模糊问题,通过“思考→搜索→验证”循环获取精准结果。
图 | Artificial Analysis
* BrowseComp 是 OpenAI 于 2025 年开源的AI 代理网络浏览能力基准测试,旨在评估模型在真实互联网环境中解决复杂信息检索任务的能力。
模型在一轮确认公司身份的挑战中,凭借回购信息定位目标公司,再检索 SEC 官网回购公告,迅速输出了准确答案。
此外,模型在 SWE-Multilingual、SWE-bench Verified 等基准测试中的表现也非常亮眼,尤其擅长 HTML、React 等前端任务,如复刻 Word 文字编辑器、创作体素艺术(voxel art)作品等。
图 | Word 文字编辑器
图 | 创作体素艺术
同时,Kimi K2 Thinking 也对通用基础能力进行了全面的升级:如创意写作风格连贯、情感饱满;学术研究、论文分析更加严谨;情感咨询也更具同理心,能提供细致建议。
引用:
[ 1 ] http://x.com/ArtificialAnlys/status/1986541785511043536