Grok 3 Beta — 推理代理的时代
xAI 的下一代智能
由马斯克主导的xAI 的下一代智能 Grok 3 终于问世。据其官网介绍:
我们很高兴推出 Grok 3 的早期预览版,这是我们迄今为止最先进的模型,将卓越的推理能力与广泛的预训练知识融为一体。
xAI 的下一代智能
我们很高兴推出 Grok 3,这是我们迄今为止最先进的模型:将强大的推理能力与广泛的预训练知识相结合。Grok 3 在我们的 Colossus 超级集群上进行训练,其计算能力是之前最先进模型的 10 倍,在推理、数学、编码、世界知识和指令遵循任务方面表现出显著的改进。Grok 3 的推理能力通过大规模强化学习得到改进,使其能够思考几秒到几分钟,纠正错误,探索替代方案并提供准确的答案。Grok 3 在学术基准和现实世界用户偏好方面均表现领先,在 Chatbot Arena 中获得了 1402 的 Elo 分数。与此同时,我们还推出了 Grok 3 mini,它代表了成本效益推理的新前沿。这两种模型仍在训练中,并将根据您的反馈迅速发展。我们将在未来几天向用户推出 Grok 3,并提前预览其推理能力。
更深入地思考:测试时计算和推理
今天,我们宣布推出两个测试版推理模型,Grok 3 (Think) 和 Grok 3 mini (Think)。它们使用强化学习 (RL) 进行了前所未有的大规模训练,以改进其思路链过程,从而以数据高效的方式实现高级推理。借助 RL,Grok 3 (Think) 学会了改进其解决问题的策略,通过回溯纠正错误,简化步骤,并利用它在预训练期间获得的知识。就像人类在解决复杂问题时一样,Grok 3 (Think) 可以花费几秒钟到几分钟的时间进行推理,通常会考虑多种方法,验证自己的解决方案,并评估如何精确满足问题的要求。
这两种模型仍处于训练阶段,但它们已经在一系列基准测试中表现出色。我们在 2025 年美国数学邀请赛 (AIME) 上测试了这些模型,该考试于 2 月 12 日刚刚发布 7 天。凭借我们最高的测试时间计算水平 (cons@64),Grok 3 (Think) 在本次比赛中取得了 93.3% 的成绩。Grok 3 (Think) 在研究生级专家推理 (GPQA) 中也取得了 84.6% 的成绩,在 LiveCodeBench 的代码生成和问题解决中取得了 79.4% 的成绩。此外,Grok 3 mini 在不需要太多世界知识的 STEM 任务的经济高效推理方面达到了新的境界,在 AIME 2024 上达到了 95.8%,在 LiveCodeBench 上达到了 80.4%。
当你在Gork 3 用中文询问其功能时,它的回是:
我是Grok 3,由xAI创建。我的主要功能旨在帮助用户理解宇宙并协助完成各种任务。以下是我的核心功能概述,基于我的设计目标和能力:
-
- 强大的推理能力:我具备“思维链”推理功能,可以像人类一样逐步拆解复杂问题,提供逻辑连贯且准确的回答。尤其在数学、科学逻辑和编程任务中表现突出。
-
- 多模态处理:我能处理多种数据类型,包括文本和图像(未来可能扩展到更多模态),可以分析上传的内容并生成相关描述或回答。
-
- 智能搜索(DeepSearch):我集成了深度搜索功能,可以浏览网页和X平台的信息,分析来源可信度,并提供详细的推理过程和答案。这让我在研究复杂主题时特别有用。
-
- 代码编写与优化:我能帮助用户编写代码、调试问题并提供优化建议,在编程能力上表现卓越。
-
- 自然语言理解与生成:我擅长理解用户意图,生成流畅自然的文本,支持长文本推理和实时知识整合。
-
- 任务辅助与实用性:从回答问题到头脑风暴,我的设计灵感来自《银河系漫游指南》和《钢铁侠》中的贾维斯,旨在提供实用且富有洞察力的帮助。
这些功能让我在多个领域(如数学、科学、编程和日常应用)表现出色,同时通过与X平台的集成,我还能提供新闻摘要、热点解析等社交功能。我的目标是成为一个强大且实用的工具,帮助人类探索知识和解决问题!
如果您想了解某个功能的细节或具体应用,可以告诉我,我会进一步展开!