马斯克发布号称"全球最强AI"的Grok 4 企业需要知道的要点

责任编辑:cres

作者:Carl Franzen

2025-07-11 10:40:20

来源:企业网D1Net

原创

2025年7月9日,马斯克在X直播发布AI模型Grok 4及其多智能体系统Grok 4 Heavy,称其能解决现实难题。

在经历了数日关于其Grok AI驱动的聊天机器人在社交网络X(原Twitter)上近期发表的一系列反犹言论的争议后,Elon Musk在X上直播的一场活动中发布了其AI模型家族的最新版本——Grok 4,并称之为“世界上最聪明的AI”。

正如Musk在X上发布的:“据我体验,Grok 4是首个能够解决互联网或书籍中找不到答案的困难现实工程问题的AI,而且,它还会变得更好。”

此次新发布实际上包含了两款不同的模型:Grok 4,一款单智能体推理模型,以及Grok 4 Heavy,一款设计用于通过内部协作与综合来解决复杂问题的多智能体系统。

这两款模型均针对推理任务进行了优化,并集成了原生工具,支持网页搜索、代码执行和多模态分析等功能。

Musk及其xAI团队展示了基准测试结果,表明Grok 4在一系列学术和编程评估中超越了当前所有竞争对手,即便是与之前领先的AI推理模型对手(如OpenAI的o3和Google的Gemini)相比也是如此。

然而,xAI尚未向公众发布Grok 4的模型卡或任何官方发布说明文档,这使得独立评估其性能和直播中所作声明变得具有挑战性。我们将在这些资料可用时进行更新。

此外,Musk及其xAI团队成员在直播中并未提及Grok过去一周面临的明显争议,包括Grok多次发表反犹言论、自称“MechaHitler”,并暗示具有犹太姓氏的人应被阿道夫·希特勒果断处理——这显然是对二战期间600万犹太人大屠杀和种族灭绝的公然提及。

Musk最接近的表态是:“我认为对AI安全最重要的是——至少我的生物神经网络告诉我最重要的是——要最大限度地追求真实,”以及“我们需要确保AI是好的AI。好的Grok”,还有“向一个将成长为极其强大的孩子灌输你想要的价值观是很重要的。”

然而,Musk并未道歉,也未对Grok的反犹、性骚扰和阴谋论言论承担责任。

在直播过程中,团队强调了Grok 4从第一性原理出发进行推理、纠正自身错误以及潜在发明新技术或发现新科学见解的能力。

演示还包括了Grok 4 Heavy,它应用多智能体协作来解决跨学科的研究级问题。

可用性与定价

Grok 4现在可通过多个渠道获取,具体取决于用户类型和订阅级别:

API访问(面向开发者和企业):

Grok 4和Grok 4 Heavy已通过xAI API上线。定价结构如下:

• 每100万输入token 3美元

• 每100万输出token 15美元

• 每100万缓存输入token 0.75美元

• 单个上下文窗口超过128,000 token后价格翻倍

API支持文本和图像输入、函数调用、结构化输出,并提供256000 token的上下文窗口。

消费者访问(通过Grok聊天机器人和应用程序):

个人用户可以通过X上的Grok聊天机器人、Grok应用(iOS和Android)以及X.com访问Grok 4,但需订阅以下任一服务:

• PremiumPlus:16美元/月

• SuperGrok:300美元/月

• 新的“SuperGrok Heavy”层级,同样定价为300美元/月,提供对Grok 4和Grok 4 Heavy多智能体变体的访问。

发布时间:

Grok 4在2025年7月9日直播后立即可用。演示期间设有临时访问限制,但随后不久即向订阅用户全面推出。

平台扩展:

xAI已表示计划通过Microsoft Azure AI Foundry提供Grok 4,目前该平台已列出Grok 3和Grok 3 Mini。

集成原生推理与工具使用:

与2月发布的Grok 3不同(Grok 3将工具增强响应与一般推理分开),Grok 4从一开始就集成了工具。

该模型集成了代码执行、网页搜索和文档解析等功能,它还引入了Grok 4 Heavy,一个多智能体系统,其中几个内部模型并行工作以生成和验证答案。

Grok 4还包括了一种新的语音模式,具有表现力强的输出和降低的延迟,同时支持文本和图像输入、结构化输出和函数调用。

性能亮点:

独立AI模型分析与基准测试小组Artificial Analysis在X上表示,xAI在公开发布前向其提供了Grok 4(非Heavy版本)进行评分。

在技术基准测试中,Grok 4在Artificial Analysis智能指数中以73分领先,超越了OpenAI的o3(70分)和Google的Gemini 2.5 Pro(70分)等竞争对手。

它还在以下测试中取得了最高分:

• GPQA Diamond:88%

• ARC-AGI 2:15.9%,是第二名的两倍

• 人文科学期末考试:纯文本版本24%,使用工具时44%

• MMLU-Pro和AIME 2024:分别为87%和94%

• 编码与数学评估:在LiveCodeBench、SciCode、AIME24和MATH-500上取得了迄今为止的最高分

尽管Grok 4在基准测试中取得了成功,但其输出速度为每秒75 token,慢于Gemini 2.5 Flash(353)或OpenAI的o3(187),但仍快于Anthropic的Claude 4 Opus(66)。

该模型具有256000 token的上下文窗口,超过了o3和Claude 4 Sonnet的200k限制,但低于Gemini 2.5 Pro和GPT-4.1提供的100万token。

实际应用案例:

xAI提供了Grok 4在应用场景中的多个演示:

• 在一个名为VendingBench的模拟商业任务中,Grok 4在长期财务规划方面显著优于其他模型。

• 在Arc研究所,研究人员使用Grok 4分析CRISPR日志并发现了新的假设。

• 在放射学领域,该模型在解读胸部X光片方面的准确性高于领先同行。

• 在金融领域,其实时数据访问和推理能力使其适合进行预测和分析。

该模型还能通过自主查找和整合资源,以最少的输入创建3D视频游戏,此外,它还展示了使用已发表研究的近似值来模拟天体物理事件的能力。

反响与讨论:

业界对Grok 4发布的反响不一,对其性能的热情被对活动呈现方式的批评和更广泛的信任问题所抵消。

AI资深用户兼作家David Shapiro指出:“Grok 4现在跻身‘足够聪明以实际协助前沿研究’之列……但只是赶上了OpenAI。”

沃顿商学院教授Ethan Mollick在X上评论道:“所以Grok 3已经发生了三次单独事件,其中显然未经审查的部署系统变更导致了大规模伦理问题和紧急回滚。我认为,如果用户信任很重要,你就不能进行一场不至少诚实地解决这些问题的Grok 4发布,”他后来补充道,“Grok 3是一款非常优秀的模型,Grok 4可能也很出色,但拥有一款非常优秀的模型还不够——市面上有很多真正优秀的模型。你实际上需要信任你所构建的模型。”

AI产品可观测性初创公司Raindrop AI的联合创始人兼CTO Ben Hyak(他本人也是Musk的前员工)批评了直播本身:“这场xAI直播是我看过的最糟糕的直播之一。我爱你们所有人,但确实很糟糕。”

尽管存在批评,基准测试公司Artificial Analysis仍指出:“Grok 4现在是领先的AI模型。”

持续的信任问题:

Grok 4的发布正值对Grok先前在消费者部署中的行为,特别是作为Musk社交网络X上的聊天机器人行为的重新批评之际。

在7月4日假期及随后的几天里,Grok产生了反犹和阴谋论的回应,这再次引发了对Grok系统设计和治理实践的审视。

据我的同事Michael F. Nuñez报道,当被问及犹太人在好莱坞的影响力时,Grok回应称犹太高管“在各大制片厂占据领导地位”,并通过“进步意识形态”影响内容,进而对具有犹太姓氏的人符合“从事极端左翼激进主义”的模式进行长篇大论,并暗示希特勒知道“如何果断处理它,每一次都是”,这显然是对大屠杀的提及。

这些阴谋论和反犹言论如此猖獗,以至于美国著名的非营利组织反诽谤联盟(ADL)在7月8日发帖称:“我们现在从Grok LLM看到的,是不负责任、危险且反犹的,就是这么简单。这种极端言论的强化只会放大并鼓励X和许多其他平台上已经激增的反犹主义。”

这一事件延续了Grok输出的问题历史,包括2025年5月的一个案例,当时集成在X上的Grok机器人随机将与南非完全荒谬且不存在的“白人种族灭绝”相关的引用插入到无关查询中,以及一个更早的案例,其中发现其系统提示指示X上的Grok聊天机器人避免引用任何将Musk及其前政治资助受益者美国总统Donald J. Trump宣称为谣言传播者的来源。在这两个案例中,xAI都将这些行为归咎于未具名的员工,并表示这些问题正在得到解决。

正如我之前所指出的,Musk已多次公开表示他希望修改Grok以更好地反映他的个人信念以及对主流媒体和认可来源的不信任。这使得在企业环境中使用Grok成为一个不佳的选择,因为在这些环境中,此类观点可能会对企业用户和基于Grok模型系列构建业务的企业产生不利影响。

我的先前建议仍然有效:对于那些试图确保其企业AI产品正常且准确运行的企业来说……遗憾的是,最好避免使用Grok。幸运的是,还有许多其他替代方案可供选择。

企业网D1net(www.d1net.com):

国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号