奥特曼在Reddit的“问我任何问题”(AMA)板块和X平台上回答用户提问时,承认了GPT-5发布过程中出现的一系列问题,包括模型切换故障、性能不佳以及用户困惑等,这些问题促使OpenAI部分撤销了一些平台变更,并恢复了用户对GPT-4o等早期模型的访问权限。
“发布过程比我们预期的要坎坷一些,”奥特曼在Reddit上回复有关GPT-5重大发布的问题时写道。
对于OpenAI在GPT-5直播中展示的错误模型性能图表,奥特曼表示:“工作人员熬夜加班,非常疲惫,出现了人为失误。直播前的最后几个小时里,还有很多工作要做。”
虽然他指出随附的博客文章和系统卡片内容准确无误,但这些失误让本就受到早期用户和开发者审视的发布过程更加混乱。
新自动模型路由器的故障
奥特曼表示,问题的一个关键原因在于OpenAI的新自动“路由器”,该系统负责将用户提示分配给四种GPT-5变体之一——常规版、迷你版、纳米版和专业版,并为需要更重推理的任务提供可选的“思考”模式。
在X平台上,奥特曼透露,该系统的一个关键部分——自动切换器——“在一天中的大部分时间里都停止了工作”,导致GPT-5的表现“比预期的要笨拙得多”。
对此,OpenAI表示正在对模型决策边界进行调整,并将提高模型响应特定查询的透明度。
用户界面更新也在进行中,以帮助用户手动触发思考模式。
此外,奥特曼证实,在收到大量关于GPT-5性能不稳定的投诉后,OpenAI将允许ChatGPT Plus用户继续使用GPT-4o(之前的默认模型),他在Reddit上表示,公司正在“尝试收集更多关于权衡取舍的数据”,然后再决定提供旧模型多长时间。
然而,包括沃顿商学院教授伊桑·莫利克(Ethan Mollick)等OpenAI测试人员在内的许多用户表示,他们对OpenAI单方面将他们的ChatGPT体验升级到GPT-5并最初取消对旧模型的访问权限感到困惑和沮丧。
实际性能不及预期
OpenAI的内部基准测试可能显示GPT-5在大型语言模型中处于领先地位,但实际用户却有着不同的体验。
自发布以来,用户们纷纷贴出GPT-5在数学、逻辑和编码任务中出现基础错误的例子。
数据科学家科林·弗雷泽(Colin Fraser)发布了GPT-5错误解答8.888(8循环)是否等于9(显然不等于)的截图,而另一位用户则展示了它搞砸简单代数问题5.9 = x + 5.11的情况。
还有其他用户报告称,在解决数学应用题或使用GPT-5调试其展示图表时遇到困难,无法得到准确答案。
开发者的反馈也不尽如人意,用户发布的图片显示,与竞争对手AI实验室Anthropic的新模型Claude Opus 4.1相比,GPT在“单次提示”完成某些编程任务(即仅凭一次提示就能很好地完成任务)方面的表现更差。
安全公司SPLX发现,除非加强其安全层,否则GPT-5仍然容易受到提示注入和混淆逻辑攻击等严重漏洞的影响。
OpenAI备受关注
ChatGPT每周拥有7亿用户,OpenAI仍然是受众最广的生成式AI领域的最大参与者。
但这种规模也带来了成长的烦恼,奥特曼在X平台的帖子中指出,GPT-5发布后的24小时内,API流量翻了一番,导致平台不稳定。
对此,OpenAI表示将加倍提高ChatGPT Plus用户的速率限制,并在收集反馈的同时继续调整基础设施。
然而,早期的失误,加上令人困惑的用户体验变更和高调发布中的错误,为竞争对手提供了迎头赶上的机会。
OpenAI面临着证明GPT-5不仅仅是一次增量更新,而是一次真正进步的压力。从初步发布情况来看,许多用户对此仍持怀疑态度。
企业网D1net(www.d1net.com):
国内头部to B IT门户,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。