苹果在AI领域取得重大进展,图像生成技术可与DALL-E和Midjourney相媲美

责任编辑:cres

作者:Michael

2025-06-10 11:08:00

来源:企业网D1Net

原创

苹果研究人员推出革命性AI图像生成系统“STARFlow”,以标准化流结合Transformer直击扩散模型软肋,该系统在潜在空间高效运作,实现了端到端精确似然训练,性能追平业界最佳,并突破高分辨率障碍。

苹果公司的机器学习研究团队开发出了一种突破性的AI系统,该系统能够生成高分辨率图像,可能对以DALL-E和Midjourney等流行图像生成器所依赖的扩散模型的主导地位构成挑战。

这项在上周发表的研究论文中详细介绍的技术名为“STARFlow”,是由苹果研究人员与学术合作伙伴共同开发的,该系统结合了标准化流(normalizing flows)与自回归Transformer,实现了研究团队所称的“与最先进的扩散模型相比具有竞争力”的性能。

这一突破发生在苹果面临AI领域批评声浪日益高涨的关键时刻。在周一的全球开发者大会上,该公司仅对其Apple Intelligence平台进行了适度的AI更新,凸显了这家被许多人视为在AI军备竞赛中落后了的公司所面临的竞争压力。

“据我们所知,这项工作是首次成功展示标准化流能够在此规模和分辨率下有效运作,”研究团队写道,该团队包括苹果机器学习研究人员纪涛顾(Jiatao Gu)、约书亚·M·苏斯金德(Joshua M. Susskind)和翟双飞(Shuangfei Zhai),以及来自加州大学伯克利分校和佐治亚理工学院等机构的学术合作者。

苹果如何在AI大战中反击OpenAI和谷歌

STARFlow研究代表了苹果为开发独特AI能力所做的更广泛努力,这些能力可能使其产品与竞争对手区分开来。虽然谷歌和OpenAI等公司凭借其生成式AI的进步占据了头条新闻,但苹果一直在探索可能提供独特优势的替代方法。

研究团队解决了AI图像生成中的一个基本挑战:将标准化流扩展到能够有效处理高分辨率图像的程度。标准化流是一种生成模型,它学习将简单分布转换为复杂分布,但在图像合成应用中传统上被扩散模型和生成对抗网络所掩盖。

“STARFlow在类别条件图像生成和文本条件图像生成任务中均取得了具有竞争力的性能,样本质量接近最先进的扩散模型,”研究人员写道,展示了该系统在不同类型图像合成挑战中的多功能性。

苹果新AI系统背后的数学突破

苹果的研究团队引入了几项关键创新,以克服现有标准化流方法的局限性,该系统采用了研究人员所说的“深-浅设计”,使用“一个深度Transformer块[它]捕获了模型的大部分表示能力,辅以几个计算效率高且显著有益的浅Transformer块”。

这一突破还涉及在预训练自编码器的潜在空间中操作,这比直接像素级建模更有效。根据论文,这种方法允许模型使用图像的压缩表示而不是原始像素数据进行工作,显著提高了效率。

与依赖迭代去噪过程的扩散模型不同,STARFlow保持了标准化流的数学性质,能够在连续空间中进行精确的最大似然训练,而无需离散化。

STARFlow对苹果未来iPhone和Mac产品的意义

这项研究在苹果面临展示AI领域有意义进展的日益增加的压力之际出现。最近的一项彭博社分析强调了Apple Intelligence和Siri在与竞争对手竞争中的挣扎。苹果在本周的全球开发者大会上的适度宣布凸显了该公司在AI领域的挑战。

对于苹果而言,STARFlow的精确似然训练可能在需要精确控制生成内容或在理解模型不确定性对于决策至关重要的应用中提供优势——这可能对企业应用和苹果强调的设备上AI能力有价值。

这项研究证明了替代扩散模型的方法可以达到类似的结果,可能为创新开辟新的途径,这些途径可以发挥苹果在软硬件集成和设备上处理方面的优势。

为什么苹果押注于大学合作来解决其AI问题

这项研究体现了苹果与领先学术机构合作以提升其AI能力的战略。共同作者陈天荣(Tianrong Chen)是佐治亚理工学院的博士生,曾在苹果机器学习研究团队实习,他在随机最优控制和生成建模方面拥有专业知识。

该合作还包括加州大学伯克利分校数学系的张瑞祥(Ruixiang Zhang)和谷歌大脑(Google Brain)和DeepMind的机器学习研究员洛朗·丁(Laurent Dinh),后者以在流模型方面的开创性工作而闻名。

“重要的是,我们的模型仍然是一个端到端的标准化流模型,”研究人员强调,将他们的方法与牺牲数学可处理性以换取性能提升的混合方法区分开来。

完整的研究论文可在arXiv上找到,为希望在竞争激烈的生成式AI领域中构建此工作的研究人员和工程师提供了技术细节。虽然STARFlow代表了显著的技术成就,但真正的考验将是苹果能否将此类研究突破转化为消费者喜爱的AI功能,这些功能已使ChatGPT等竞争对手家喻户晓。对于一家曾凭借iPhone等产品革新整个行业的公司而言,问题不在于苹果能否在AI领域创新,而在于其能否足够快地实现这一目标。

企业网D1net(www.d1net.com):

国内头部to B IT智库,旗下运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号