探秘:可信数据空间,如何重塑新材料产业的数字化格局?(之三)

责任编辑:lijing

作者:赵立京

2025-04-22 15:57:18

来源:企业网D1Net

原创

通过在企业内部建设分布式AI节点,并巧妙运用RAG(检索增强生成)技术进行分布式训练,中国钢研成功形成了不同行业的生成式数据知识库,这些知识库最终汇聚成分布式大模型,为行业数据建设注入了强大动力。

在由企业网D1net、信众智(CIO智力输出及社交平台)和中国企业数字化联盟共同主办的2025第十六届央国企CIO及数科公司峰会(春)上,北京新材道数智科技有限公司总经理赵旭对工业可信数据空间及材料大模型应用进行了详细介绍。

北京新材道数智科技有限公司总经理 赵旭

区块链+隐私计算驱动的材料数据生态

北京新材道在国家科技部发布的2030年国家材料基因组项目中,扮演着关键角色,特别是在区块链加隐私计算的数据汇聚机制建设方面,提供了强有力的支持。

首先,北京新材道专注于区块链技术在材料或工业领域的应用,而非区块链底层技术的研发。通过区块链技术,公司帮助构建了一个安全、可信的数据汇聚和共享环境,确保了数据在流通过程中的完整性和隐私性。

第二,公司不仅协助工业企业构建自身的数据集和数据平台,还致力于帮助企业连接到整个行业的数据空间,乃至国家新材料大数据中心。这种连接使得企业能够更便捷地获取和应用所需的数据,促进了数据的流通和价值挖掘。数据的流通不仅限于数据本身,还包括数据集和数据产品,为企业提供了更丰富的数据资源和应用场景。

第三,在构建国家材料数据空间或材料数据中心的过程中,北京新材道采用了中心化与去中心化相结合的策略。一方面,通过上交或征集等方式汇聚高质量数据到主中心平台;另一方面,其他节点则通过去中心化的连接方式,与整个数据中心实现数据共享和流通。这种结构并非以主中心为原点向子节点发散,而是形成了一个完全去中心化的保障结构,确保了数据的广泛流通和共享,同时避免了数据孤岛和中心化带来的风险。

中国钢研的AI进阶之路

中国钢研在材料AI应用领域深耕多年。早在1999年,便成功研发出材料研究辅助系统MARs2.0,该系统融合了模式识别、人工神经网络、可视分类图及遗传算法等先进技术,在钢铁、焊接材料、永磁合金、化工材料等多个领域均取得了广泛应用。

进入21世纪,中国钢研持续创新,于2007年实现了全球材料牌号的AI匹配,2018年又推出了焊材AI自动选配功能,至今使用人次已突破1000万大关。步入2024年,公司更是研发出材料研究辅助系统MARs3.0,并探索基于大模型智能代理的自动相图计算等前沿技术,不断推动材料AI应用的边界。

然而,在材料研发过程中,中国钢研也遭遇了AI for Science的难题。具体而言,数据的不同源性、分散性、规模不足以及可信性缺失,给大模型的训练带来了巨大挑战。更为棘手的是,由于数据特性的限制,材料行业中的AI应用时常出现涌现和幻觉现象,即模型会给出看似合理实则错误或不合理的结果,这对追求严谨务实的材料研发领域而言,无疑是一个亟待攻克的难关。

为应对材料研发中的数据问题,中国钢研提出了构建一套完整的材料研发课题数据集的构想。该数据集将全面覆盖实验、计算、数据等多个关键环节,旨在形成可信的实验数据集、计算数据集和产业数据集,为整个行业大模型的训练和应用提供坚实支撑。

在计算主题方面,中国钢研自2020年起便加大投入,成功建立了自己的行业仿真计算平台。该平台不仅购置了相当于近两个PE的算力资源,还全球采购了40多款正版工业软件,并通过虚拟化技术将其转化为仿真计算的远程访问平台,实现了云化服务。这一举措显著提升了计算效率,使得中国钢研每年有2000多名员工在平台上进行计算,计算次数高达十几万次。员工可以随时随地上传发布任务,后台自动调取软件进行计算并返回结果,过程中产生了大量具备同源、分散、规模化特点的数据。

此外,中国钢研还在积极推进无人数据工厂的建设,以解决大量计算数据结果的验证问题。通过高通量的3D打印技术,集团能够根据计算结果按比例向打印机铺粉,形成梯度打印结果。随后,利用机器学习和先进仪器进行表征分析,产生大量数据,再通过机器学习进行建模寻优,逐步缩小研究室比例,反复迭代优化,最终找到所需材料。这一过程中也产生了丰富的表征数据、实验数据、产品数据和机器学习数据,充分满足了数据的同源、分散性和规模性要求,有效解决了实验数据的问题。

自2019年起,中国钢研开始布局数据空间建设,逐步形成了钢铁产业链、石化产业链、船舶海工产业链三大核心产业链,将11家行业领军企业及数十家中小企业紧密连接,共同编织起一张覆盖广泛、协同高效的产业链互联网。在数据空间建设的征途中,中国钢研积累了海量且极具价值的产业核心数据集,这些数据集涵盖了可信的计算数据、实验数据及产业数据,为行业大模型的训练提供了肥沃的土壤。基于这些数据集,中国钢研成功训练出分布式行业大模型,并开发出如项目软件智能体等一系列AI工具。这些智能体不仅极大地丰富了应用场景,还推动了行业规范的建立与生态的繁荣,为AI大模型的整体规划与模型构建奠定了坚实基础。

DeepSeek大模型的问世,无疑为工业产品带来了一场革命性的变革。传统大模型受限于中心化架构,难以有效整合工业数据以服务于大公司训练,从而阻碍了行业模型的快速发展。而DeepSeek大模型则支持分布式部署,能够将大模型灵活部署于每个企业的服务器上,实现了从“大型机”到“个人PC”或“终端”的华丽转身,彻底打破了中心化架构的束缚。这一创新使得中国钢研能够针对不同行业需求,利用DeepSeek大模型分别训练材料模型、汽车大模型等,为各行业提供定制化、精准化的AI解决方案。

中国钢研的整体架构以分布式能源与区块链技术为双轮驱动,致力于构建工业大脑与工业数据空间的深度融合,最终达成真正意义上的工业认证。通过在企业内部建设分布式AI节点,并巧妙运用RAG(检索增强生成)技术进行分布式训练,中国钢研成功形成了不同行业的生成式数据知识库,这些知识库最终汇聚成分布式大模型,为行业数据建设注入了强大动力。

中国钢研已成功构建自有知识库体系,并创新性地实现了智能选材功能。以设计一款适用于火车场景的手机材料为例,该知识库能迅速提供精准的材料推荐建议,充分展现了其强大的应用潜力。这一知识库不仅为中国钢研内部研发提供了有力支撑,更为鞍钢、中石化等行业伙伴建立专属选材知识库奠定了坚实基础。

五维协同驱动材料装备数字化融合与国际化布局

在工业领域,中国钢研致力于打造L6级产业链平台,该平台将全面覆盖数据、商务及业务等多个维度。在工业应用场景中,原料端与终端用户端往往由头部企业主导,这些企业将在分布式AI与数据空间建设中发挥主节点与建设方的核心作用。而装备、零部件、材料等中大型企业及中小型企业则将深度接入这一体系,实现数据的无缝互通与高效共享。

为实现材料装备产业链数字化融合的整体解决方案,中国钢研提出以下五大策略:

首先,企业内部数据检测实施三步走战略:优先建设产品数据集,实现上下游产业链的紧密连接;随后构建企业数据应用与数据服务平台,提升数据服务能力;最终建设多方生态链连接的数据空间,促进数据生态的繁荣发展。

第二,破解行业数据平台与大模型缺失难题:针对工业领域数据平台与大模型建设中的产权问题,中国钢研将积极倡导政策引导与技术创新的双轮驱动策略,推动数据产权的明确界定与有效保护,为数据平台与大模型的建设筑牢法律与技术双重保障。

第三,深度应用材料区块链技术:将特征数据、实验数据等关键信息上链存储,确保数据的真实性与可追溯性;同时,利用区块链技术支撑模型的训练与数据的流通,显著提升数据利用效率与价值。

第四,推动数据发现与流通协议国际化进程:建立高效的数据发现机制,作为数据流通的起点;积极参与国际标准的制定工作,推动数据流通协议的国际化发展,抢占国际技术竞争的新高地。

第五,实施去中心化存储与多中心化运营策略:采用去中心化存储技术,确保数据的安全性与可靠性;实施多中心化运营策略,提升数据处理的效率与灵活性;同时加强中心化监管力度,确保数据的合规使用;并积极推动国际化发展步伐,为未来工业互联网及外部3.0的蓬勃发展提供坚实支撑。

关于企业网D1net(www.d1net.com):

国内头部to B IT门户,同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。旗下运营19个IT行业公众号(微信搜索D1net即可关注)。

上半年其他CIO活动预告如下:

通用行业

---------------------

2025 全国CIO大会

5月28-30日 西安 · 秦岭

华东CIO出海沙龙

2025/6/21下午 华东

金融行业

---------------------

2025第二届保险业数智化与金融科技应用论坛

6月13-14日 银川 寿险、财险、健康险、养老险、农业险等

D1net出品,必属精品

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号