当前位置:CIO新闻中心 → 正文

小数据大未来——非结构化数据管理探索

责任编辑:cres |来源:企业网D1Net  2023-02-25 16:04:09 原创文章 企业网D1Net

2月25日,由企业网D1Net、信众智(CIO智力输出及社交平台)和中国企业数字化联盟医药大健康分会联合主办的2023全国医药大健康CIO大会在上海召开。本次大会围绕“数字化转型新场景”这一主题,分享交流CIO在新冠疫情逐步缓解、中国医药卫生体制改革迈向深水区的新形势下,行业企业、机构在创新药物研发、流程效率提升、生产智能制造、全渠道数字营销等领域的前沿实践与现阶段的困惑,探讨医药大健康行业的新技术应用与未来发展趋势,以及如何更好地利用数字化技术推动医药大健康行业的发展。
 
以下是现场速记。
 


卫信康医药股份有限公司 CIO 孟长荣
 
孟长荣:各位同仁,各位大咖,大家下午好!首先很感谢范总提供这个交流的平台,这几年疫情确实大家线下交流的机会都越来越少了,所以说今年一开年我们就能够相聚在一起,感谢D1net。
 
我的分享大概分成四个部分:
 
首先是基本的介绍;
 
第二是对非结构化数据管理的过往的经历给大家进行交流;
 
前面的同事们都已经提到,我们现在进行这个数字化转型过程中我们会用到非常多的系统,都已经很全面了。我们从研发信息化角度整个链路都打通了,但打通之后对关心数据很容易掌握,但是对于非结构化数据,特别是对于医药企业这个是管理,我自己分析下来都是其中一个难点,也是容易被忽略的点,当然可能有的企业做得很好,已经走在前面了。但是从数字化转型角度来说,如果对我们自己基础数据都还没有达到一定的水平,我觉得这个是很难的。包括上午毛总也分享到,我们作为医药企业来说合规非常重要,从合规的角度来说,我们的数据不光是系统的数据,非系统的数据,包括我们管理的数据如何界定、管理?特别是统一的管理,给大家交流一下,分享一些过往的经历。
 
首先做个简单的自我介绍,我是IT老兵,但是做药的时间比较短,15年开始进入医药行业,在海思科做了几年,前两年在海默尼,去年才来到卫信康,这几个企业都是不同的医药行业,对医药研产销整个环节都有所了解。
 
简单介绍一下卫信康医药股份有限公司,卫信康医药股份有限公司成立于06年,17年在主板上市,但是估计在座的很多同事都没有听过,是一个非常小的公司。我们现在的企业规模也只有500、600人,营收就10几个亿的盘子,但是我们在品种上面,现在还是一家纯仿制药企业,在品种上面,在研发上面我们应该以前也是有自己的优势或者是一些方法。
 
所以我们细分领域都主要定位在肠道营养和体内营养这一块,整个品种有好几个首防和单品,应该说在细分领域做得都还不错。当然,因为整体属于小品种,可能大家很难接触到。
 
我们总部在北京,现在有三个研究院。总部在海淀,然后在昌平和上地都有自己的研究中心,我们的工厂在绿盟。这个工厂说出来大家应该就会觉得有意思,这个工厂叫内蒙古白医制药,前身是白求恩制药厂,是14年收购的。
 
医药行业是一个非常特殊的行业,确实受政策的驱动影响非常大。这个片子给大家看一下,因为这个看起来我们医药行业特别是对于数据这一块政策的关联度要求非常多,就这个片子来说只收集到2020年,这两年对于数据管理的要求在放缓,从药监的角度来说在放缓,为什么放缓?因为大家这两年都经历疫情,对药企要求越来越高,但医药行业整体的水平,横向、纵向和其他行业进行比较,我们就可以感觉到,我们跟其他行业的差距还是非常大的。但是对于数据合规的要求又非常高,所以在这方面国家发布了非常多的制度,对数据有强制性的要求。
 
2018年《药品数据管理规范》应该说是个很重要的分水岭,但是这个已经发布了四年多,现在已经快五年,还是在试运行,还是在征求意见的阶段,这个也是国家给大家的机会,还有一些时间来补课。因为在这个里面,药品数据管理办法里面对药品全生命周期的数据管理都有很严苛的要求,特别这两年疫情的影响,特别对于疫苗、生物制剂大的板块,大家可能都有很强的感受。特别是前两年长春生物的事件,对影响大家生命这一块,国家现在确实是越来越严。包括异质性评价,我们现在国产药安全性大家可以完全放心的去吃。
 
刚刚讲到我们数字化转型来说,我们已经迈入了大数据的时代,但是每个企业的状况不一样,特别是医药行业,我们整个医药行业技术水平确实有些弱。在座的都是同行,都是做IT或者跟IT相关的。我们自己的小数据,我们是O了吗?都已经解决掉了吗?
 
问大家一个很简单的问题,各位的企业总共有多少数据,能够一次性准确答出来的有多少?没关系,大家可以试一下,能答出来的举下手,我看一下,好像都没有同事可以一次性把它答出来。因为现在我们更多关注的重点可能都在系统上去了,可能都在流程、转型上面去了。但是我们自己有多少数据?实际这个是很基础的,反倒很容易被忽略。
 
一个是我们数据有多少,还有我们的数据有多少是有价值,有真正在使用的?这也是值得大家思考的问题。
 
再一个医药行业是强监管的行业,我们这么多的数据到底哪些是已经受了保护了?哪些是按合规在保护?哪些还在补课的过程中?这个也是需要我们作为CIO或者是相关的领导需要关注的问题。
 
刚刚讲到我们作为一个强监管的行业,对于数据的管理其实有非常多的要求。我们可能现在更多关注的都是在关系型数据,从流程角度这个数据肯定是通的。但是换一个角度,我们很多非结构化的数据,就以研发为例,整个研发过程中产生的一些非结构化的数据,我们如果要贯通,贯通之后再来进行分析也会有很大的价值,但是怎么来管?
 
首先这个数据非常杂,可能来自于设备、来自于文档甚至于来自于外部数据都有可能。数据来自四面八方,非常杂,很难去管它。还有产生的速度非常快,无论是哪一方,特别是现在都在上智能化,如果上智能设备,智能设备产生的数据量非常大,这个增长超乎想象,一台设备的数据量可能会跟以前整个系统的数据量一样大。
 
除了大以外,很多数据还要求永久保留,怎么保留?而且现在使用成本越来越高,在保留过程中能不能把它进行一些成本的降低?我们现在这种规模的企业一年对于公有云的支出都达到百万级,实际这个成本还是很高的,特别是进入集采之后,利润非常低,而且这是长期的过程,又是不可逆的趋势。
 
给大家分享一下以前在数据传递和数据扩展方面遇到的坑,如果大家已经使用了文件管理服务器的话,空间占满是很正常的,因为它的扩展很难预测。满了之后怎么办?满了之后我们肯定就要停,这个是以前服务器告警的典型案例。停了之后,我们为了服务的延续性,一定会发服务器停机的通知,当然我们一般来说都不会直接说服务器有故障,大家都流行用升级。但是对于老板来说,服务器为什么老升级?隔两天就升级,特别是如果系统多了之后,这其实是很棘手的问题。维护好了之后,在维护的时候其实其他同事可能顺便就摸鱼去了。
 
再一个重中之重,数据合规这一块。从销售角度来说有一些外发的资料,特别是还没有到公开的数据,我们可能对它的权限和效期都会有强制性的要求。但是对于一些比如宣传的资料还有财务的资料,能够快速的分享特别是宣传的资料,文件可能很大,我们又想快速的分享,这实际是天然相悖的。再一个对于研发的资料,特别是对于研发设计包括化合物的设计,我们如果有版本的概念,可以快速定位。
 
还有一个研发完成之后整个资料的集中管理,比如像我们研究院是分开的,数据的集中如果一开始没想好,后期难度也非常大。因为我们设备已经把它固定到了那个地方,通过验证就开始上线了,上线之后你再挪个位置,改个IP可能都需要重新做个验证,一涉及验证说大一点可能就会影响停产,这是多数人都不能接受的,老板更不能接受。
 
最早这个是20年前的时候开始用域共享,感觉管起来不太方便,然后用SVN,再进入到SAMBR共享,它在文档共享方面还是很强大的。然后到NAS,它可以解决地域性的问题。再到前几年,前几年非常火的网盘,再到近两年的包括飞书也有绿色的工具就是V盘,在线的SaaS文档,但这些工具都各有利弊,如果作为统一非结构化管理,特别对于药企管理都存在相对的弊端,如果不是药企无所谓,一旦是药企,一旦和合规拉上关系,这个就都有风险。
 
我们站在从整个非结构化数据管理角度来看,我们把它分成六块来规划。首先是存储,这个是大家最容易理解的。然后是聚合,聚合是指我本来数据量已经很大的情况下,我肯定会面向多元的存储协议,包括多元的硬件。再一个是协作,协作也很好理解,现在很多工具包括刚才讲的飞书也好,包括钉钉也好、企微都是相应的协作工具。
 
再一个是统一的数据体系,作为药企上午毛总分享到的,我们势必要进行分级管理,分级管理可能对于关系型数据很好做,但是对非关系型数据、对于结构化数据,我们也需要把它先做一个基础的数据体系。然后是统一的管理,特别是作为集团化企业,研发、生产、销售各个模块甚至分支机构,如果不统一势必会产生很多重复的甚至无效的。再一个是核心的安全体系。
 
刚刚讲到整个规划,规划之后从落地角度来说,统一管理主要是管什么?
 
第一个是体系文件,这个应该说是基础。然后是检验文件,包括研发的数据还有技术文件,还有生产数据。生产数据比较泛,包括设备数据,既然要建立平台,应该就是刚刚讲的一统六国,全部的数据只要是非结构化的数据都能够入库拿来管,这个地方管了之后有什么好处?
 
第一个是交叉引用,进入同一个池子,交叉引用非常高。还有快速的检索,现在各个企业都缺一个知识库,如果有统一的话,这个知识库很完整。再一个是日志,从审计角度来说,日志是一个基础。这个审计日志如果完整的话,合规自然就受控了,自然可以满足合规的要求。
 
这个图可能有点小,站在医药企业非结构化数据管理的四个阶段来划分。
 
第一步是基础文档的概念来管。把这块管好之后,把研发文档抽出来,研发文档再独立一个阶段。研发O了之后,GRP研发要求跟生产还是有些差异,我们把大质量,整个质量体系的角度从药品生产角度,全生命周期质量来管,如果这块都O了之后,我们就可以真正形成知识管理平台。知识管理平台之后今年非常火的ChatGPT,大家都在玩,我们知识管理平台形成之后,天然的马上郭总会分享的ChatGPT的实践,我们有了这个知识库,有了知识管理的平台后对于ChatGPT的建设应该会有很大的帮助。从我们具体系统部署来说,数据应用这些就不赘述了,这个都差不多,跟其他系统没什么差异,都是一样的。首先是要把整个统一掉,后面就都好办了。
 
从具体落地实施角度来说,首先肯定是从集团文档就是基础文件的角度。这个基础文件要分成两块:个人和设备的文件,可能管理的需求会低一些;另外一个是从团队和项目文档,特别是作为项目文档,项目文档的归集,它这个地方复用度非常高,会有强制的要求。
 
集团文档平台。这个是以前项目的数据,可以看到两年半时间数据差异的对比,从入驻半年的样子大概是在24个T的样子,然后到三年的时间接近200个T,当然这个数据量说起来不大,但是它的文件数也不少,最早大概在50多万,然后到三年的时间大概是在6100多万。这个是文件数,这个不是条目数,如果以这个来做衍生,它可以很轻松的就过亿了。
 
第一步从集团文档角度来说,就不能以单纯的集团文档管理角度,应该是整体思维,从药品全生命周期的角度,统一文档在建的时候就要考虑日志和审计的要求,我肯定不是所有的都需要做审计,但是我会满足审计的要求。敏感的数据、合规的数据一定会纳入监控的范围,还有一个刚刚讲的全文检索,这个也是非常使用的,这一块可能就会涉及到后台hadoop,绿色大数据分析平台。这一块它只是其中一个点。因为知识的挖掘和积累本来就是一个过程,从大的角度来说,如果这个框架是以这个来定的,后面数据扩容,刚才讲到服务器宕机或者升级这一块可以完全避免掉。所有的系统今后对于非结构化数据的管理,实际绝对是O的。
 
第二步从研发平台,第三步是统一的全面质量管理,大质量的角度。也是从整个药物发现到临床到生产到流通到药物安全整个全过程。
 
最后是从医药企业的角度来说,大的GXP一体化的管理。这个地方我们可以真正形成至少从药企的质量一体化,数字一体化还有智能制造一体化平台的基础。因为我把所有的数据,包括结构化、非结构化数据都采了,有了这些数据之后我们再来做相应的验证也好,还是做我们的管理也好,就比较容易了。
 
这是比较老的图,大家都非常熟悉。从计算机发展几个大的阶段来看,我们现在正在经历的是第五个阶段,就是人工智能认知的阶段。包括我们数字化转型,实际也是这个方向,但它这一块有个很基础的基础的基础就是文件的管理,就是非结构化数据的管理。
 
刚才讲到结构化的数据,在我系统之间的关联很容易,但是非结构化这一块实际非常难,这个也是为什么ChatGPT那么火的原因。但是我们国内的企业包括走在前面的百度、阿里包括科大讯飞,他们跟国外特别是OpenAI还有两个量级的差异,这也是很重要的点。
 
不是说这一块实现就可以直接过度到,也不是,刚刚讲了AI的过程也非常的远。
 
我的交流就到这里,谢谢大家!

关键字:数字化转型

原创文章 企业网D1Net

x 小数据大未来——非结构化数据管理探索 扫一扫
分享本文到朋友圈
当前位置:CIO新闻中心 → 正文

小数据大未来——非结构化数据管理探索

责任编辑:cres |来源:企业网D1Net  2023-02-25 16:04:09 原创文章 企业网D1Net

2月25日,由企业网D1Net、信众智(CIO智力输出及社交平台)和中国企业数字化联盟医药大健康分会联合主办的2023全国医药大健康CIO大会在上海召开。本次大会围绕“数字化转型新场景”这一主题,分享交流CIO在新冠疫情逐步缓解、中国医药卫生体制改革迈向深水区的新形势下,行业企业、机构在创新药物研发、流程效率提升、生产智能制造、全渠道数字营销等领域的前沿实践与现阶段的困惑,探讨医药大健康行业的新技术应用与未来发展趋势,以及如何更好地利用数字化技术推动医药大健康行业的发展。
 
以下是现场速记。
 


卫信康医药股份有限公司 CIO 孟长荣
 
孟长荣:各位同仁,各位大咖,大家下午好!首先很感谢范总提供这个交流的平台,这几年疫情确实大家线下交流的机会都越来越少了,所以说今年一开年我们就能够相聚在一起,感谢D1net。
 
我的分享大概分成四个部分:
 
首先是基本的介绍;
 
第二是对非结构化数据管理的过往的经历给大家进行交流;
 
前面的同事们都已经提到,我们现在进行这个数字化转型过程中我们会用到非常多的系统,都已经很全面了。我们从研发信息化角度整个链路都打通了,但打通之后对关心数据很容易掌握,但是对于非结构化数据,特别是对于医药企业这个是管理,我自己分析下来都是其中一个难点,也是容易被忽略的点,当然可能有的企业做得很好,已经走在前面了。但是从数字化转型角度来说,如果对我们自己基础数据都还没有达到一定的水平,我觉得这个是很难的。包括上午毛总也分享到,我们作为医药企业来说合规非常重要,从合规的角度来说,我们的数据不光是系统的数据,非系统的数据,包括我们管理的数据如何界定、管理?特别是统一的管理,给大家交流一下,分享一些过往的经历。
 
首先做个简单的自我介绍,我是IT老兵,但是做药的时间比较短,15年开始进入医药行业,在海思科做了几年,前两年在海默尼,去年才来到卫信康,这几个企业都是不同的医药行业,对医药研产销整个环节都有所了解。
 
简单介绍一下卫信康医药股份有限公司,卫信康医药股份有限公司成立于06年,17年在主板上市,但是估计在座的很多同事都没有听过,是一个非常小的公司。我们现在的企业规模也只有500、600人,营收就10几个亿的盘子,但是我们在品种上面,现在还是一家纯仿制药企业,在品种上面,在研发上面我们应该以前也是有自己的优势或者是一些方法。
 
所以我们细分领域都主要定位在肠道营养和体内营养这一块,整个品种有好几个首防和单品,应该说在细分领域做得都还不错。当然,因为整体属于小品种,可能大家很难接触到。
 
我们总部在北京,现在有三个研究院。总部在海淀,然后在昌平和上地都有自己的研究中心,我们的工厂在绿盟。这个工厂说出来大家应该就会觉得有意思,这个工厂叫内蒙古白医制药,前身是白求恩制药厂,是14年收购的。
 
医药行业是一个非常特殊的行业,确实受政策的驱动影响非常大。这个片子给大家看一下,因为这个看起来我们医药行业特别是对于数据这一块政策的关联度要求非常多,就这个片子来说只收集到2020年,这两年对于数据管理的要求在放缓,从药监的角度来说在放缓,为什么放缓?因为大家这两年都经历疫情,对药企要求越来越高,但医药行业整体的水平,横向、纵向和其他行业进行比较,我们就可以感觉到,我们跟其他行业的差距还是非常大的。但是对于数据合规的要求又非常高,所以在这方面国家发布了非常多的制度,对数据有强制性的要求。
 
2018年《药品数据管理规范》应该说是个很重要的分水岭,但是这个已经发布了四年多,现在已经快五年,还是在试运行,还是在征求意见的阶段,这个也是国家给大家的机会,还有一些时间来补课。因为在这个里面,药品数据管理办法里面对药品全生命周期的数据管理都有很严苛的要求,特别这两年疫情的影响,特别对于疫苗、生物制剂大的板块,大家可能都有很强的感受。特别是前两年长春生物的事件,对影响大家生命这一块,国家现在确实是越来越严。包括异质性评价,我们现在国产药安全性大家可以完全放心的去吃。
 
刚刚讲到我们数字化转型来说,我们已经迈入了大数据的时代,但是每个企业的状况不一样,特别是医药行业,我们整个医药行业技术水平确实有些弱。在座的都是同行,都是做IT或者跟IT相关的。我们自己的小数据,我们是O了吗?都已经解决掉了吗?
 
问大家一个很简单的问题,各位的企业总共有多少数据,能够一次性准确答出来的有多少?没关系,大家可以试一下,能答出来的举下手,我看一下,好像都没有同事可以一次性把它答出来。因为现在我们更多关注的重点可能都在系统上去了,可能都在流程、转型上面去了。但是我们自己有多少数据?实际这个是很基础的,反倒很容易被忽略。
 
一个是我们数据有多少,还有我们的数据有多少是有价值,有真正在使用的?这也是值得大家思考的问题。
 
再一个医药行业是强监管的行业,我们这么多的数据到底哪些是已经受了保护了?哪些是按合规在保护?哪些还在补课的过程中?这个也是需要我们作为CIO或者是相关的领导需要关注的问题。
 
刚刚讲到我们作为一个强监管的行业,对于数据的管理其实有非常多的要求。我们可能现在更多关注的都是在关系型数据,从流程角度这个数据肯定是通的。但是换一个角度,我们很多非结构化的数据,就以研发为例,整个研发过程中产生的一些非结构化的数据,我们如果要贯通,贯通之后再来进行分析也会有很大的价值,但是怎么来管?
 
首先这个数据非常杂,可能来自于设备、来自于文档甚至于来自于外部数据都有可能。数据来自四面八方,非常杂,很难去管它。还有产生的速度非常快,无论是哪一方,特别是现在都在上智能化,如果上智能设备,智能设备产生的数据量非常大,这个增长超乎想象,一台设备的数据量可能会跟以前整个系统的数据量一样大。
 
除了大以外,很多数据还要求永久保留,怎么保留?而且现在使用成本越来越高,在保留过程中能不能把它进行一些成本的降低?我们现在这种规模的企业一年对于公有云的支出都达到百万级,实际这个成本还是很高的,特别是进入集采之后,利润非常低,而且这是长期的过程,又是不可逆的趋势。
 
给大家分享一下以前在数据传递和数据扩展方面遇到的坑,如果大家已经使用了文件管理服务器的话,空间占满是很正常的,因为它的扩展很难预测。满了之后怎么办?满了之后我们肯定就要停,这个是以前服务器告警的典型案例。停了之后,我们为了服务的延续性,一定会发服务器停机的通知,当然我们一般来说都不会直接说服务器有故障,大家都流行用升级。但是对于老板来说,服务器为什么老升级?隔两天就升级,特别是如果系统多了之后,这其实是很棘手的问题。维护好了之后,在维护的时候其实其他同事可能顺便就摸鱼去了。
 
再一个重中之重,数据合规这一块。从销售角度来说有一些外发的资料,特别是还没有到公开的数据,我们可能对它的权限和效期都会有强制性的要求。但是对于一些比如宣传的资料还有财务的资料,能够快速的分享特别是宣传的资料,文件可能很大,我们又想快速的分享,这实际是天然相悖的。再一个对于研发的资料,特别是对于研发设计包括化合物的设计,我们如果有版本的概念,可以快速定位。
 
还有一个研发完成之后整个资料的集中管理,比如像我们研究院是分开的,数据的集中如果一开始没想好,后期难度也非常大。因为我们设备已经把它固定到了那个地方,通过验证就开始上线了,上线之后你再挪个位置,改个IP可能都需要重新做个验证,一涉及验证说大一点可能就会影响停产,这是多数人都不能接受的,老板更不能接受。
 
最早这个是20年前的时候开始用域共享,感觉管起来不太方便,然后用SVN,再进入到SAMBR共享,它在文档共享方面还是很强大的。然后到NAS,它可以解决地域性的问题。再到前几年,前几年非常火的网盘,再到近两年的包括飞书也有绿色的工具就是V盘,在线的SaaS文档,但这些工具都各有利弊,如果作为统一非结构化管理,特别对于药企管理都存在相对的弊端,如果不是药企无所谓,一旦是药企,一旦和合规拉上关系,这个就都有风险。
 
我们站在从整个非结构化数据管理角度来看,我们把它分成六块来规划。首先是存储,这个是大家最容易理解的。然后是聚合,聚合是指我本来数据量已经很大的情况下,我肯定会面向多元的存储协议,包括多元的硬件。再一个是协作,协作也很好理解,现在很多工具包括刚才讲的飞书也好,包括钉钉也好、企微都是相应的协作工具。
 
再一个是统一的数据体系,作为药企上午毛总分享到的,我们势必要进行分级管理,分级管理可能对于关系型数据很好做,但是对非关系型数据、对于结构化数据,我们也需要把它先做一个基础的数据体系。然后是统一的管理,特别是作为集团化企业,研发、生产、销售各个模块甚至分支机构,如果不统一势必会产生很多重复的甚至无效的。再一个是核心的安全体系。
 
刚刚讲到整个规划,规划之后从落地角度来说,统一管理主要是管什么?
 
第一个是体系文件,这个应该说是基础。然后是检验文件,包括研发的数据还有技术文件,还有生产数据。生产数据比较泛,包括设备数据,既然要建立平台,应该就是刚刚讲的一统六国,全部的数据只要是非结构化的数据都能够入库拿来管,这个地方管了之后有什么好处?
 
第一个是交叉引用,进入同一个池子,交叉引用非常高。还有快速的检索,现在各个企业都缺一个知识库,如果有统一的话,这个知识库很完整。再一个是日志,从审计角度来说,日志是一个基础。这个审计日志如果完整的话,合规自然就受控了,自然可以满足合规的要求。
 
这个图可能有点小,站在医药企业非结构化数据管理的四个阶段来划分。
 
第一步是基础文档的概念来管。把这块管好之后,把研发文档抽出来,研发文档再独立一个阶段。研发O了之后,GRP研发要求跟生产还是有些差异,我们把大质量,整个质量体系的角度从药品生产角度,全生命周期质量来管,如果这块都O了之后,我们就可以真正形成知识管理平台。知识管理平台之后今年非常火的ChatGPT,大家都在玩,我们知识管理平台形成之后,天然的马上郭总会分享的ChatGPT的实践,我们有了这个知识库,有了知识管理的平台后对于ChatGPT的建设应该会有很大的帮助。从我们具体系统部署来说,数据应用这些就不赘述了,这个都差不多,跟其他系统没什么差异,都是一样的。首先是要把整个统一掉,后面就都好办了。
 
从具体落地实施角度来说,首先肯定是从集团文档就是基础文件的角度。这个基础文件要分成两块:个人和设备的文件,可能管理的需求会低一些;另外一个是从团队和项目文档,特别是作为项目文档,项目文档的归集,它这个地方复用度非常高,会有强制的要求。
 
集团文档平台。这个是以前项目的数据,可以看到两年半时间数据差异的对比,从入驻半年的样子大概是在24个T的样子,然后到三年的时间接近200个T,当然这个数据量说起来不大,但是它的文件数也不少,最早大概在50多万,然后到三年的时间大概是在6100多万。这个是文件数,这个不是条目数,如果以这个来做衍生,它可以很轻松的就过亿了。
 
第一步从集团文档角度来说,就不能以单纯的集团文档管理角度,应该是整体思维,从药品全生命周期的角度,统一文档在建的时候就要考虑日志和审计的要求,我肯定不是所有的都需要做审计,但是我会满足审计的要求。敏感的数据、合规的数据一定会纳入监控的范围,还有一个刚刚讲的全文检索,这个也是非常使用的,这一块可能就会涉及到后台hadoop,绿色大数据分析平台。这一块它只是其中一个点。因为知识的挖掘和积累本来就是一个过程,从大的角度来说,如果这个框架是以这个来定的,后面数据扩容,刚才讲到服务器宕机或者升级这一块可以完全避免掉。所有的系统今后对于非结构化数据的管理,实际绝对是O的。
 
第二步从研发平台,第三步是统一的全面质量管理,大质量的角度。也是从整个药物发现到临床到生产到流通到药物安全整个全过程。
 
最后是从医药企业的角度来说,大的GXP一体化的管理。这个地方我们可以真正形成至少从药企的质量一体化,数字一体化还有智能制造一体化平台的基础。因为我把所有的数据,包括结构化、非结构化数据都采了,有了这些数据之后我们再来做相应的验证也好,还是做我们的管理也好,就比较容易了。
 
这是比较老的图,大家都非常熟悉。从计算机发展几个大的阶段来看,我们现在正在经历的是第五个阶段,就是人工智能认知的阶段。包括我们数字化转型,实际也是这个方向,但它这一块有个很基础的基础的基础就是文件的管理,就是非结构化数据的管理。
 
刚才讲到结构化的数据,在我系统之间的关联很容易,但是非结构化这一块实际非常难,这个也是为什么ChatGPT那么火的原因。但是我们国内的企业包括走在前面的百度、阿里包括科大讯飞,他们跟国外特别是OpenAI还有两个量级的差异,这也是很重要的点。
 
不是说这一块实现就可以直接过度到,也不是,刚刚讲了AI的过程也非常的远。
 
我的交流就到这里,谢谢大家!

关键字:数字化转型

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^