其结果是,随着公司发现这些典型的大型数据存储的用途,大数据技术、实践和方法也在不断发展。用于收集、处理、管理和分析整个公司中的各种数据的新型大数据架构和技术不断涌现。
处理大数据不仅仅是处理大量存储的信息。数量大只是公司需要解决的众多大数据V中的一个。通常还有大量的数据——从分布在整个公司的数据库中的结构化信息,到文件、图像、视频、传感器、系统日志、文本和文档中的大量非结构化和半结构化数据,包括等待数字化的纸质数据,此外,这些信息通常是以快速(速度)创建和更改的,并且具有不同的数据质量(准确性)水平,这给数据管理、处理和分析带来了进一步的挑战。
大数据的四大趋势正在帮助公司应对这些挑战,并获得他们所寻求的好处。以下是行业专家确定的四大大数据趋势,以及它们对投资于大数据部署的公司意味着什么。
1.GenAI、高级分析和机器学习继续发展
随着海量数据的产生,传统的分析方法受到了挑战,因为它们不容易实现大规模数据分析的自动化。分布式处理技术,特别是由Hadoop和Spark等开源平台推动的技术,使公司能够快速处理PB级的信息。然后,企业使用大数据分析技术来优化其商业智能和分析计划,将依赖于数据仓库技术的缓慢报告工具转移到更智能、更具响应性的应用程序,从而更好地了解客户行为、业务流程和整体运营。
大数据分析的发展继续聚焦于机器学习和AI系统。AI越来越多地被各种规模的公司用来优化和改进他们的业务流程。在企业战略集团的支出意向调查中,在193名熟悉其公司中的AI和机器学习计划的受访者中,63%的人表示,他们预计2023年该公司将在这些工具上投入更多资金。
机器学习使公司能够更轻松地识别数据模式、检测大型数据集中的异常,并支持预测性分析和其他高级数据分析功能。这方面的一些例子包括:
·图像、视频和文本数据的识别系统。
·数据的自动分类。
·针对聊天机器人以及语音和文本分析的自然语言处理(NLP)功能。
·自主业务流程自动化。
·网站和服务中的个性化和推荐功能。
·能够在海量数据中为业务问题找到最佳解决方案的分析系统。
事实上,在AI和机器学习的帮助下,公司正在利用他们的大数据环境,通过智能聊天机器人和更个性化的交互提供更深入的客户支持,而不需要大幅增加客户支持人员,这些支持AI的系统能够收集和分析有关客户和用户的海量信息,特别是当与数据湖战略配合使用时,该战略可以聚合许多来源的广泛信息。
企业也看到了数据可视化领域的创新。当数据以图表、图形和曲线图等可视化形式表示时,人们更好地理解数据的含义。新兴的数据可视化形式正在将支持AI的分析的力量掌握在甚至是普通商业用户手中,这有助于公司发现可以改进决策的关键见解。高级形式的可视化和分析工具甚至允许用户用自然语言提问,系统会自动确定正确的查询并以与上下文相关的方式显示结果。
GenAI和大型语言模型(LLM)甚至更多地改进了公司的数据操作,并在整个数据管道中受益。GenAI可以帮助自动化数据可观察性监控功能,通过针对已识别的问题进行主动警报和修复来提高质量和效率,甚至可以编写代码行,它可以扫描大量数据以查找错误或不一致之处,或识别模式,并为数据团队生成最重要细节的报告或可视化。低成本管理系统为公司提供新的数据民主化能力。随着GenAI将自己编织到数据管理过程中,数据编目、集成、隐私、治理和共享都在上升。
GenAI和LLMS的能力取决于用于训练模型的数据的质量。随着GenAI在所有行业的兴趣和使用不断上升,数据质量比以往任何时候都更加重要。数据团队必须仔细监控所有AI生成的数据操作的结果。错误或误导的数据可能会导致错误的决策和代价高昂的结果。
2.更多的数据,更多的数据多样性推动了处理的进步和边缘计算的兴起
数据生成的步伐继续加快,这些数据中的很大一部分并不是从数据库中发生的商业交易中产生的,而是来自其他来源,包括云系统、网络应用、视频流以及智能手机和语音助理等智能设备,这些数据在很大程度上是非结构化的,在过去,公司大多未处理和使用这些数据,将其变成了所谓的暗数据。
这让我们看到了大数据的最大趋势:非数据库来源仍将是主要的数据来源,进而迫使公司重新检查其数据处理需求。特别是,语音助理和物联网设备正在推动大数据管理需求的快速增长,涉及零售、医疗、金融、保险、制造业和能源等各种行业,以及广泛的公共部门市场。数据多样性的爆炸式增长迫使公司超越传统的数据仓库,将其作为处理所有这些信息的手段。
此外,处理正在生成的数据的需求正在转移到设备本身,因为行业在处理能力方面的突破导致了越来越先进的设备的开发,这些设备能够自行收集和存储数据,而不会对网络、存储和计算基础设施造成负担。例如,手机银行应用程序可以处理许多远程支票存款和处理任务,而不必将图像来回发送到中央银行系统进行处理。
使用设备进行分布式处理体现在边缘计算的概念中,该概念在将数据发送到服务器之前将处理负载转移到设备本身。边缘计算通过减少数据流经网络的需求来优化性能和存储,这降低了计算和处理成本,特别是云存储、带宽和处理费用。边缘计算还有助于加快数据分析,为用户提供更快的响应。
3.大数据存储需求推动云和混合云平台的创新,数据湖的增长
为了应对不可阻挡的数据生成增长,公司正在花费更多的资源将这些数据存储在一系列针对大数据的所有V级进行优化的基于云的和混合云系统中。在过去的几十年里,公司处理自己的存储基础设施,导致企业必须管理、保护和运营海量数据中心。转向云计算改变了这一动态,通过将责任转移到云基础设施提供商,如AWS、谷歌、微软、甲骨文和IBM,公司可以处理几乎无限数量的新数据,并按需支付存储和计算能力费用,而不必维护自己的大型且复杂的数据中心。
由于监管或技术限制,一些行业在使用云基础设施方面面临挑战。例如,受到严格监管的行业——如医疗保健、金融服务和政府——有阻止使用公有云基础设施的限制,因此,在过去十年中,云提供商开发了各种方法来提供更有利于监管的基础设施,以及将第三方云系统的各个方面与本地计算和存储相结合以满足关键基础设施需求的混合方法。随着公司寻求云计算的经济和技术优势,公有云和混合云基础设施的发展无疑将取得进展。
除了在云存储和处理方面的创新,企业正在转向新的数据架构方法,这些方法使他们能够应对大数据的多样性、准确性和数据量挑战。企业正在发展数据湖的概念,而不是试图将数据存储集中在需要复杂且耗时的提取、转换和加载流程的数据仓库中。数据湖以其原生格式存储结构化、半结构化和非结构化数据集,这种方法将数据转换和准备的责任转移到具有不同数据需求的最终用户身上。数据湖还可以为数据分析和处理提供共享服务。
4.数据运营和数据管理脱颖而出
未来几年,大数据处理、存储和管理的许多方面将继续发展,这些创新在很大程度上是由技术需求驱动的,但部分也是因为我们思考和处理数据的方式发生了变化。
创新的一个领域是DataOps的出现,这是一种专注于灵活、迭代的方法和实践,用于在数据流经公司时处理数据的整个生命周期。DataOps流程和框架不是以零散的方式考虑数据,由不同的人来处理数据生成、存储、传输、处理和管理,而是解决从生成到归档的整个数据生命周期的公司需求。
同样,公司越来越多地处理数据治理、隐私和安全问题,这种情况因大数据环境而加剧。过去,企业往往对数据隐私和治理方面的担忧有些松懈,但新的法规使它们对系统中个人信息发生的事情承担更多责任。GenAI增加了公司需要考虑的另一层隐私和伦理问题。
由于普遍存在的安全漏洞、客户对企业数据共享做法的信任度下降,以及在数据生命周期中管理数据方面的挑战,公司正变得更加关注数据管理,并更加努力地保护和管理数据,尤其是在数据跨越国际边界的时候。新的工具正在涌现,以确保数据停留在需要的位置,在静止和移动时得到保护,并在其生命周期中得到适当的跟踪。
总的来说,这些大数据趋势将继续塑造2024年的大数据形态。
企业网D1net(www.d1net.com):
国内主流的to B IT门户,同时在运营国内最大的甲方CIO专家库和智力输出及社交平台-信众智(www.cioall.com)。同时运营19个IT行业公众号(微信搜索D1net即可关注)。
版权声明:本文为企业网D1Net编译,转载需在文章开头注明出处为:企业网D1Net,如果不注明出处,企业网D1Net将保留追究其法律责任的权利。