2022年大数据的五个主要发展趋势
2022-03-15 13:09:01来源:e-works
新冠疫情在2020年初对大数据的应用和普及带来了不利影响,但也使很多企业加快了他们的数字化转型计划,更多的企业开始通过深入数据湖泊的分析来洞察和发现机会。这使他们能够发现以前无法辨别的趋势和模式。
但是,全球数字化带来的海量数据给它们的存储和分析带来了挑战,有时限制了其潜力。随着各行业领域都迅速采用云计算技术,已经克服了许多障碍。取而代之的是,人们现在看到了更实用、即时和可访问的商业智能具有的巨大潜力。考虑到这一点,需要对2022年大数据的主要发展趋势进行预测。
1.数据湖的采用随着新冠疫情加剧了数字化采用,数据湖已经成为企业的一种非常经济的选择。远程工作和混合工作环境的兴起增加了对数据湖的需求,以实现更快、更高效的数据操作。随着微软、谷歌、亚马逊和其他科技巨头积极鼓励向云平台迁移,数据湖的采用使其变得更容易、更便宜。
随着企业迁移到云平台并专注于云计算数据湖,他们也将转向将数据仓库与数据湖融合。创建数据仓库是为了针对SQL分析进行优化,但是需要一个开放、直接和安全的平台来支持快速增长的新型分析需求和机器学习,最终将使数据湖成为数据的主要存储方式。数据湖的采用将持续到2022年及以后,市场规模将从2020年的37.4亿美元增长到2026年的176.0亿美元,在2021~2026年预测期间的复合年增长率为29.9%。
2.流数据和静态数据将统一如今的大数据分析侧重于两个主要来源——流数据以及驻留在数据库或数据湖中的数据。在2022年,预计这些来源将继续与流媒体和操作系统融合,从而提供更统一的分析。因此将是改进数据驱动的洞察力,通过使用轻量级分析和改进的预测能力来改进运营决策。
使用数据湖甚至是简单的数据库,查询可能相当复杂,而无需考虑需要采用大量资源来处理的动态数据流。流数据是流动的,因此这些资源需求和不断增加的数据要求其查询保持更新。因此,如今对金融市场、供应链、客户分析和维护和维修的预测是有限的,通常基于轻量级的“浅层”数据。
2022年,人们将看到基于云的存储和应用程序的稳步增长,提供消除资源限制,并取代熟悉的集中式结构的传统方法所需的弹性。对分布式集群执行分析,并将其他集群上的流数据和操作数据源的结果聚合到一个单一的控制平台中将成为常态。因此将产生真正全面的预测模型,充分利用数据湖的深层数据和流源的实时数据流。
3.数据共享将变得普遍除了云迁移的技术优势(硬件支持、存储/带宽限制、备份和安全)之外,最明显的可能是共享不再以物理方式存储在企业内部网络中的数据的能力。企业向第三方提供有价值的数据,这些数据用于战略、财务甚至合规性,可以简化供应商和消费者的分销流程。一个显著的好处是:以上讨论的数据湖/流数据分析现在有了一个新的消费者基础。无论是首先关注像AWS云平台这样的商业化、面向公众的市场,还是从像Snowflake的内部共享平台(用于内部部门和一些垂直行业)开始,这种范式都适用于每种方法,并为复杂的多步骤提供了根本性的改进现行制度和政策。云计算提供商将同时提供这两种数据交换产品,以占领“内联网和互联网”数据提供商及其消费者的市场。
4.查询引擎将变得更智能,无缝适应处理未准备好的数据通过将机器学习(ML)直接嵌入数据库,正在加速和改进数据库优化。这是一个主要用例,因为机器学习可以访问其最有价值的资源来构建有效模型:大量的匿名数据,在明确定义的结构和场景中。随着查询引擎感知需求,人们见证了这种趋势在创建或删除索引方面取得了长足的进步,但这仅仅是开始,并将会快速发展。这种趋势正在越来越多地推动数据存储和数据消费的分离。下一代引擎将通过基于分析工作负载模式和行为应用动态加速策略(例如缓存和索引)来实现数据存储和消费之间的这种分离。这场革命背后的理念是“让引擎工作”。而这种引擎不应期望数据已准备好,而是引擎会根据遇到的数据进行自我调整。随着客户发现成本节约和性能提高,这个广阔的开放空间将成为必备功能,而不是一个很好的功能。
5.预测分析将推动下一代数字应用当人们开始讨论合并从动态数据馈送和数据湖中提取的分析时,需要重新构想对这些见解的访问。如今,用于“数据讲故事”的经典仪表板是基于仔细收集、查询并收集到报告中以供定期审查的历史数据。
随着人们进入2022年,现在将看到仪表板仍在使用中,但提供的内容将是实时的,并且在发生时是动态的,从应用程序代码中内置的流程中提取。重要的是,所有相关内部部门也将对这些信息的访问民主化,直接提供给销售、营销、质量保证等战术团队,而不必由数据部门解析、解释和分发。通过实时趋势分析,这些部门可以比当今的长期周期更快地适应和改进。认识到商业价值通常与人们的反应和行为方式有关,而不是简单地获利,这种改变游戏规则的预测驱动力是云计算、数据库和分析领域新进展的一场激动人心的“完美风暴”。
应该清楚的是,2022年将是融合之年。在过去几年中不断成熟的几种技术范式的合并,将创建一个较少划分、历史和资源受限的分析生态系统。
受益最多的企业是那些重视根据客户告诉他们的偏好快速调整流程和服务的能力的公司。