开云体育2024大数据“打假”：什么才是真湖仓一体？

公司新闻 | 2024-06-11 22:48

　　编者按：近年来，随着金融、制造、政务、交通、医疗等行业数字化转型深入，大量智慧应用涌现，使得构建强大的数据分析技术栈成为必须，也让“湖仓一体”成为热门词汇。但面对市场中各色各样的湖仓技术，众多行业用户既分辨不清，又无从选择。本文梳理了当前市场中主流数据分析技术栈的优劣，并对“湖仓一体”架构演进趋势进行了深度分析，值得广大用户一读。

　　随着信息时代的兴起，数据已成为推动业务决策和创新的核心要素；结构化、半结构化等多种类型的数据呈现爆炸式增长，如何高效处理和分析海量数据已经成为关键挑战。

　　当前业界构建数据分析的技术栈，有两条典型的路线：一条是数仓路线，另一条则是数据湖的路线。

　　早期分析场景比较简单，业务采用 Oracle/MySQL 为代表的关系型数据库，在线处理与数据分析在一套系统里完成；但随着数据分析场景的越来越复杂多样化，这种方案的挑战非常大，一是两种负载会相互影响，同时数据分析的性能也不能满足需求。

开云体育2024大数据“打假”：什么才是真湖仓一体？(图1)

　　数据湖通常采用 S3 对象存储或 HDFS 分布式文件系统作为底层统一存储，并作为 Single source of truth。

开云体育2024大数据“打假”：什么才是真湖仓一体？(图2)

　　湖上建仓：企业的数据先进入到数据湖统一存储，湖上直接性能不足，此时可以采用湖上建仓的方案，将查询性能要求高的部分通过 ETL 导入到新的数据仓库提供服务。

　　开云体育网页版入口

　　仓外挂湖：部分数据仓库产品，例如 Redshift($亚马逊(AMZN)$)、Bigquery 等，开始扩展查询外部数据湖（Hive、Iceberg 等）的能力，实现计算层的统一。

　　湖仓一体是通过一套架构，满足所有的分析需求，抽象化的描述，要能实现 One Data、All Analytics 的业务价值。

　　统一数据存储：在湖仓一体架构下，数据要统一存储管理，一份数据作为 Single source of truth，避免导来导去，造成数据冗余，分析口径不一致等问题；存储层通常采用 S3/HDFS 作为数据存储底层，并采用开放数据湖或者私有的数据格式去管理数据。

　　目前， StarRocks 3.x 推出了存算分离、湖仓分析、物化视图等重量级特性，能够很好的帮助企业构建湖仓一体平台，微信、携程、小红书等数十家大型企业进行实践后，收获极大的简化数据平台的技术栈，同时提升的服务性能。

　　开云体育网页版入口

开云体育2024大数据“打假”：什么才是真湖仓一体？(图3)

　　用户可以将 StarRocks 当作一站式湖仓，数据统一导入到 StarRocks ，借助存算分离的架构，实现低成本的数据存储，然后利用 StarRocks 查询引擎来服务全场景的数据分析应用；

开云体育2024大数据“打假”：什么才是真湖仓一体？(图4)

　　镜舟湖仓分析引擎能够兼容并加速企业已有的大数据架构如Hive、Iceberg、Hudi、Deltalake、MySQL 和 Oracle 等，有效帮助企业节省传统架构中数据搬运的时间与成本，通过简化数据链路，实现数据分析性能指数级提升。同时，镜舟湖仓分析引擎部署简单、运维便捷，在为企业提速的同时降低系统及人力成本。

Kaiyun体育（中国）-官方网站

开云体育2024大数据“打假”：什么才是真湖仓一体？