王柯团队

创业项目
当前位置:王柯团队 > 网络营销 >

2024年爱奇艺数据湖实战

2024-03-22 王柯团队
  01 什么是数据湖?


  数据湖概念于2010年[1]首次提出,经过多年的演变,目前演化出两种不同的定义――公有云数据湖、非公有云数据湖。


  公有云数据湖


  AWS[2]、GoogleCloud[3]以及国内的阿里云、腾讯云等公有云厂商对数据湖的定义是一个集中的、近乎无限空间的数据存储区,支持结构化、半结构化、非结构化等各种类型数据。在公有云厂商的语境下,数据湖一般就是各家的云存储产品,比如AWSS3、GoogleCloudStorage、阿里云OSS等。


  在云计算出现之前,公司数据主要分散在不同的业务数据库中,由于存储空间有限,存放的是经过处理后的结构化数据,丢失了部分原始信息。随着业务发展,这类传统的数据库/数据仓库已不能满足多样化的数据应用场景需求。开源Hadoop及公有云云存储的出现正是为了解决这一痛点,将不同类型的业务数据导入到Hadoop或云存储中进行后续不同场景的处理,随用随取,因此被称为数据湖。


  关于各家公有云的数据湖架构及解决方案,可以参看这篇介绍文章:《数据湖|一文读懂DataLake的概念、特征、架构与案例》[4]。


  非公有云数据湖


  Hadoop、公有云存储支持文件级别的操作,如上传文件、删除文件,不支持对文件内容里行级别的操作,如添加/删除/更新某行。因此,基于Hadoop或公有云存储构建的数据仓库不支持实时增量数据更新、不支持流式数据,延迟通常在小时级乃至T+1。


  为此,Uber、Netflix、Databricks等几家公司在2017-2019期间相继推出了Hudi[5]、Iceberg[6]、DeltaLake等,试图在Hadoop、公有云存储层之上提供一个通用的表格格式(TableFormat)层。国内(非公有云场合)一般称这三者为数据湖。这种叫法是不准确的,但业界一般都这么称呼,我们也跟着“将错就错”。在非公有云场合,如果不特别说明,数据湖一般就是指Hudi、Iceberg、DeltaLake三者之一。

微信扫码上方二维码,可领取2025年最新互联网创业项目!

项目收款截图

最新文章
咨询客服 领取项目