Amazon Web Service 上的 Lake House 架构的初步认识
日期: 2023-04-13

 

Lake House 架构的基本思路,认为任何一种号称“万能”的分析方法终会带来与预期相冲突的妥协。换言之,我们不是简单粗暴地将数据湖与数据仓库集成起来,而是把数据湖,数据仓库,以及其他一些专门构建(purpose-built)的数据存储方案集成起来,赋予统一管理与轻松灵活的数据移动。下图所示,为 Amazon Web Service 上的 Lake House 架构。

 

 

Amazon Web Service

 

下面来看 Amazon Web Service 上的 Lake House 架构,将如何帮助我们的客户满足以上各项要求。

 

 

可扩展数据湖

 

Amazon Simple Storage Service (Amazon S3) 之所以成为构建数据湖的最佳场所,凭借的正是其无与伦比的持久性、可用性与可扩展性,出色的安全性、合规性与审计功能,以最低成本提供最强性能的自身定位,丰富的数据导流方法,以及广泛的合作伙伴集成范围。

 

但是,数据湖的设置与管理往往涉及诸多手动且极为耗时的操作,例如从不同来源处加载数据、监控数据湖、设置分区、启用加密并管理密钥、将数据重整为列格式,以及对访问进行授权与审计等等。为了帮助简化这个过程,我们开发出 Amazon Web Service Lake Formation。Lake Formation 可以帮助我们的客户将云端安全数据湖的构建周期由几个月缩短至数天。Lake Formation 能够从数据库及对象存储中收集并分类数据,将数据移动到 Amazon S3 数据湖内,使用机器学习算法清理并分类数据,同时保护指向敏感数据的访问活动。

 

除此之外,我们还在 Amazon Web Service Lake Formation 中发布了三项新的功能预览版:ACID 事务、用于并发更新与查询结果一致性的受监管表(governed table)、以及用于实现查询加速的自动文件压缩功能。这些预览版引入了新的 API,可通过受监管表这种新的数据湖表类型支持原子性、一致性、隔离性与持久性(ACID)事务。受监管表允许多位用户同时跨表插入、删除并修改各行,同时允许其他用户在同一数据集上并发运行分析查询与机器学习模型。此外,自动文件压缩则负责将小型文件合并为大型文件,借此将查询速度提高达 7 倍。

 

 

专门构建的(Purpose-built)分析服务

 

Amazon Web Service 提供最具深度与广度的专门构建的分析服务组合,具体涵盖 Amazon Athena, Amazon EMR, Amazon Elasticsearch Service, Amazon Kinesis 以及 Amazon Redshift。这些服务全部采用行业领先的设计与构建方法,可保证客户在使用过程中不必在性能、规模或成本之间做出任何妥协。例如,Amazon Redshift 的性能价格比可达任何其他云数据仓库的 3 倍,而 EMR 上 Apache Spark 的运行速度则达到标准 Apache Spark 3.0 的 1.7 倍,因此您可以在 PB 级别的超大规模数据分析中将成本控制在传统本地解决方案的一半以下。

 

Amazon Web Service

 

我们一直在努力创新,通过专门构建的服务中的各项新功能满足客户需求。例如,为了帮助大家进一步节约成本并提升部署灵活性,我们宣布 Amazon EMR on Amazon Elastic Kubernetes Service (EKS)正式迎来通用版本。其在 Amazon EKS 上提供完全托管的全新 Amazon EMR 部署选项。在此之前,客户只能选择在 EC2 上运行托管 Amazon EMR,或者在 Amazon EKS 上自行管理 Apache Spark。如今,您可以将分析工作负载与微服务、乃至其他基于 Kubernetes 的应用整合在同一套 Amazon EKS 集群之上,借此提高资源利用率、简化基础设施管理流程并通过统一的工具组合加以监控。

 

为了进一步增强数据仓库性能,我们还公布了 Automatic Table Optimizations (ATO) for Amazon Redshift. 的通用版本。ATO 通过机器学习技术自动执行优化任务(例如设置分发键与排序键),借此简化 Amazon Redshift 数据仓库的性能调优过程,在消除手动操作的同时提供最佳性能表现。

 

我们还公布了 Amazon QuickSight Q 的预览版本,帮助业务用户轻松便捷地从数据中提取洞见。QuickSight Q 使用机器学习生成一套数据模型,此模型能够自动理解业务数据之间的含义与关系。在它的帮助下,用户能够以人类自然语言直接询问关于业务数据的即席问题,并在几秒钟内获取准确答案。以此为基础,业务用户能够即时获取问题答案,而不必等待由精益人员组成的商务智能(BI)团队进行繁琐缓慢的建模工作。

 

 

原文出处https://www.amazonaws.cn/articles/database/lake-house-architecture/

作者:AWSCN