云上大数据架构是什么
构建大数据处置打算时应经常使用哪个云提供商?
下图展现了 AWS、Google Cloud 和 Microsoft Azure 的具体比拟。
处置打算的独特部分:
构建大数据处置打算时应经常使用哪个云提供商?
下图展现了 AWS、Google Cloud 和 Microsoft Azure 的具体比拟。
01 结构化或非结构化数据的数据摄取
摄取形式有两种:
原始数据存储是将摄取到的未经处置的数据存储到大容量的存储系统中,以便后续处置。存储可以是暂时存储,也可以是常年归档存储。
结构化数据存储在传统数据库中,如相关型数据库。
非结构化数据存储在散布式文件系统中,如 HDFS(Hadoop Distributed File System)或云存储(如 AWS S3、Azure Blob Storage、Google Cloud Storage)。
03 数据处置,包含过滤、转换、规范化等
数据处置是对原始数据启动荡涤、过滤、转换、规范化等操作的环节,以便为后续的剖析和存储做预备。
04 数据仓库,包含键值存储、相关数据库、OLAP 数据库等
数据仓库是为剖析目的预备的存储系统,能够存储处置后的数据,允许复杂的查问和数据剖析。数据仓库可以是相关型、键值存储或 OLAP 数据库。
键值存储适宜高功能的键值查问,如 AWS DynamoDB、Azure Cosmos DB。
相关数据库用于存储结构化数据,允许 SQL 查问,如 Amazon RDS、Google Cloud SQL。
OLAP(在线剖析处置)数据库实用于极速的多维数据剖析和报表生成,如 Google BigQuery、Amazon Redshift、Azure Synapse Analytics。
05 演示层,包含仪表板和实时通知
演示层是最终用户与数据交互的界面,通常以图形化形式出现数据剖析结果。它包含仪表板、报表、实时通知等。
幽默的是,不同的云供应商对同一类产品有不同的称号。
例如,第一步和最后一步都经常使用了无主机产品。该产品在 AWS 中称为 “lambda”,在 Azure 和 Google Cloud 中称为 “function”。