现代数据架构的探求与通常知语数据编织系统

2024-11-15

一、背景常识简介

为什么须要数据编织？回忆过去几十年，数据控制和常识控制是两条平行线，独立开展。如今到了认知人工智能时代，咱们知道，数据原本就是散布式的，未来也将是散布式的。过去的数据控制形式和未来的数据控制形式如何与常识控制无缝衔接是须要思索的关键疑问，数据编织正是在这样的背景下降生的。

2.技术趋向

美国的数据编织技术已相对成熟，国际则须要咱们一同致力推进数据编织的开展，运行先进的数据控制思想，以顺应人工智能时代的须要。

疑问之一：数据规模急剧扩展，数据处置速度远慢于数据增长速度，应用传统数据架构处置非结构化数据效率低。

疑问之二：在混合多云环境中，数据处置“高并发”，多重数据困境和复杂性参与。

疑问之三：数据高度扩散，存在“数据孤岛”，烟囱式的敞开数据架构形成数据运用时的缺失与不便。

4.传统数据集成形式的缺点

反双数据：数据分层存储形成少量数据冗余。出现这一疑问关键是为了处置性能疑问，为了减速查问，不得不做必定的冗余，物化局部消息。其不只象征着低廉的存储空间多少钱；而且不够灵敏，每次修正都须要对反双数据启动额外操作。

非共享的元数据规范：无法共享的元数据规范降低了灵敏性，难以控制，将会造成不分歧的报告结果。

灵敏局限性：在商务智能系统中采用形象化和封装的概念，关于提高自身的灵敏性、更容易地成功扭转和采用新的工程技术十分关键。

数据品质降低：少数据正本造成的疑问。

有局限的运营报告支持：从消费数据库中失掉资源到报告中，数据须要屡次复制到另一区域，在极短期间内成功无法能。大少数商务智能没有依照运营报告与运营数据关联的形式来设计。咱们不得不简化结构来支持运营系统，最基本的是移除数据存储区和起码化复制步骤来简化结构。

5.数据控制形式才干对比

数据编织并非要取代数据仓库或数据湖，数仓和数据湖是物理集成的形式，而数据编织则是在逻辑层面上更好地控制数据，因此具有一些自然长处。

6.数据编织的变迁

在数据编织 1.0 时代，Gartner 将数据编织定义为一种设计理念，充任数据和衔接环节的集成层。过后只是定义了框架，并没有给出深化的成功形式。

2022年，进入数据编织 2.0 时代，外部数据和边缘数据被更多地纳上天方数据范围，因此触及如何将外部数据和外部数据做互联互通。

2024年 3 月份，美军提出一致数据参考架构 UDRA，用数据编织的技术成功数据网格的架构，标记着数据编织已进入 3.0 时代。咱们在做自己的信创产品时，可以间接基于 3.0 时代的架构。

7.数据网格

在数据网格架构下，首先要把数据当作产品，还要明白一切数据的一切权，以及如何做自助服务和联结控制。数据编织 3.0 时代可以很好地支持数据网格的成功。

二、知语数据编织

知语数据编织智能体，旨在将数据编织引擎、大模型和常识控制所有网络化，构建虚构数据网络。随着人工智能技术的推进，无论元数据还是数据，都在一套体系下启动数据编织，当然详细成功的技术引擎或者不同。

咱们不只有处置单体模型的疑问，还要处置主从形式部署、联邦式网络部署形式的疑问，要成功与大模型之间的无缝整合。因此咱们设计了如下图所示的智能体架构。

过去在做这种架构的时刻，经常会把数据层做得很大。然而在数据编织体系下，重心回到了元数据的处置。元数据在整个数据编织网络体系下，是惟一的一个常识查看点，也就是说常识示意是经过元数据平台来示意的。咱们所处置的数据还是扩散在各处的，并不须要物理上全量集中，而元数据会被一致集中控制。包含技术元数据、控制元数据、业务元数据，都被一致控制，并且无论是结构化数据还是非结构化数据，一切的元数据模型都是一致的，甚至一些仪表盘、上班流程、机器学习模型的元数据也都一致在一个图模型的示意方法之下。

这里就会触及如何智能提取这些元数据。知语被动元数据控制平台，经过推拉的形式，成功了全局的元数据服务。相似于京东淘宝，在可视化的产品平台上可以选用你所须要的数据产品。

知语数据联邦控制平台能够经过对物理位置扩散的不同系统的数据启动联结查问、并行查问、水平集群扩展等形式，处置物理散布式数据的剖析和洞察疑问。咱们并不须要从各处把数据物理集中起来，而是在逻辑层面访问和经常使用这些数据，并且与在任何运行客户端访问数据是没有差异的，这就是联邦的形式。

知语数据编织引擎现已支持 50 多种数据做数据联邦虚构化，全体分红两类，一类是结构化数据，另一类是非结构化数据。经过图模型，把结构化和非结构化文件集成在一同，构建数据目录，以供查问。另外，为了更好地成功互联互通，还参与了语义增强的逻辑。

其它一些配置特点包含，支持各种类型用户角色，可并行已有数据平台部署，支持多云混合，以及支持散布式数据的一致访问。

目前支持的数据源包含：HDFS、相关型数据库、NoSQL 数据库、对象存储、云数据仓库，以及其它一些数据源，如 Kafka、Elasticsearch 等。

最小部署环境要求如下图所示：

知语数据编织平台支持的第一种部署架构为单体形式。一切共享数据作为客户端，一切运行只知道数据编制平台提供的接口，并不知道数据源实践在哪。

第二种部署架构是主从形式，每个数据畛域部署一套数据编织，假设须要其它畛域的数据，则经过主平台来访问。

第三种部署架构是联邦形式，即数据网格形式，各畛域部署了数据编织后，域之间联通，从任何点接入都可以访问全域数据。

目前推出了社区版、企业版和初级版三个版本，各有一些不同的才干，如下图所示：

接上去引见一些成功案例。

在第一个案例中，客户有 10 个采用不同技术构建的数据仓库，宿愿将其衔接在一同。每天每个厂有超越 200G 的数据，假设将数据复制一遍，老本会十分大，因此采用了轻量级的数据编织的形式。

第二个案例中，旧的架构是将数据在物理上行到中心节点，时延高。为满足审计要求，须要实时查问、计算。针对这些需求，运行了数据编织技术。

在当今数据不时增长的状况下，可以经过物理和逻辑两种形式将数据整兼并一致控制，物理上可以经过数据湖，而逻辑上就可以经过数据编织的形式。

现代数据架构如下图所示，原有数据中台依然保管，依据特定须要启生物理集成，而在此之上，参与数据编织，成功逻辑上的集成，并对外提供服务。

咱们将数据编织才干成熟度定义了 L0~L4 五个级别，首先须要思想上的扭转，并具有虚构化的才干，在此基础上一致元数据，应用常识图谱，最终成功常识智能化。

数据编织是人工智能时代的数据基础设备。底层是各种物理数据源，两边树立数据编织层，在此基础上是各种模型，在模型之上是智能体运行。

以上就是本次分享的内容，谢谢大家。

数据控制架构数据编织数据孤岛

<<你感觉哪个好呢几款抢手容器化编排工具对比

提供负载平衡应用 SRV DNS 记载为 Postfix>>

现代数据架构的探求与通常 知语数据编织系统