除了Hadoop 其余6个你必定知道的抢手大数据技术!
你知道新的市场指导者和曾经的指导者之间的关键区别是什么吗?
那就是“数据治理”。任何无法处置数据并将其投入经常使用的企业,很或许会让位给那些能够更好处置数据的。
理想上,大数据和其流动性的力气能促使企业开展。
这些数据必定经过计算来剖析,以提醒形式和趋向,从而有助于市场和推行优惠。
以下是一些企业机构应用大数据的例子:
• 政府组织经过紧跟社交媒体的意向,从而了解新疾病的产生和迸发的信息。
石油和自然气公司将钻探设备与传感器集成在一同,以确保安保和促成更有效的钻探。
批发商紧跟网络点击意向,并识别行为趋向来从而改良广告优惠。
上方,让咱们来看一下目前可以促成商务的盛行大数据技术:
1. Apache Spark
Apache Spark 作为大型数据处置的最快和通用的引擎,具有流媒体、机器学习、图形处置和 SQL 允许的内置模块。它允许一切关键的大数据言语,包括 Python、Java、R 和 Scala。
它补充了 Hadoop 最后产生的关键用意。数据处置中的关键关注点是速度,所以须要缩小查问间的期待期间和运转程序所需的期间。
虽然 Spark 被用来减速 Hadoop 的计算软件环节,但它并不是后者的裁减。实践上,Spark 经常使用 Hadoop 有两个关键目的——存储和处置。
Apache Spark 对旨在实时跟踪欺诈性买卖的公司来说是一大福音,例如,金融机构、电子商务行业和医疗保健。假定你的钱包丢了,同时信誉卡被盗刷了一大笔钱,那么该技术可以协助你及时把握卡被盗刷的期间和地点。
2. Apache Flink
假设你知道 Apache Spark 和 Apache Hadoop,那么你很可以也听过 Apache Flink 。Flink 是由德国柏林工业大学的 Volker Markl 传授创立的一个社区驱动开源框架。在德语中,Flink 的意思是“矫捷的”,具有高性能和极端准确的数据流。
Flink 的性能遭到 MPP 数据库技术(如申明性、查问提升器、并行内存、外核算法)和Hadoop MapReduce 技术(如大规模裁减、用户定义函数、浏览形式)等性能的启示。
NiFi 是一种弱小且可拓展的工具,它能够以最小的编码和温馨的界面来存储和处置来自各种数据源的数据。这还不是所有,它还可以轻松地不同系统之间的数据流智能化。假设 NiFi 不蕴含你须要的任何源,那么经过繁复的 Java 代码你可以编写自己的处置器。
NiFi 的专长在于数据提取,这是过滤数据的一个十分有用的手腕。由于 NiFi 是美国国度安保局的名目,其安保性也是值得称道的。
Kafka 是必无法少的,由于它是各种系统之间的弱小粘合剂,从 Spark,NiFi 到第三方工具。可以成功高效的数据流实时处置。Kafka 具有放开源码,可水平伸缩,有容错才干,极速安保的特点。
作为一个散布式系统,Kafka 存储信息在不同主题中,并且主题自身在不同的节点上启动分区和复制。
当 Kafka 最后是建设在 LinkedIn 的散布式信息系统,但当初是 Apache 软件基金会的一局部,并被不可胜数的公司经常使用。
Pinterest(照片分享网站,可谓图片版的Twitter) 经常使用 Apache Kafka。该公司建设了名为 Secor 的平台,经常使用 Kafka、Storm 和 Hadoop 来启动实时数据剖析,并将数据输入到 MemSQL 中。
5. Apache Samza
Apache Samza 关键目的是为了裁减 Kafka 的才干,并集成了容错、耐久信息、便捷 API、托管形态、可裁减、处置器隔离和可伸缩的个性。
在这里我还是要介绍下我自己建的大数据学习交流qq裙: 957205962, 裙 里都是学大数据开发的,假设你正在学习大数据 ,小编欢迎你参与,大家都是软件开发党,不活期分享干货(只要大数据开发相关的),包括我自己整顿的一份2018最新的大数据进阶资料和初级开发教程,欢迎进阶中和进想深化大数据的小同伴。
它经常使用 Apache Hadoop YARN 用于容错,同时经常使用 Kafka 启动通讯。因此,可以说它是一个散布式流处置框架。它还提供了一个可拔出的 API 来运转 Samza 和其余通讯系统。
6. Cloud>
经常使用这个工具,无需担忧操作义务,包括性能提升和资源治理。经过其齐全托管的服务,可以灵活地提供资源以坚持较高的应用率,同时使提前最小化。
同时经过其一致编程模型方法,无需担忧编程模型转换老本的。这种方法有助于批量和延续的流处置,使其易于表白计算需求,同时无需担忧数据源。
大数据生态系统始终开展,新技术频频产生,其中许多技术进一步开展,超出了 hadoop - spark 集群。这些工具可以用来确保与安保和治理的无缝上班。
数据工程师须要应用这些工具来提取、清算和设置数据形式,以协助数据迷信家彻底地探求和审核它们,并构建模型。