​基于智能数据库的自助式机器学习

译者 | 张怡

审校 | 梁策 孙淑娟

1.如何成为一个IDO?

IDO(insight-drivenorganization)指洞察力驱动(以消息为导向)的组织。要成为一个IDO,首先须要数据以及操作和剖析数据的工具;其次是具备适当阅历的数据剖析师或数据迷信家;最后还须要找到一种技术或许方法,从而在整个公司实施洞察力驱动的决策环节。

机器学习是能最大限制施展数据长处的技术。ML流程首先经常使用数据训练预测模型,训练成功之起初处置与数据相关的疑问。其中,人工神经网络是最有效的技术,它的设计源自咱们目前对人类大脑上班方式的了解。思考到人们目前领有的渺小计算资源,它经过少量数据训练可以发生令人难以置信的模型。

企业可以经常使用各种自助化软件和脚本成功不同的义务,从而防止人为失误的状况。雷同,你也齐全可以基于数据启动决策来防止当中的人为失误。

2.为什么企业在驳回人工智能方面停顿缓慢?

经常使用人工智能或机器学习来处置数据的企业仅是少数。美国人口普查局(US CensusBureau)示意,截至2020年,只要不到10%的美国企业驳回了机器学习(关键是大公司)。

驳回ML的阻碍包括:

3.机器学习的推行只要智能ML(AutoML)工具是不够的

智能ML平台虽然有着很黑暗的未来,但其笼罩面目前还相当有限,同时关于智能ML是否很快取代数据迷信家的说法也有争执。

假构想要在公司成功部署自助化机器学习,AutoML工具确实是至关关键的,但环节、方法和战略也必定注重。AutoML平台只是工具,大少数ML专家以为这是不够的。

4.合成机器学习环节

任何ML进程都从数据开局。人们广泛以为,数据预备是ML环节中最关键的环节,建模局部只是整个数据管道的一局部,同时经过AutoML工具失掉简化。完整的上班流仍须要少量的上班来转换数据并将其提供应模型。数据预备和数据转换堪称上班中最耗时、最令人不欢快的局部。

此外,用于训练ML模型的业务数据也会活期降级。因此,它要求企业构建能够把握复杂的工具和流程的复杂ETL管道,因此确保ML流程的延续和实时性也是一项具备应战性的义务。

5.将ML与运行程序集成

假定如今咱们曾经构建了ML模型,而后须要将其部署。经典的部署方法将其视为运行层组件,如下图所示:

它的输入是数据,输入是咱们失掉的预测。经过集成这些运行程序的API来经常使用ML模型的输入。仅从开发者的角度来看,这一切仿佛很容易,但在思考流程时就不是那么回事了。在一个庞大的组织中,与业务运行程序的任何集成和保养都相当费事。即使公司知晓技术,任何代码更改恳求都必定经过多级部门的特定审查和测试流程。这会对灵敏性发生负面影响,并参与整个上班流的复杂性。

假设在测试各种概念和想法方面有足够的灵敏性,那么基于ML的决策就会容易得多,因此人们会更青睐具备自助服务性能的产品。

6.自助机器学习/智能数据库?

正如咱们上方看到的,数据是ML进程的外围,现有的ML工具失掉数据并前往预测结果,而这些预测也是数据的方式。

如今疑问来了:

让咱们剖析上述疑问及其面临的应战,从而找到ML处置打算。

应战#1:复杂的数据集成和ETL管道

保养ML模型和数据库之间的复杂数据集成和ETL管道,是ML流程面临的最大应战之一。

SQL是极佳的数据操作工具,所以咱们可以经过将ML模型引入数据层来处置这个疑问。换句话说,ML模型将在数据库中学习并前往预测。

应战#2:ML模型与运行程序的集成

经过API将ML模型与业务运行程序集成是面临的另一个应战。

业务运行程序和BI工具与数据库严密耦合。因此,假设AutoML工具成为数据库的一局部,咱们就可以经常使用规范SQL语法启动预测。接上去,ML模型和业务运行程序之间不再须要API集成,由于模型驻留在数据库中。

处置打算:在数据库中嵌入AutoML

在数据库中嵌入AutoML工具会带来很多好处,比如:

这样一来,上述相对复杂的集成图表变卦如下:

它看起来更繁难,也使ML环节更流利高效。

7.如何成功自助式ML将模型作为虚构数据库表

找到处置打算的下一步是来实施它。

为此,咱们经常使用了一个叫做AITables的结构。它以虚构表的方式将机器学习引入数据平台。它可以像其余数据库表一样创立,而后向运行程序、BI工具和DB客户端放开。咱们经过繁难地查问数据来启动预测。

AI Tables最后由MindsDB开发,可以作为开源或托管云服务经常使用。他们集成了传统的SQL和NoSQL数据库,如Kafka和Redis。

8.经常使用AI Tables

AI Tables的概念使咱们能够在数据库中执行ML环节,这样ML环节的一切步骤(即数据预备、模型训练和预测)都可以经过数据库启动。

首先,用户要依据自己的需求创立一个AITable,它相似于一个机器学习模型,蕴含了与源表的列等价的特色;而后经过AutoML引擎自助成功残余的建模义务。后文还将举例说明。

一旦创立了AI Table,它不须要任何进一步的部署就可以经常使用了。要启动预测,只要要在AI Table上运转一个规范SQL查问。

你可以一一或分批地启动预测。AI Tables可以处置许多复杂的机器学习义务,如多元期间序列、检测意外等。

9.AI Tables上班示例

首先你须要跟踪以下消息,建设一张AI Table:

如下图所示:

(1)训练AI Tables

要创立和训练AI Tables,你首先要准许MindsDB访问数据。详细说明可参考MindsDB文档( MindsDBdocumentation)。

AI Tables就像ML模型,须要经常使用历史数据来训练它们。

上方经常使用一个繁难的SQL命令,训练一个AITable:

让咱们剖析这个查问:

同时,你可以看到每个预测的总体准确率和置信度,并预计哪些列(特色)对结果更关键。

例如,咱们预测五金店卖出的锤子数量。那么,数据按商店和产品分组,并对每个不同的商店和产品组协作出预测。这就给咱们带来了为每个组创立期间序列模型的疑问。

这听起来工程盛大,但MindsDB提供了经常使用GROUPBY语句创立单个ML模型,从而一次性性训练多元期间序列数据的方法。让咱们看看仅经常使用一个SQL命令是如何成功的:

(2)批量预测

经过经常使用上方的查问将开售数据表与预测器衔接起来,JOIN操作将预测的数量参与到记载中,因此咱们可以一次性性取得许多记载的批量预测。

如想了解更多关于在BI工具中剖析和可视化预测的常识,请检查这篇文章。

(3)实践运用

传统方法将ML模型视为独立的运行程序,须要保养到数据库的ETL管道和到业务运行程序的API集成。AutoML工具虽然使建模局部变得轻松而间接,但完整的ML上班流也依然须要阅历丰盛的专家治理。其实数据库曾经是数据预备的优选工具,因此将ML引入到数据库而非将数据引入ML中是更无心义的。由于AutoML工具驻留在数据库中,来自MindsDB的AITables结构能够为数据从业者提供自助AutoML并让机器学习上班流得以简化。

译者引见

张怡,社区编辑,中级工程师。关键钻研人工智能算法成功以及场景运行,对机器学习算法和智能控制算法有所了解和把握,并将继续关注国际外人工智能技术的开展灵活,特意是人工智能技术在智能网联汽车、智能家居等畛域的详细成功及其运行。

您可能还会对下面的文章感兴趣: