为什么构建一个外部数据产品这么难?
作者 | Lior Gavish
译者 | 翟珂
开发外部数据产品,无论是配置弱小的口头仪表板,还是由机器学习驱动的营销预测买家模型,或许是BI团队的新客户模型,都是数据团队为公司参与价值的最有效方式之一。
但是,开发一个外部数据产品却有些不同:只管更容易参与价值,但也更艰难。这是一个不同的举措,须要你的团队构建新的习气。
同时,开发一个外部数据产品也是一种新的思想方式,须要更高水平的协调性、纪律性和谨严性。
这并不是说它不能由同一个团队成功,也不是说你的外部数据经常使用者不能获取与你的外部客户相反的服务水平。
餐厅开售点提供商Toast公司的数据工程经理Noah Abramson最近谈到了他们在这方面的阅历: “咱们的一大价值是为咱们的客户提供商业洞察力。餐馆,随着期间的推移,他们的体现如何?他们昨天的开售额是多少?谁是他们的关键客户?与咱们的餐厅客户互动是数据平台团队的上班……咱们说咱们的客户都是Toast员工。咱们试图让他们一切人都能取得尽或许多的数据。咱们的团队为一切的外部数据访问提供服务,从产品到市场到客户支持到配件运营。” 我也很幸运,在过去的上班中,我无时机在Monte Carlo的数据可观测平台中构建外部数据产品以及外部数据产品。
在这篇文章中,咱们将总结这些阅历,并引见数据团队如何经过了解与构建外部产品不同的5个关键维度来成功推出外部数据产品,其中包含:
但首先,关键的是要了解究竟什么是外部数据产品或数据运行,以及开收回来的运行类型将如何指点做出决策。
什么是外部数据产品? 有哪些数据运行实例? 它们如何影响你的决策?
外部数据产品是面向或影响客户的任何数据资产。范围可以从用于客户计费流程的数据集到齐全独立的数据密集型运行,并有自己的用户界面提供应客户操作。
目前数据畛域最抢手的趋向之一是,公司在其SaaS产品中创立数据运行程序或参与额外层,以协助客户剖析数据 ,就像前面提到的Toast公司一样。
Snowflake有一个有用的列表,列出了五种经常出现类型的数据运行类型(完整的参考架构):
但是,外部数据产品不须要是齐全内置的运行程序,也不须要集成在关键的SaaS产品中。例如,Monte Carlo公司的做法就不是这样。
咱们是一个数据密集型的SaaS运行,可以在用户界面中启动监控、报警和提供线索。还可以在用户界面中向客户提供洞察力报告,并为他们提供选用,经常使用Snowflake数据共享集成在他们自己的Snowflake环境中。
在后一种状况下,咱们只是为客户提供构件,使其能够进一步定制他们想要的可视化方式或与其余数据相联合。
对什么是数据运行或外部数据产品有一个片面的意识是很关键的,由于这能促使团队确保给予更高的谨严性,最好是在工程之外出错。
从后续五个维度评价外部数据产品也很关键。
与外部产品一样,外部数据产品可以应用各种数据云服务作为其平台的基础,包含数据湖或数据仓库。
但是,许多人会应用像 Snowflake这样的处置打算,由于它能优化大规模存储和查问相关型数据的方式。这或许是你的团队第一次性探讨多租户架构。在为外部客户服务时,这是一个很大的变动和决策点。
当应用数据仓库作为产品的基础时,Snowflake形容了三种多租户设计选项:
每个选项都有好处和缺陷,但总的来说,选用取决于什么须要更有效地伸缩—共享计算/存储还是基于角色的数据访问 。
大少数外部产品都是在同一公司交付的,要遵守雷同的公司外部政策和法规。例如,假设营销团队的数据资产与法律团队的数据资产在同一个仓库中,他们不会感到不安。但外部客户或许会更关心。
当然,你可以在你的堆栈中做出其余的架构选用来减轻这些权衡。例如,Monte Carlo应用Snowflake的MTT多租户架构,经常使用行业的最佳通常,如标志化,从逻辑上分别客户数据。此外,咱们经常使用一个混合架构,将数据搜集器嵌入客户的环境中(但通常不总是作为自己的虚构私有云)。
这象征着数据永远不会分开其环境。PII和敏感数据被形象化,咱们提取的是非敏感日志和评价其数据系统肥壮状况所需的目的聚合。
架构决策环节的另一局部,相似于外部数据产品,是了解用例和上班负载。频率、规模和所需的期间表是多少?客户会在设定的期间接纳数据、能够按需查问数据、实时访问数据,还是三者兼而有之?正如咱们之前提到的,了解上班负载关于做出具有老本效益的架构选用十分有协助。但是,与外部产品不同的是,或许有更多种类的用例须要支持。
在构建Monte Carlo时,咱们不只要思考咱们的关键义务消费的上班负载,还要思考咱们的外部团队如何访问这些面向外部的数据。在这种状况下,启动外部剖析和数据迷信钻研,作为开发咱们的机器学习驱动的意外监督器的一局部。
假定你有一个数据产品,你的用户通常可以信赖它来协助回答他们的一些疑问。数据每天都会刷新,仪表板有一些可点击的元素,他们可以在其中深化了解具体信息。
这对一些外部用户来说或许曾经足够了。他们可以成功他们的上班,体现要比没有仪表板时更好。另一方面,你的外部用户却很怄气。他们想信赖你的产品,想让它实时地回答他们一切的疑问。
他们凭什么不该怄气呢?毕竟,他们是为你的产品买单的,他们本可以选用竞争对手的产品。
当数据是产品时,数据质量就是产质量量。这个便捷的理想就是为什么一些最热衷于驳回咱们的数据观察型平台的人正在应用它来支持他们的数据运行。例如,多渠道数字广告供应商Choozle,在推出大规模平台更新到一流的数据牢靠性时,驳回了数据观察才干。
Choozle公司首席技术官亚当-伍兹说:“假设没有这样的工具,咱们或许会对最终结果的表格启动监控,但这或许会暗藏很多疑问。” 你或许看不到与表格中不可胜数的广告活动中的一小局部相关的内容,但运转该活动的广告商将会看到它。 有了[数据可观察性],咱们就无需斗争。咱们可以对一切的3500个表启动监测。
当数据面向客户或为面向客户的运行程序提供能源时,质量差甚至会损坏产品。例如,创立具有相反主键的重复对象的数据疑问实践上造成了Netflix的终止。
在规模和速度方面,外部客户从不想期待数据,他们想要更多的数据维度,以便他们可以切分和拼接到他们心中的内容。例如,咱们的一位金融服务客户不只关注数据新颖度,还关注数据提前,换句话说,即在支持查问的同时近乎实时地加载和更新数据的才干。
Snowflake数据共享和Snowpipe可以协助缩小数据提前。Blackboard经过经常使用Snowpipe延续加载数据并从S3批量加载,处置了他们的提前应战,并使ETL上班负载的运转速度比以前快倍。
缩放数据维度也有助于辨别。再次以Choozle为例,依据Adam的更新平台: Snowflake使咱们能够将一切信息提供应咱们的用户。例如,咱们可以显示前20个邮政编码的广告活动效果,如今广告商可以依据须要访问美国一切 30,000个邮政编码的数据。
最后,在数据安保和隐衷方面,你的外部数据产品或许不只须要无通常上思考 PII,还须要经过SOC II等行业规范来实践证实有效的安保控制。
绝大少数的数据团队都没有依据硬性的投资报答率启动评价。理想上,具有讥刺象征的是,在谈到业绩时,往往不足目的,据数据平台产品治理总监布兰登-贝德尔(Brandon Beidel)说,最后在Red Ventures就是这种状况。
下一层是权衡性能。系统性能如何?假设有很多疑问,那么兴许咱们没有以有效的方式构建咱们的系统。或许,它可以通知咱们在哪里优化咱们的期间和资源......领有记载也能使数据团队的评价从“我觉得团队做得好/做得不好”的觉得演化为更基于数据的内容。
外部数据产品也是如此。通常状况下,效果是暂时取得的,“由于咱们的新客户数据平台,咱们的广告支出报答率参与了3倍”,而不是依据消费老本或每位用户的老本启动权衡。当你构建一个外部数据产品时,这种喜气就隐没了。产品经理须要了解如何定价,而且它必定是盈利的(在某些时刻)。他们须要知道构建产品的启动老本,以及每个组件在提供服务时的老本(商品老本)。
这对那些没有为其数据产品构建外部不要钱形式的数据团队来说是具有应战性的,这些形式可以依据经常使用规模对客户启动辨别、跟踪和不要钱。
“啊哈!”你说,“咱们的团队曾经准许外部用户经常使用自助服务,这不是什么新颖事。”这或许是对的,但自助服务和可用性的门槛也提高了。
你的外部客户不能随时问你关于数据的疑问,也不知道你是如何得出这个客户的散失或许性是:“5张皱眉脸中的3.5张”。数据产品不能是一个黑盒子,你须要展现你的上班。
UI必定是直观的,相关性必定是间接的,背景必定是显著的。
当你构建你的外部数据产品时,在搜集需求、构建和与业务涉众迭代时,最后通常停顿缓慢 。
在这之后,团队往往会开局运转,进入下一个名目。会有一些补丁和修复,以应答数据停机,或许兴许是为了满足外部SLA,但总的来说,你不是每季度都在重构这些仪表盘。
如前所述,付费客户有更高的希冀,他们也有更多的反应。但是,你须要知道它行未来到并为其构建。例如,Toast十分注重其流程的效率: Toast数据工程师Angie Delatorre说:“咱们不只凝听业务需求,并鼎力支持它们,而且咱们还在外部寻觅并处置可裁减性疑问。”假设一项上班过去须要一个小时,而如今须要三个小时,咱们总是须要回去看看这些实例,所以这也影响了咱们的OKR。
在裁减运营方面,Snowflake产品治理总监Chris Child倡导: 首先,以最高的保真度把你的一切数据放在一个中央。只需把原始数据放在那里。第二,想出可重复的管道,将数据提供应数据剖析人员。你不宿愿每次你想做什么的时刻都要回到原始数据。
前Uber数据产品经理Atul Gupte探讨了迭代数据产品时了解它的关键性:如何划分产品路途图的优先级,以及须要为谁(通常是工程师)构建和设计(日常平台用户,包含剖析师)。
只管这个博客读起来像是一个你不应该构建外部数据产品的理由清单,但我宿愿它有助于揭开与这项艰难但值得的致力相关的应战的奥秘面纱。
你不会在第一个冲刺就构建起完美的外部数据运行程序(没有人会这样做),但我激励你构建、运送、迭代、冲洗和重复。
译者引见
翟珂,社区编辑,目前在杭州从事软件研发上班,做过电商、征信等方面的系统,享用分享常识的环节,空虚自己的生存。