画像标签体系构建与运行通常

2024-11-15

去哪儿在每个业务开展环节中构建了独立的画像标签体系。随着公司的始终壮大，需将各个业务的画像标签体系启动整合。从技术角度看，整合的环节相对繁难，但业务层面的整合则较为复杂。由于各个标签在不同业务中的定义存在差异，这参与了整合的难度。为了确保整合后的标签体系能够更好地服务于公司的全体战略，须要启动深化的关键词提取和优化，确保各个标签的逻辑性和分歧性。

用户行为为用户在 APP 上操作所发生的行为，业务日志则为用户自己点击、下单、搜查等行为在主机端发生的数据。画像标签是经过规则统计和开掘算法对用户行为和业务数据启动计算后得出的用户等维度的数据。

每个业务部门在搭建自己的画像标签平台时，由于目的不同，需求也有所差异，比如机票业务通常以营销为目的，酒店业务通常以服务为目的。咱们应从实践业务需求登程，与各个部门沟通，包括公司控制层、实习生等不同层级的人员，启动深化的需求调研，以确保整合后的标签体系能够更好地满足业务需求。在整合环节中，用户画像标签需求关键分为三类：营销风控、外部业务剖析运行和形容用户。

在画像标签构建的环节中分为业务分类和技术分类。

从需求中提炼出业务须要的用户画像分类，其中一级类目和二级类目偏以业务流程启动分类向的定义，并以此始终扩大。

另外，依据不同的技术需求，咱们须要选用适合的技术栈来成功画像标签的生成、存储和调用。

首先，须要明白画像标签的定义和目的，以便确定须要经常使用哪种技术。其次，须要思索标签的降级周期和访问形式，这选择了能否须要在线或离线处置标签，以及选用哪种存储资源。最后，依据这些要素，咱们可以选用适合的技术栈来成功画像标签体系，确保系统的性能和稳固性。经过这样的技术分类，可以更好地控制和保养画像标签体系，提高其可扩展性和可用性

除了已列出的按小时、周、月的降级周期外，咱们目前还成功了实时的标签降级，这更凑近于流式降级。

由于画像标签平台须要处置少量数据和用户恳求，须要依据后盾技术栈来选用适合的访问形式，关于一些大型公司，用户量和数据量都十分宏大，因此咱们须要思索如何有效地存储和调用标签。有些标签或许只要要离线构建，而有些标签则或许须要在线调用。关于离线标签，咱们可以选用不占用高存储老本的资源，例如将数据存储在 Redis 或 HBase 中。而关于在线标签，须要确保系统能够极速响运行户恳求，并提供稳固的服务。因此，在选用访问形式时，咱们须要依据实践状况启动权衡和选用，以确保系统的性能和稳固性。

4. 画像标签体系构建环节

在画像标签体系的消费环节中，咱们须要对各类数据源启动一系列的处置，最终生成标签。其中，ID Mapping 是一个关键环节。ID Mapping 的目的是处置不同ID 指向同一人的疑问，特意针对早期成立的公司，由于注册形式多样，或许会出现多个 ID 对应同一用户的状况。例如，用户经过邮箱注册后可以绑定或更改手机号，或许曾经准许未登录形态下经常使用，这些状况都或许造成多个 ID 对应同一用户。

为了处置这个疑问，ID Mapping 承当着成功多设施关联的义务。另外，ID Mapping 关于风控来说也是至关关键的基础步骤。经过 ID Mapping，可以更好地识别和关联不同设施的经常使用者，从而更好地启动危险控制和安保控制。经过合理的 ID Mapping 设计和控制，咱们可以更好地包全用户隐衷和数据安保，同时提高画像标签体系的准确性和牢靠性。

画像标签平台也称之为 CDP 平台，蕴含了画像标签的消费、数据剖析、业务运行、效果剖析等服务。下图为去哪儿 CDP 平台的性能架构。

在去哪儿网，疫情出现后增强了外部才干的树立，将画像标签与干流战略平台启动了整合。目前该平台涵盖了画像标签的整个生命周期，可成功画像构建、人群圈选以及最终的营销举措等性能。经过这样的整合，能够更好地成功数据驱动的营销战略，将用户画像与营销优惠无缝衔接起来。这有助于提高营销效果和用户满意度，同时也无利于企业外部的数据整合和协同上班。

三、经常出现算法类画像标签

1.经常出现模型类标签罕用算法类型

在通常环节中，基于样本和技术栈，可以将模型类标签罕用算法分为如下几大类：

（1）分类算法：在业务流程中应用预测类标签来启动圈选和业务过滤，须要领有足够的样本数据来启动训练和优化模型，从而提高预测准确率。预测类标签不只仅局限于订单支付预测，还可以包括搜查支付预测、搜查预测、概略页预测等。

（2）介绍算法：与排序和优先级相关，须要更宽泛的前沿常识和技术栈。介绍算法的目的是从召回集中为用户介绍适合的酒店房型。例如，关于亲子出游的场景，介绍算法可认为用户介绍双床房或套间等适合的酒店房型。

（3）常识图谱：应用图数据库技术更好地提醒用户及其周边相关。风控场景中运行较多，例如识别意外用户和判别能否为恶意用户。

（4）因果推断：经过一个例子解释了给用户发短信和 push 信息对营销效果的影响，并触及到老本疑问。

（5）图形图像：联合图形图像处置技术，对图形图像启动打标。触及到对图像的宰割、识别等技术，但更多的是经过用户标签反向运行到图像打标上。例如，关于宣布不合理评论的用户，将其标签提取出来，并运行到图形图像打标算法中，以提高打标的效率和准确性。

（7）lookalike 营销算法：即经过种子用户启动扩展营销的算法。

基于需求的类型会有不同的分类方法：

2.基于常识图谱和频繁形式的 looklike 算法

仅依赖画像标签启动挑选或许发生少量不合乎需求的目的用户，如何对这些用户启动排序成为了一个难题。传统的方法如依据价值、生动度等启动排序，很难确保选出的用户与目的用户群最为相似。而经过常识图谱或频繁形式，咱们可以权衡用户之间的相似度，并且这种相似度是可量化和扩展的。经过相关层面，该算法能够更准确地找到与目的用户相似的用户个体。

与传统的关联规则和画像标签相比，因果推断能够处置更深档次的疑问。关联规则和画像标签关键处置的是相关性疑问，例如“购置啤酒的用户也或许会购置尿布”，但无法解释为什么存在这种相关性。在不同的文明和市场中，这种相关性或许并不成立。因此经过历史数据和模型启动因果推断，可以找到影响用户行为和转化的关键要素。这些关键要素可以经过相关发现被找到，进而协助咱们更好地了解用户行为和业务环节。

例如右上角白色局部经过对业务的了解挑选出的更能表现业务的环节的局部，从而去扩大更多的用户出来。

在物的画像构建环节中，咱们关键关注的是物的属性和特色，例如酒店画像中的市区、商圈、航线、航班等。这些属性有助于咱们更准确地形容和了解物，并为其画像提供丰盛的内容。

与用户画像相比，物的画像更强调物与物之间的相似性。在通常中，咱们通常应用物的相似性启动介绍和排序等操作。为了权衡物与物之间的相似性，可以驳回多种方法，如属性向量和 embedding。这些方法可以将物示意为向量，并应用这些向量启动相似性计算。须要留意的是，物的画像构建环节与用户画像构建环节只管相似，但在实践运行中，咱们须要依据业务需求和场景启动适当的调整和优化。同时，还须要深化剖析物与物之间的相关和档次结构，以确保物的画像准确反映业务需求。

此外，在物的画像构建环节中，咱们还须要关注一些关键疑问。

（1）相近并不象征着相似。例如，在经常使用 embedding 方法时，假设低价值的用户个体搜查的都是五星级酒店，那么这些五星级酒店之间的相关性或许会很强。但在某些业务场景中，这种相关性或许并不适用。因此，咱们须要依据详细业务场景细心思索物的相似性。

（2）冷启动疑问。例如在酒店画像中，当一个新的酒店上线时，它或许不足用户行为数据。为了处置这个疑问，咱们可以应用属性距离抽取大维度的标签属性，构建一个偏用户态的画像标签，并应用这个标签启动相似度计算。

运行一：营销人群精选与分散

画像标签在营销的精选和分散环节中起到了至关关键的作用。经过合理运用画像标签，运营人员可以对已选定的用户个体启动更粗疏的剖析和挑选，当运营人员感觉初始精选的用户个体过大或过小，或许营销效果须要进一步扩展或优化时，可以经过画像标签启动分散或从新精选以到达更好的营销效果。

但是，在启动画像标签的精选和分散时，最经常出现的是用户转化和运营干预的四象限疑问。这四个象限区分代表不同的用户转化形态和运营干预战略，须要针对不同状况启动不同的应答措施。例如，关于高转化低干预的用户，可以采取坚持现状的战略；关于低转化低干预的用户，可以采取促成转化的战略等。

以下是画像标签在运行环节中营销精选分散的四个阶段：

迷信剖析： 深化开掘用户数据，精准定位目的个体，以优化转化效果。

辅佐圈选： 应用标签高效挑选目的用户，提高营销优惠的针对性和效率。

默认扩量： 基于算法和模型，对用户个体启动默认分类和扩量，以扩展营销笼罩面。

模型落地： 联合实践营销优惠，优化画像标签和战略，成功最佳的营销效果。

运行二：业务目的归因剖析

经过画像标签体系来剖析业务目的的好坏，并进一步优化战略。在业务迭代环节中，咱们通经常常使用归因剖析算法和商业剖析等方法来发生战略。而后启动试验测量，假设试验战略表现良好，就会全量上线。

但是，在这个环节中会遇到两个疑问：如何剖析目的的好坏以及试验结果的好坏。为了处置这些疑问，咱们须要启动业务目的的归因剖析。首先，经过报表、报警等路径发现业务疑问，找出疑问的要素，明白详细的场景和实践的转化相关。接着，定位疑问的要素，并判别这个要素是可控的还是无法控的。假设是无法控的，或许就是一个人造颤抖，不须要过多关注；假设是可控的，就须要进一步探求能否存在未知的场景造成这个疑问。

在定性剖析模块中，咱们会明白可控要素和无法控要素，并开掘一些未知的场景出现疑问的要素。最后，给出倡导，指点业务人员在什么场景下去做。这个场景其实就是某个业务的转化率降低了，经过整个业务的剖析环节，咱们可以得出非市场要素和可控要素区分占比多少。假设市场要素占比拟大，那咱们就可以先滞后处置这个疑问，不用立刻动用少量人力物力。

在担任去哪儿的 AB 试验系统的环节中，咱们经常面临一些应战。当产品团队投入少量期间和资源成功试验后，假设试验结果不清楚，很容易发生诸如“为什么试验有效”和“下一步迭代的方向是什么”等不懂。

为了处置这些疑问，咱们启动了 AB 试验效劳剖析，关键分为三个局部。首先，咱们经过业务流程漏斗模型、外围用户画像标签识别以及业务域误导标签识别，尝试判别试验效果不佳能否由于量优化不够。其次，运用决策树等剖析方法，探求质的优化能否存在疑问，例如其余试验的抵触或优化量未到达清楚性比例的状况。最后，量化举措效劳，明白每个举措对目的的影响水平。

经过这些剖析环节，咱们可认为产品团队提供详细的指点，协助他们选用效劳更高的方向启动优化，从而成功质的优化。这些剖析不只要助于优化产品迭代方向，还能为公司节俭资源和期间，提高全体业务效果。

Q1：用户行为跟业务日志有什么区别？

A1：用户行为数据关键记载了用户在 APP 端的交互行为，如点击等，这些数据关键反映用户的交互环节。而业务数据则触及后盾处置的各种信息，例如代理衔接环节、物流信息等，这些数据只管对用户来说是无法见的，但关于了解整个业务流程和优化用户体验雷同至关关键。在实践操作中，咱们须要将这些数据归入到咱们的画像标签体系中，以便更好地剖析和了解用户行为和业务环节。例如关于电商平台来说，有些数据或许对用户有关紧要，但有些则触及到用户体验和业务流程，因此须要启动适当的挑选和处置。

Q2：目前流式标签是怎样做的？能支持比拟复杂的标签规则嘛？是数据开收回来还是可视化性能的？

A2：流式标签可以经过流式计算来成功，如经常使用 Flink 等工具。用户可以拖拽定义好的数据，经过流式计算启动标签的计算。同时，也可以上行 Python 代码或 SQL 代码启动自定义的计算。此外，还可以经过 Spark 等形式来支持。在流式标签中，须要限度计算的量和期间窗口，以满足不同需求。

流式标签可以支持复杂的标签规则。用户可以经过上行 Python 代码或 SQL 代码来成功更复杂的标签计算。

流式标签可以经过数据开发和可视化性能两种形式来成功。在去哪游览平台上，用户可以拖拽定义好的数据，经过流式计算启动标签的计算，也可以上行 Python 代码或 SQL 代码启动自定义的计算。

A3：实时标签是指在用户行为或业务事情出现时，实时计算并运行的标签。例如，当用户在前端界面提交揭发时，系统会实时地剖析用户的诉求和订单疑问，并为用户打上相应的实时标签。这种实时标签能够极速地反映用户的需求和疑问，以便及时地启动处置和优化。不同公司对实时标签的定义有所不同，去哪儿 3 秒以内的算实时，而小时级都称之为是非实时的一个场景。

Q4：ID Mapping 是将多个手机号/设施号识别成一个惟一的 ID?还是使每个用户都有一个惟一的 ID？比如一个手机号在两个设施登录过，其中一个设施又登录过另外一手机号，是惟一的一个还是三个?

A4：随着移动互联网的遍及，越来越多的公司开局驳回手机号作为用户惟一的标识符。一键登录已成为行业通用的做法，使得用户能够愈加繁难地登录和经常使用运行。关于去哪儿这样的平台，咱们也驳回了手机号作为用户惟一的 ID。在大少数状况下，咱们会将手机号视为用户的惟一标识符。但在某些不凡状况下，咱们也会思索用户改换手机号的场景，并对其启动相应的处置。此外，为了更好地控制和识别用户，当一个手机号在两个设施上登录时，咱们会经过一系列的判别来确定用户对设施的持有形态。假设用户是暂时登录设施，咱们将其视为访问人；假设用户常年持有该设施，则将其视为持有人。

Q5：货品标签有哪些运行场景？

A5：其中最经常出现的是货品定价。为了成功货品定价的共性化，咱们须要经常使用货品标签。这些标签是基于外部要素和外部要素的详细数值计算得出的。假设外部要素没有失掉适当的梳理，外部要素的影响或许会被夸张可以了解为相似于暴力图解的形式，咱们把每一个要素都放出来试，而后去看每个要素对它的影响是多少，并且在每个要素里判别它是相关性还是因果性。

Q6：业务的实时标签是不是要定制化开发？

A6：实时标签在建成之后，咱们曾经经过开发层面去尽或许地穷举了一些经过基础的统计就能出来的一些实时标签。至于说像规则类和模型类的实时标签，必需是要定制化开发的。

Q7：标签的生命周期怎样控制？

A7：在树立之初会有一些一次性性的标签，用完就不经常使用了。

Q8：能否可以用一些统计方法来确定 AB 试验的时刻的最小样本量？AB 试验有规范的计算环节，这样是不是可以知道大略须要多少样本量可以到达统计清楚的一个效果了？

A8：更小的业务公司，或许流量先本能就不够，你想要到达一个最小样本量，操作层面也不太能成功，所以咱们须要有一些在没有到达最小样本量的时刻，能极速去大抵地推断这个试验效果。

Q9：用户口径画像的口径类型是怎样存储和展现的？用户画像的标签除了繁多的，还有多标签，构成一个用户偏好角度。这两类标签怎样存储比拟好？

A9：展现每一个公司都不一样。从存储角度来说去哪儿是有多个存储形式的，咱们可以容忍一局部数据的冗余存储，关键还是为了以实时照应快为准，就是它在访问化标签的时刻，咱们尽或许地以一个低耗时去访问它。

Q10：模型在打算标签树立中有哪些运行？

A10：其实这个我如今经过去哪儿这边的通常来说，大模型在算法标签运行是十分的广的。首先最繁难的一个例子，咱们在构建户的画像的时刻，经常会遇到 POI 地标数据，地标的数据是从一些文档外面抽取的，或许这个就大模型在用，这个中央的准确率说瞎话比咱们以往自己构建的一些模型效果好很多。以及咱们在构建常识图谱的时刻，会遇到一些实体消歧、实体兼并等等。

Q11：触及到排序介绍也须要画像算法工程师成功吗？

A11：其实不是的，这个介绍是介绍工程师，但是介绍算法要用到画像工程师的结果，画像工程师须要把画像标签的品质和这个运行的场景作出明晰的形容以便于介绍排序工程师能够更好地经常使用。

画像标签算法业务数据

<<你试过了吗 510与Oracle的兼容性如何 OpenGauss

风控场景全流程模型构建及运行通常>>