文心大模型赋能商业智能助手的探求与通常

2024-11-15

首先来引见一下商业消息查问的运行场景。

以上场景中，有些是现代商业决策的关键，有些则与咱们团体生存毫不相关。要处置这些疑问，打算之一就是去查问这些企业的消息，其投资相关、供应链相关，这就是商业消息查问。

商业消息查问是一个职场多边手，能够助力咱们的一些关键决策。

大局部商业消息查问服务，如天眼查、企查查、爱企查等，关键经过整合来自地下渠道、第三方平台和官网记载的海量数据，为用户提供片面、精准的消息服务。这些平台搜集包括企业注册消息、财务数据、法律诉讼、行业灵活等多元消息，将其产品化，以满足不同用户需求。

服务对象宽泛，既面向 B 端企业，协助企业启动市场调研、竞争对手剖析、危险评价等，也惠及 C 端团体用户，在消费决策、投资理财、职业规划等方面提供数据支持。以百度旗下爱企查为例，其效果清楚，为用户提供了高效、方便的商业消息查问体验。经过这些平台，用户能够极速失掉所需消息，做出更理智的商业和生存决策。

咱们在去年底开局应用 Copilot 来助力爱企查转型更新，改造交互体验，优化商业效率。Copilot 的外围配置在于精准婚配供需双方，既满足买家的洽购需求，又确保卖家的优质供应，经过高效撮合，促成了双方的深度交换与协作。

至往年 3 月，Copilot 系统展现出清楚功效，详细表现为：

Copilot 经过优化婚配机制，不只优化了用户对话的满意度和效率，还直接促成了企业的收益增长，增强了用户体验。这一成绩证实，Copilot 是企业数字化转型的有效工具。经过 Compiler，企业能够愈加精准地触达目的客户，提高转化率，成功商业目的的同时，也为用户发明更多价值。

二、文心大模型构建商业智能助手的几种形式

接上去引见咱们如何应用文心大模型构建商业智能助手。

第一种形式就是应用检索增强技术，即检索一些文档用做常识增强。但是，单纯依赖 RAG 在商业场景下的局限性逐渐浮现，尤其是在面对庞大商业常识库和复杂企业相关时，直接的网络文档检索往往不可提供准确、深化的消息。这正是爱企查等商业消息查问平台存在的价值，它们领有数亿条企业数据和数十亿条商业常识，远超个别搜查引擎的笼罩范围。

为克制上述应战，咱们提出了一种融合企业自建常识库与文心大模型的处置打算。

首先，对用户查问启动深度用意识别，明白查问目的是特定企业及所需属性（如电话、法人等）接着，应用企业常识库启动精准查问，将查问结果反应给文心大模型，由其生成最终的、高度共性化的回答。

例如，查问腾讯的咨询电话时，咱们先识别出查问用意，而后在常识库中以“腾讯”为 key，“电话”为 value 启动查问，将结果交由文心大模型处置，生成准确回答。关于腾讯投资的公司，模型不再局限于外表关联，而是提醒了如华谊兄弟等与腾讯有实践持股比例的复杂相关。

又如，查问腾讯的法人投资了哪些公司。这时的用意识别变得愈加复杂。为了处置这类复杂查问，咱们提出了常识图谱检索打算。

在查问时，不再是方便地经过写一些规定去查，而是应用大模型的代码生成才干，生成 SQL 查问语句。但是直接生成代码的准确率初时较低，大概在 10% 左右，这关键是因为模型对详细数据库结构了解的无余。

为提高代码生成的准确率，咱们采取了以下两步优化战略：

但是，大模型高低文窗口是有限度的，当查问触及多表、多字段的复杂数据库时，直接将一切表结构（schema）消息嵌入 prompt 中变得不实际践。为处置这一疑问，咱们驳回了 schema linking 战略：

最终，这一战略不只处置了高低文窗口限度，还优化了查问效率，确保了大模型在复杂数据库查问场景下的实践可用性。

去年名目启动时，咱们对零样本（zero-shot）和大批样本（few-shot）学习的效果启动了初步伐研，比拟了文心 ErnieBot、ChatGLM、ChatGLM 精和谐 LLaMA-Chinese-alpaca 精调的表现。调研结果标明，虽然这些模型在服务效率上表现出了初步的适用性，但与实践运行落地的高要求相比，仍有不小差距。这一发现促使咱们深化钻研模型优化战略，特意是如何经过样例学习（in-context learning）和大模型的反思才干优化模型性能。

咱们发现，经过给定特定场景下的样例，模型能够学习到更详细的查问形式，从而清楚优化查问准确性。但是，模型在生成代码（如图数据库的查问语句）时，仍或者产生失误，这引发了外界对大模型才干的质疑。值得留意的是，大模型具有自我反思与批改的才干，这一特性为优化全体准确率提供了新的路径。

咱们让模型在生成查问语句后，启动自我审核与批改。以图数据库为例，模型生成的图查问语句（GQL）或者蕴含边向性（in/out）失误，或存在点与边的婚配失误。经过让模型反思并批改这些失误，查问的准确性失掉了清楚优化。例如，查问“腾讯有哪些高管？”时，模型能够识别并批改边的向性失误，将失误的“out”改为正确的“in”。雷同，关于“查问马化腾在腾讯的职位？”这一疑问，模型能够识别并修误点到点、边到点的婚配失误，确保查问的准确性。

这一战略的运行，使得模型在复杂查问场景下的表现大幅优化，最终线上准确率超越 90%。

关于直接投资相关的查问，模型展现了弱小的通用性。例如，查问“小米公司直接投资了哪些公司？”时，模型能够追踪复杂的多层投资链，提醒小米经过 A 公司直接投资 B 公司的相关，而无需依赖特定模板。这一才干仅经过大模型的代码生成与反思才干即可成功，展现了在复杂常识图谱游走与查问方面的弱小后劲。

三、文心大模型构建商业智能助手进阶

在很多场景中，我宿愿答案经过图形可视化地出现。

咱们驳回了开源工具 Apache ECharts。这一工具提供了很多不同种类的图表，其中的相关图十分符合商业消息查问的场景。

咱们设计了一套应用大模型生成可视化图表的打算。首先，模型被定位为图表专家，而非传统的数据库工程师。用户提出需求，模型接纳查问结果数据，最后生成图表。这一打算取得了十分令人满意的效果。

咱们正在探求大模型在更深档次的运行——企业危险剖析。这一畛域关注企业的牢靠性，评价其能否会突然中断运营。经过搜集目的公司及其法定代表人的消息，联合关联公司形态，咱们能够启动综合危险剖析，为用户提供片面的公司评价。这一剖析环节不只触及企业基本消息，还深化调查法定代表人的信誉状况，包括能否被列入失信名单，以及其名下其余公司运营状况。经过整合这些数据，咱们能够提供一个综合危险评分，协助用户判别企业协作危险。

因为此类深度剖析触及初级商业数据，通常属于 VIP 服务范围，咱们产品的定位为服务于一切用户，因此这一初级配置尚未正式推出。虽然如此，咱们已成功在其余场景中运行了这套危险评价系统，验证了其有效性和适用性。

四、商业智能助手的未来展望

展望未来，大模型的最终价值在于运行，尤其是如何实际优化咱们的上班效率。

以会议场景为例，未来的智能助手将在会议上成功即时数据剖析与市场调研，为决策提供数据支持。同时，它能被动思索会议中提出的疑问，识别潜在商业时机，评价危险，为探讨提供详实数据，清楚优化会议效率。

这一愿景展现了大模型在日常生存与消费中的最大作用——协助企业提效。经过智能助手的参与，咱们能将更多精神投入翻新与决策，让技术真正服务于人，推进企业与社会的继续提高。

以上就是本次分享的内容，谢谢大家。

Q1：刚才引见的运行，除了在爱企查，还有拓展到其它场景吗？

A1：除了爱企查这一场景，大模型的运行在企业外部数据控制中也展现出宽广前景。基础上班围绕相关数据库开展，经过 SQL 查问，成功对外部复杂数据的高效控制。这一工具在公司外部失掉宽泛经常使用，无论是产品经理（PM）还是研发人员（RD），在面对暂时的数据查问需求时，都频繁依赖这一工具。但是，因为触及外部敏感数据，不可地下演示，但其面前的方法论与爱企查场景相似，即经过将人造言语查问转化为 SQL 代码，成功准确的数据检索。

Q2：Prompt 是依托特定的模版吗？

A2：大模型的高效运行依赖于专业的 Prompt 工程。百度强调，未来的上班将从直接编写代码转向设计 Prompt，即如何将人造言语转化为大模型能了解的输入格局。这要求工程师具有将专业畛域常识融入 Prompt 的才干，以确保大模型能够准确口头复杂义务，如数据剖析、市场调研等。Prompt 设计成为衔接人类需求与大模型才干的关键桥梁。

Q3：外部运行的效果如何？

A3：在企业外部经常使用大模型启动数据控制，效果清楚。用户反应标明，关于企业用户而言，问答体验的优化到达了 50% 以上，清楚增强了数据查问的效率和准确性。此外，这一工具的运行还为企业带来了实质性的商业转化优化，转化率增长超越 30%，表现了大模型在企业外部数据控制与决策支持中的渺小价值。

大模型在企业外部的运行不只限于爱企查等公收场景，其在外部数据控制与决策支持中展现出的弱小才干，为企业带来了清楚的效率优化和商业价值。经过专业的 Prompt 工程，大模型能够了解并口头复杂的数据查问义务，成功与常识图谱的深度融合，为企业外部数据的高效控制提供了全新的处置打算。

Q4：咱们最开局在去同步整个数据效果的时刻提到了对话满意度是 52%，这个满意度是怎样算进去的？经过什么方式监测进去的？

A4：满意度评价基于用户体验，如查问结果的准确性，不可回答的查问被视为不满意。目前，评价大模型效果关键依赖人工，经过随机抽样数据启动人工审核，以标签方式给出满意度目的。虽然智能化评价是钻研方向，经常使用大模型评价大模型的效果存在牢靠性争议，人依然是最牢靠的评价者。的评价目的虽尝试应用大模型启动自我评价，但这种方法的智能化成功面临应战，牢靠性尚待验证。人工评价仍为确保大模型性能和服务品质的关键手腕。

Q5：对话启齿率是什么样的一个目的？反映的是什么疑问？

A5：对话启齿率反映用户与机器人互动的志愿，被视为用户留存的目的。百度钻研院与爱企查平台协作，驳回此目的评价用户满意度。若用户首次查问取得满意回答，次日或者再次互动；反之，不满意体验将降落再次提问的或者。经适量化对话启齿率，可正面反映问答效果，作为人工评价的补充，直接权衡大模型的性能与用户接受度。

Q6：假设把样例放到 prompt 外面，会不会形成提醒词特意臃肿？

A6：大模型处置才干受限于长度，schema linking 成为关键，旨在优化内容，防止超长疑问。样例选用与排序对结果影响严重，需精心筛选与规划。这深化到模型运行的复杂层面，远超方便操作，如 APP 构建工具的直觉经常使用。尤其在数据迷信畛域，如代码生成，精准查找要求极高，需少量上班优化样例与 schema 链接，确保模型在长度限度下仍能高效、准确地口头义务。这要求深化了解模型机制，精心设计以应回答杂查问需求。

Q7：微调的方式和注入样例的方式对比，有清楚的差距吗？

A7：微调展现更优效果，因其能片面学习样本，克制样例过多造成的留意力扩散疑问。相比之下，样例注入虽方便，但在效果上略逊一筹。微调虽效果清楚，但开发周期与部署老本高昂，需从新部署模型，远超直接调用 API 的经济性。咱们曾对比条样例的 schema linking 与微调，微调效果更佳，但老本控制是关键考量。在性能优化与老本效益间找到平衡，是优化模型运行的外围。

Q8：Open AI V3.5 为它一切的大模型提供了微调的接口，百度有相似的吗？

A8：这个微调接口咱们必需是也有的。

百度千帆平台，作为百度的模型开发与微调平台，不只支持自研的文献模型，还兼容多种开源模型，如 Lama 3，宽泛运行于迁徙学习等畛域。平台提供从模型训练到评价，再到运行程序开发的全套服务，包括数据集控制、数据荡涤、数据增强等配置。

用户可在千帆平台上启动模型微调、部署及运行程序开发，如构建 APP、模型部署或编写自定义 Agent。平台还支持模型评价，准许用户构建固定汇合启动性能测验，确保模型品质。总之，千帆平台为开发者提供了一站式处置打算，笼罩模型开发全流程，片面助力 AI 模型的高效构建与运行。

Q9：微调用的样例，包括咱们整个微调的环节，上就可以了解为是一种让大模型预学习，让他具有某个畛域的才干，而后前置地去具有这样的才干，是这样吗？

在千帆平台中，模型层级被定义为 L0、L1、L2 三个阶段。L0 代表大模型预训练阶段，即基础的通用大模型。L1 则为畛域对齐模型，经过将特定行业的文档归入训练，使模型了解并把握畛域内的专有名词，优化行业常识了解才干。L2 阶段专一于特定义务的微调，如 SQL 生成、代码撰写、文档编写、续写或问答，这一阶段称为 task-specific fine-tuning（SFT），旨在让模型无了解畛域常识的基础上，进一步精炼特定义务的口头才干。

数据剖析文心大模型数据库查问

<<存算分别是数据架构肯定趋向

减速企业数字化转型安保随行>>

文心大模型赋能商业智能助手的探求与通常

二、文心大模型构建商业智能助手的几种形式

三、文心大模型构建商业智能助手进阶

四、商业智能助手的未来展望

您可能还会对下面的文章感兴趣：

随便看看