什么是知识图谱和AI多模态推理

2024-11-15

大模型与知识图谱结合，构建企业自动知识治理平台，为处置上述难题提供了新的思绪：大模型技术能够从海量数据中提取复杂消息，具有学习和推理才干，而知识图谱则经过图形结构，将知识启动无机整合，展现出实体之间的相关和语义消息。两个技术的结合，将成功愈加方便的知识治理、愈加精准的自动问答、以及愈加牢靠的自动决策与剖析。

一、知识图谱推理

结构化的知识库图的方式示意和存储理想环球中的实体、概念及其相互相关。这些实体可以是详细的人、地点、事物，也可以是形象的概念或思维。

基本组成单位是“实体—相关—实体”三元组属性—值对，实体间经过相关相互结合，导致网状的知识结构。

KG = （E，R，T），KG示意知识图谱、E示意实体汇合、R示意相关汇合、T示意知识三元组汇合。

知识图谱

什么是知识图谱推理？基于知识图谱中的理想和相关逻辑、规定、统计或机器学习已知的消息中推断出新的消息或相关的环节。知识图谱推理的指标是从有限的理想中推导出更多的知识，填补知识图谱中的空白或增强图谱的表白才干。

知识图谱推理

知识图谱推理是人工自动畛域的一个关键分支，它触及到基于知识图谱中的理想和相关，经过逻辑、规定、统计或机器学习等方法，从已知的消息中推断出新的消息或相关的环节。其指标是从有限的理想中推导出更多的知识，填补知识图谱中的空白或增强图谱的表白才干。例如，假设知识图谱中示意“A是B的父亲”和“B是C的父亲”，经过推理，咱们可以得出“A是C的祖父”。

知识图谱推理在多个畛域都有宽泛的运行，包括但不限于：

1.企业投资危险钻研：经过股权投资相关寻觅持股比例最大的股东，区分由最终控制人操纵的关联买卖，洞悉商业危险。

2.信贷风控：识别存款放开者之间的意外流水和单位，从而发现危险点。

3.自动保顾机器人：依据症状、疾病和理赔范围的逻辑去判别保险理赔事宜。

4.开掘人物相关：在纪检知识图谱中发现人物之间的意外关联。

5.问答机器人：基于农业畛域知识图谱和逻辑推理模型，使问答对话愈加顺畅人造。

6.灵活属性生成：在自动买卖中心设置统计值和计算逻辑，成功各节点相关计算结果。

知识图谱推理的关键技术手腕分为两大类：

1.基于归结的知识图谱推理：经过逻辑规定从已知理想推导出新的论断。2.基于归结的知识图谱推理：经过统计学习方法从数据中归结出新的形式和相关。此外，知识图谱推理还包括基于规定的推理、基于散布式示意的推理、基于神经网络的推理和混合推理等方法。上方区分引见

1、基于规定学习：

经过开掘图谱中的逻辑规定，应用规定婚配和推理来预测新的实体和相关。例如：，将规定示意为重写规定，并经过递归运行重写规定来启动推理。

2、基于门路排序：

应用图谱中实体间的门路特色启动排序学习，经过评价门路的可信度来推断实体间的相关。例如：，驳回随机行走和基于重启的推理机制，口头多个有界深度优先搜查环节来寻觅相关门路。

3、基于示意学习：

将实体和相关嵌入到低维向量空间，经过向量运算和相似性度量启动推理。例如： 翻译距离模型（如TransE、TransH、TransR等） ，这些模型为知识图谱中的每个实体和相关学习一个向量示意，并经过向量间的运算相关来推断新的实体和相关。

4、基于神经网络学习

应用神经网络模型捕捉图谱中的结构消息，经过神经网络的前向流传启动推理预测。例如： 基于图神经网络（GNN）的推理方法 ，如基于留意力机制的图卷积神经网络（Graph Attention Network，GAT），经过对实体之间的相似度启动加权，来推断实体之间的相关。

二、多模态推理义务

应用多种感知模态的消息综合剖析和判别的环节。多模态推理触及 至少两种不同的感知模态 视觉和言语 。这两种模态的消息可以是图片和文本、视频和语音等。多模态推理的指标是从不同模态的消息中失掉更片面、更准确的了解和知识，以允许各种义务，包括 视觉问答、视觉知识推理、视觉言语导航

多模态推理义务

多模态推理的指标是从不同模态的消息中失掉更片面、更准确的了解和知识，以允许各种义务，包括视觉问答、视觉知识推理、视觉言语导航等。多模态推理在多个畛域都有宽泛的运行，包括但不限于：1.人机交互：经过结合语音、图像和文本等多种输入方式，提高人机交互的人造性和效率。2.机器人控制：在机器人技术中，多模态模型可以协助机器人更好地理解和照应复杂的环境输入。3.多模态情感剖析：充沛应用多个模态数据中的情感消息，提高情感剖析的水平。4.多模态事情检测：检测不同模态数据中出现的事情，并对事情启动分类和定位。5.多模态生成义务：生成具有多个模态的数据，比如文本和图像的生成、音频和视频的生成等。

多模态推理的技术手腕包括：

1.示意学习：将不同模态的数据转换为一致的特色示意，使得模型能够同时处置和了解这些模态。

2.对齐（Alignment）：钻研不同模态元素间的对齐相关，包括显式对齐和隐式对齐。

3.融合（Fusion）：整合来自不同模态的特色消息，以提高模型的决策才干。

4.协同推理（Cooperative Reasoning）：不同模态的消息协同上班，独特允许复杂义务的推理环节。

多模态推理

1、视觉问答（Visual Question Answering，VQA）

视觉问答指的是给机器一张图片和一个放开式的人造言语疑问，要求机器输入人造言语答案。答案可以是短语、单词、(yes/no)或从几个或许的答案当选用正确答案。

2、视觉知识推理（Visual Commonsense Reasoning，VCR）

视觉知识推理须要无了解文本的基础上结合图片消息，基于知识启动推理。给定一张图片、图中一系列有标签的bounding box，VCR实践上蕴含两个子义务：{Q->A}依据疑问选用答案；{QA->R}依据疑问和答案启动推理，解释为什么选用该答案。

3、视觉言语导航（Vision Language Navigation）

视觉言语导航是一种技术，它结合了计算机视觉、人造言语处置和自主学习三大外围技术，使自动体能够追随人造言语指令启动导航。

多模态AI的实践运行

多模态AI曾经在多个畛域展现了弱小的后劲，以下是一些实践运行的案例：

NO.01医疗畛域

多模态AI在医疗中的运行十分宽泛，尤其是在医疗影像剖析、病历记载整合等方面。经过将医学影像（如CT扫描、MRI等）和患者的文字病历数据结合，AI能够为医生提供更准确的诊断倡导。这种多模态整合可以极大优化医生的诊断效率，缩小误诊率。

NO.02自动家居

多模态AI在医疗中的运行十分宽泛，尤其是在医疗影像剖析、病历记载整合等方面。经过将医学影像（如CT扫描、MRI等）和患者的文字病历数据结合，AI能够为医生提供更准确的诊断倡导。这种多模态整合可以极大优化医生的诊断效率，缩小误诊率。

NO.03虚构助手

多模态AI使得虚构助手变得愈加自动，能够同时处置语音、文字和图像。未来的虚构助手或许不只是听你谈话，它们还能够“看”到你展现的图片或视频。例如，你可以向虚构助手展现一个视频，征询它某个场景的详细状况，虚构助手能极速了解并给出答案。

NO.04教育与内容创作

多模态AI可以依据图像生成详细的文字形容，或许依据给定的文字生成相关的图像和视频。这种才干在教育畛域特意有用，老师可以经常使用AI生成跨模态的教育资料，在校生则可以更直观地理解复杂的概念。

多模态AI的未来与应战多模态AI在开发和运行环节中面临多种应战，但这些应战也为未来的开展提供了机会和方向未来钻研方向包括：

1.多模态大模型算法的应战与预训练模型的兴起：探求多模态大模型算法的开展，以及如何应用预训练模型优化多模态推理才干。2.跨模态语义对齐：改善不同模态之间的语义对齐，以成功更准确的多模态消息整合。3.多模态AI的五大钻研方向：包括视觉了解、视觉生成、一致视觉模型、LLM允许的多模态大模型、多模态Agent等。多模态推理作为人工自动畛域的一个关键分支，正始终开展和提高，其在成功更自动、更片面的交互系统方面具有渺小后劲。

原文链接：

<<退化2.0！一键跟踪静止物体代码权重数据全开源宰割一切

具身智能成败之关键！干货长文初次片面回忆具身智能畛域中的视觉>>