读图聊天样样全能带的ChatGPT运行来了！150亿参数多模态大模型加持眼睛

2024-11-15

在许多人的印象里，是个无所不能的“怪物”。

它可以写诗，可以编代码，甚至可以间接生生长篇论文……此外，ChatGPT还极富情商、体现欲十足，只要数轮对话，就足以降服众人。

但ChatGPT真的是无所不能的吗？

作为聊天机器人，ChatGPT领有出色的言语了解才干和文本处置才干，但受制于训练模型，ChatGPT并不允许 图片对话 。试想一下，在素日与朋友启动聊天时，假设不可发送图片，那人造会失去局部乐趣。

而在国际，有这么一家AI研发团队，他们推出的“ 元乘象Chatlmg ”运行可以准确识别图片并能与用户启动聊天，就好比给ChatGPT加上一双“眼睛”， 看懂文字的同时，也能完美识别图片 。

日前，镁客网从元乘象研发团队得知，“元乘象Chatlmg”最近刚刚上线，关注 微信群众号 “元乘象” 即可体验该运行。（注：受限于算力，初期为 约请制 访问方式）

那么，“元乘象Chatlmg”的经常使用体验终究如何，它的图片识别配置能否真的神奇呢？在产品上线前夕，镁客网启动了一次性全方位的测评总结。

图 | 元乘象Chatlmg Logo

看图谈话？这款ChatGPT运行很神奇

进入“元乘象Chatlmg”，可以看到该运行的界面十分 繁复明晰 ——位于下方的文字对话框，对称式的头像排版，各种元素组分解咱们经常出现的聊天软件界面。

而在该运行的左下方，可以看到一个显眼的“ 上行图片 ”按钮。

目前，该运行图片上行允许三种方式，区分是 照片图库、拍照 和 文件导入 ，一次性上行一张。

恰逢三八妇女节，镁客网也选了两样东西交给“元乘象Chatlmg”来帮助判定一下能否适宜，一张是从搜查引擎高低载的 口红图片 ，另一张是经过手机现拍的 便签本图片 ：

可以看到，“元乘象Chatlmg”精准识别出了两张图片中的产品，并且还加长出一些其余形容，比如记事本上的小熊很可恶、口红放在红色背景前等等。

与此同时，关于这两份东西能否适宜送给女孩子做礼物，也给出了自己的判别，还会提出礼物能否适宜须要依据接纳者喜好的理性倡导。

在“元乘象Chatlmg”给出回复后， 咱们又追问了一句 ：

嗯，倡导十分中肯，高低文了解的逻辑也做到了连接。

此外，镁客网也上行了一些 其余图片 让“元乘象Chatlmg”来识别。

比如这个：

又比如这个：

还有这些：

可以看出，“元乘象Chatlmg”的识别才干还是相当精准，并能 经过文字方式来形容所看到的图片内容 。

对比基于纯文本互动的ChatGPT，除了写诗歌、撰写文章这类基本互动，多了双“眼睛”的“元乘象Chatlmg”显然又开掘出几项新配置，东西识别正是其关键配置之一。

之后， 随着数据量的始终扩增以及产品的始终提升，镁客网也等候“元乘象Chatlmg”能给咱们带来更多出彩的体现 。

百亿参数大模型加持，未来将继续更新

实质上，ChatGPT是一款聊天机器人产品，在GPT-3大模型的协助下，提供了文本生成的才干。而ChatGPT之所以强悍，也恰好得益于GPT-3。

作为OpenAI开发的人造言语处置模型，其身上有着太多话题点。早在ChatGPT推出之前，GPT-3就曾经在AI畛域成功出圈。

据悉，该模型到达1750亿参数，一次性训练就需调用上万块GPU，破费近460万美元的老本。如此疯狂的“吞金才干”，人造能撑持起ChatGPT这样的疯狂运行。

那么ChatGPT还有什么无余之处吗？答案是有的！

据元乘象研发团队示意，“元乘象Chatlmg”搭载了自研的 百亿级别参数多模态大模型 ，相当于给ChatGPT装上“眼睛”，使其能够更像人一样去对话。

所谓多模态，在AI畛域中往往指感知消息，如 图像、文本、语音 等协同，帮人工默认更准确地理解外部环球。

也正是在多模态大模型的加持下，“元乘象Chatlmg”领有了看懂图像的才干。

据元乘象研发团队引见，目前该 元乘象AI大模型 参数规模大略150亿；数据方面目前关键是 图文对数据、VQA数据 等。而在训练环节中，该模型开放尽量少的可学习参数，从而保障在有限算力上的高效训练。

在问及该模型的 未来开展门路 时，元乘象研发团队向镁客网泄漏，除了当下的图文互动外，未来该大模型还会把 图片生成 的才干联合出去，这样在回答的时刻也能回复自己生成的图像，让对话变得更活泼。

另外，该形式也会添加蕴含更多模态，如 视频、音频 等，甚至与 数字人 等技术联合，开收回更活泼平面的笼统。

可以构想，在元乘象百亿参数多模态大模型的加持下，咱们与聊天机器人的对话将变得更像真人口气，AI技术在未来带给咱们的惊喜也会越来越多。

中国AI厂商狂奔，国产ChatGPT还有多远？

就在本月举办的十四届全国人大一次性会议“部长通道”上，  科技部部长王志刚 在谈到ChatGPT时，赞扬其为AI及关系行业带来的提高。

与此同时，由ChatGPT引发的各种讨论，也被各位代表、委员们带进了两会。

理想上，早在2017年我国将开展人工默认回升为国度策略前，AI就已是全国两会上的“常客”。如今ChatGPT火爆环球，不由让人们再次提问： 中国的AI行业该如何抓住ChatGPT的时代潮流？

借由新品颁布的时机，镁客网也与 元乘象研发团队担任人高一钊博士 就此疑问启动了一番交换讨论。

在他看来， 国际关于AI大模型的树立须要有久远的规划和上班的延续性，才干开收回真正翻新的技术 。

当咱们回忆ChatGPT的“发家史”便可以发现，想做好一款AI大模型并非易事，面前是常年的资金投入以及算力技术迭代，另外还要思考训练数据的提升、计算能耗的降落等方方面面。

换句话说， 想做好一款类ChatGPT运行，并非经过一次性便捷的“百米冲刺”即可成功，而是须要耐烦跑完一场“万米短跑”，才干进入群雄逐鹿的“决赛圈” 。

但就目前的开展现状来看，国际大厂的AI大模型仍处在研发阶段，能像“元乘象Chatlmg”一样走到运行层面的团队仍十分少见——首先国际AI大模型的研发广泛起步较晚，人才缺口重大，其次是中文语境下大模型的训练难度更大，消耗的时期远超英文。

这些疑问本该须要“耐烦”去处置，但随着上一波AI投资热潮的冷却，许多公司自愿缩减估算，最终造成关系AI业务开展堕入了瓶颈。

相比之下，元乘象研发团队则走得相对顺利，一方面，该团队在AI运行畛域的常年深耕探求，另一方面也得益于他们在多模态预训练模型上正确判别与前瞻性，最终在整个团队的坚持下，终在ChatGPT时代迎来了“ 开花结果 ”。

谈及AI企业未来的探求之道时，高博士也给出了自己的一些看法：“ 在生态搭建方面，国际可以促成开源，毕竟人多力气大。 ”

结语

自去年颁布以来，ChatGPT早已从一种“ 现象级产品 ”退化为一种“ 科技符号 ”，国外科技大厂力争抢先推出类ChatGPT产品，宿愿在这场比赛中摘得所谓的“胜利”。

同时，随同ChatGPT的炽热，国际AI行业再次掀起新一轮新品热潮，“元乘象Chatlmg”正是在这时期锋芒毕露。

从“元乘象Chatlmg”运行的测评来看，其体验感曾经十分友好，甚至领有“图像识别”这种ChatGPT所不具有的配置。

当然，作为早期版本的“元乘象Chatlmg”，在一些细节方面仍有短少，但置信在元乘象研发团队致力与坚持下，未来国产ChatGPT运行也能冷艳行业。

ChatGPT

<<人造言语处置的历史及其开展方向 NLP

2.0是要经过什么方式处置什么疑问 OAuth>>

读图聊天样样全能 带 的ChatGPT运行来了！150亿参数多模态大模型加持 眼睛

看图谈话？这款ChatGPT运行很神奇

百亿参数大模型加持，未来将继续更新

中国AI厂商狂奔，国产ChatGPT还有多远？

结语

您可能还会对下面的文章感兴趣：

随便看看

读图聊天样样全能带的ChatGPT运行来了！150亿参数多模态大模型加持眼睛