疯狂在左算法在两边理性在右

2024-11-15

作者：千山

审校：武穆

随着技术提高，AI展现出了弱小的开展后劲。从第一个战败人类围棋世冠的AlphaGo到可以自主编程的AlphaCode，AI的可塑性经常令人惊叹。不过与AI无关的争议也不时如影随形，比如人脸识别触及的隐衷疑问、诸多假资讯的智能生成等。

如今，OpenAI新推出的DALL·E2系统又一次性引发了关注，这个系统能依据文本形容智能生成各种图片，这些图片不只能以假乱真，而且往往领有光怪陆离的体现力。但在这种才干的面前，关于成见和造假的隐忧再次浮出水面。由于技术虽无善恶，但兽性或者经不起考验。

你见过泰迪熊在时代广场玩滑板吗？你见过宇航员在外太空骑马吗？

DALL-E 2 让你“看”到了以上两幅事实中基本不存在的图像。

DALL-E 2是何物？它是知名遐迩的 OpenAI 开收回的文本生成图像工具DALL-E的最新版本，也是最近有点小破圈、惹起了必定探讨热度的AI系统。

DALL-E 2：画质飞升，新增二次创作配置

相较第一代DALL-E，DALL-E2在准确度和写实度上区分优化了71.7%和88.8%，在画质上更是获取了质的飞跃。举例来说，初代DALL·E图片像素只要256×256，而DALL·E2像素可达1024×1024，分辨率更胜一筹，提前也变得更低。

就像雷同的文本形容“a painting of a fox sitting in a field at sunrise in the style ofClaude Monet”（一幅狐狸在日出时坐在旷野里的画，莫奈格调），在两代系统中生成的图片体现就有显著差异。直观来看，左边（DALL-E1）像毛糙的卡通画，而且糊作一团，左边（DALL-E 2）的明晰度显著优化，且真正有了油画的质感。

图源：OpenAI官方

而且，DALL-E 2还新增了两个配置——“图像修补”（ inpainting）和“变体”（variations），可以用于编辑和润饰图片。

“图像修补”就是部分变卦现有图片中的一部分。详细来说，就是经过DALL·E2用AI生成的图像填充或交流图片中的单个对象，同时和原图无缝衔接，比如将沙发上的抱枕换成一只小狗，或在水池中放一只玩具鸭子。

图源：OpenAI官方

“变体”是指以一张图像为蓝本，从新发明出不同角度不同格调的新图像。用户可以在上行一张原始图片后对其启动各种格调变动，还可以将两张图片上的对象启动叠加生成新图。

图源：OpenAI官方

打破与应战：以假乱真的图片是如何生成的

此次 Open AI 推出的新版本 DALL-E 2 是基于名为CLIP的计算机视觉系统而建设的。CLIP接受了数亿张图像及其相关题目的训练，了解给定文本片段与图像的关联水平。

值得关注的是，OpenAI经过对 CLIP 启动迭代，创立了“unCLIP”——一个基于形容并朝着图像生成指标运转的新系统，同时将其用于 DALL-E2。unCLIP可以部分完善 CLIP 的无余之处，即“人们可以经过给物体恤上一个示意其余物品的单词，来诱使系统失误地识别所看到的内容”。

举个例子，假设教给系对抗个称号失误的对象，比如一张标签称号是“汽车”的飞机图片，那么之后当用户想要生成“汽车”的图像时，兴许就会生成一张飞机的图像。这个环节就像和一个学了错词的人交谈一样。在这一点上，unCLIP的体现要比CLIP 杰出得多。

同时，新系统支持分散模型（DiffusionModels），这种程序会先从随机点构成的图案开局，一旦取得更详细的形容重点后，会渐近地转变成图片。其长处在于可以生成高品质的分解图像，尤其在与疏导技术联合经常使用时，能够在保真度上权衡多样性。

不过，虽然文本生成图片的相关钻研不时在提高，但一直有不尽善尽美的中央，就像DALL-E 2雷同会被其训练中的盲区所限度。

比如，你在DALL-E 2中输入经过学习图像与正确标签而了解的“猴子”，它会生成不少无心思的猴子图像。但假设你输入“吼猴”（howlermonkey），同时它又没学会“吼猴”是什么，不知道这其实是一个物种称号。那么DALL-E2会给你它所以为的最优结果——一只在大吼大叫的猴子。就目前来看，DALL-E 2的后劲和局限雷同突出、雷同明晰。

技术须要深究，兽性无法窥探

无心思的是，不时以来，Open AI 都没有完整地下过 DALL-E的模型。目前，用户可在其官方注册账号后预览该工具。相关钻研人员只示意，宿愿继续启动分阶段的环节，以便能安保地颁布这项技术。

虽然 DALL-E 2的造物令人目迷五色，但很多人已发觉到这项技术面前的隐忧。权且不论算法自降生以来就饱受诟病的成见疑问，光是其几可乱真的图片品质就可以让人心生忌惮。就像亚利桑那州立大学计算机迷信传授苏巴拉所说：“你可以用它来做善报，但你必需可以用它来做愈加疯狂的事情，包括深度伪造的照片和视频。”

似乎现在GPT-3被质疑用来消费假资讯一样，DALL-E2这样的图片生成工具也有或者遭到滥用。假设人人都可以不费劲地输入少量毫无违和感的假照片时，人人自危还会远吗？毫无不懂，“人们将不得不对他们在网上看到的简直一切物品持疑心态度。”

关于DALL-E2的外媒报道下，有读者切中时弊地指出：“假设这件事地下，最明智的做法是齐全脱离网络和电视，防止与那些想通知你在网络上看到什么物品的人有任何接触。假设未来全息影像成为干流，那么咱们将为子孙后辈发明一个反乌托邦式的天堂。”

对此，OpenAI也有了预判并示意，其将在继续构建 DALL-E 的同时应用包全性的战略来应答图像成见及失误消息等潜在疑问。这些措施包括：

DALL-E 2生成的图片会有一个水印，标记其来自人工智能。

DALL-E 2 是基于挑选掉不良资料后的数据所训练进去的。理想状况下已限度了其发生有害内容的才干。

反滥用配置，使DALL-E 2不能经过名字轻易生成可被识别的人物脸孔。

用户不得在该工具“上行或生成恼恨符号、裸体、淫秽手势及与正在出现的严重地缘政治事情无关的诡计或评论”。

用户需说明人工智能为生成图像所做的变动，且不能借由软件及网站将生成的图像给到其他人。

虽然不知功效如何，但至少DALL-E 2如今还被锁于“深匣”之中。当然，须要抵赖的是，DALL-E 2弱小的才干准许人们经过以前齐全无法成功的形式用图像表白自己，在此之前，没人知道“长的像牛油果的椅子”“弹吉他的北极熊”“达利格调的地面花园”“留着莫西干头的蒙娜丽莎”是什么样，如今DALL-E2却让这一切都以迫近事实的方法呈如今群众眼前。同时，DALL-E2也协助人们明确，一个复杂的人工智能系统如何观察和了解咱们的环球，关于研发一个有用且安保的AI，这一点至关关键。

参考链接：

DALL E 2 人工智能

<<提高数据可视化成果的五个准则

唯快不破！面向极限紧缩的全二值化BiBERT ICLR 2022>>

疯狂在左 算法在两边 理性在右

DALL-E 2：画质飞升，新增二次创作配置

打破与应战：以假乱真的图片是如何生成的

技术须要深究，兽性无法窥探

您可能还会对下面的文章感兴趣：

随便看看

疯狂在左算法在两边理性在右