分歧性评价方法的探求 人工自动与人类情感的交汇点
近来,人工自动(AI)的迅猛开展使其在情感生成和评价畛域的运行逐渐成为钻研热点。AI技术尤其是生成反抗网络(GANs)和变分自编码器(VAEs),在图像生成方面取得了清楚停顿。但是情感生成的复杂性和客观性不时是一个应战。图像能够传播情感,但情感体验具备高度的团体客观性,尤其是在经过AI生成图像并试图传播特定情感时。
10 月 13 日arXiv 宣布的论文《LEVEL OF AGREEMENT BETWEEN EMOTIONS GENERATED BY ARTIFICIAL INTELLIGENCE AND HUMAN EVALUATION: A METHODOLOGICAL PROPOSAL》提出外围疑问在于评价人工自动生成的心情与人类评价之间的分歧性。详细而言,钻研团队旨在讨论在生成性人工自动工具(如StyleGAN2-ADA)生成图像的环节中,这些图像所传播的情感与人类对这些图像的情感反响之间能否存在清楚的分歧性。这一疑问的处置不只可以验证AI生成图像的情感传播成果,还可以为未来的AI情感生成和评价提供方法论依据。
钻研的目的包括训练生成性人工自动模型,经过Artemis数据集生成具备特定情感的景色图像,并经过在线问卷搜集人类对这些图像的情感分类数据。随后经过统计剖析评价人类评价者之间、评价者与AI生成情感之间的分歧性。这些剖析将有助于深化了解AI生成情感的牢靠性,并探求情感评价中的客观性要素。
钻研团队由来自智利和西班牙的学者组成,他们区分在各自畛域内具备丰盛的阅历和常识。Miguel Carrasco和Raúl Dastres区分来自智利圣地亚哥的Adolfo Ibañez大学工学院与迷信学院,César González-Martín和Sonia Navajas-Torrente则区分来自西班牙科尔多瓦大学的教育迷信与心思学学院、法学经济与商业学院。这样一个多学科的团队能够从多个角度片面地钻研和剖析人工自动在情感生成和评价中的运行。
他们的外围观念:
文献综述
在情感生成的实践背景中,图像被以为是一种强有力的情感传播工具。视觉艺术不时以来都经过色彩、形态、纹理等元历来唤起观众的情感共鸣。随着AI技术的开展,钻研人员探求了如何经过计算模型成功这种情感传播。StyleGAN2-ADA是其中一项关键的技术打破,它应用生成反抗网络生成高品质的艺术图像,并能够经过调整模型参数来传播特定的情感。该技术的灵敏性和生成图像的实在性使其成为钻研AI情感生成的关键工具。
但是,情感分类的复杂性和客观性依然是钻研中的严重应战。情感体验因人而异,不同集体对同一视觉抚慰或许有齐全不同的情感反响。情感分类模型的设计须要思考这一客观性要素。目前,情感分类的方法关键分为团圆情感模型和多维情感模型。团圆情感模型,如Ekman的基础情感实践,将情感分类为几种基本类型,如快乐、愤怒、悲伤等。多维情感模型,如Russell的情感圆环实践,则经过情感的愉悦度、激活度等维度来形容情感形态。这些模型各有优缺陷,团圆模型在实践运行中更具直观性,但难以涵盖复杂的情感体验;多维模型能够更粗疏地形容情感形态,但在实践运行中较难操作。
在情感生成和评价的钻研中,客观性一直是须要克制的难题。不同集体的文明背景、生存阅历、社会环境等要素都会影响其情感反响。因此,钻研人员在设计情感分类和生成模型时须要充沛思考这些要素,并经过宽泛的样本数据和多样化的评价方法来提高模型的泛化才干和准确性。经过不时优化和调整模型参数,结合多种情感分类方法,钻研人员宿愿能够在情感生成和评价中取得更高的分歧性和准确性。
这篇论文经过对StyleGAN2-ADA生成图像与人类评价的分歧性钻研,提醒了情感生成技术的后劲和面临的应战。钻研结果不只验证了AI生成情感图像的有效性,还为未来的情感生成和评价钻研提供了贵重的参考。
钻研方法
经过系统而详细的方法引见,钻研团队展现了他们在数据选用、预处置、图像生成及人类评价环节中的周密设计和谨严剖析。
图1:生成神经发生的心情评价环节的总体打算。该方法包括三个阶段:数据预备、建模和评价。
首先,数据预备阶段是整个钻研的基础。钻研团队选用了Artemis数据集和WikiArt数据集作为基础数据源。Artemis数据集由WikiArt数据集中失掉的80,031条记载组成,每条记载蕴含艺术作品的艺术格调、作品自身、注释者申明的情感、注释者的解释以及介入注释的注释者数量。钻研团队将重点放在与景色类别关系的记载上,这是由于景色类图像在情感传播中具备更普遍的了解度和接受度。接着,数据预处置是关键一步。钻研团队必定确保每一条记载的情感标签准确无误,并筛除掉那些没有关键情感的记载,以缩小数据的噪音和搅扰。最终钻研团队挑选出了9,750条有效记载,为后续的图像生成和情感分类奠定了松软的基础。
图2:生成网络生成的心情评价方法。在每个阶段,都有多个子阶段专门用于图像开发和评价。
接上去是图像生成与情感变体的设计。钻研团队选用了StyleGAN2-ADA作为关键工具。StyleGAN2-ADA是一种基于生成反抗网络(GANs)的图像生成工具,能够生成高品质且实在感极强的图像。为了生成合乎钻研需求的图像,钻研团队首先对景色图像启动了预处置,将其大小调整为256x256像素,以确保与神经网络的训练环节相兼容。在生成环节中,钻研团队生成了20幅基础景色图像,并为每幅图像创立了四种情感变体,区分为满足、文娱、恐怖和悲伤。这一环节不只须要高度的技术支持,还需对情感表白的深入了解和粗疏调整,确保每幅图像都能准确传播特定情感。
图3:StyleGAN2 ADA工具生成的艺术作品示例基于具备四个情感类别的景观数据集。一切图像都是全新的,训练集中没有相似的图像。
在人类评价阶段,钻研团队设计并实施了一个详细的在线问卷。问卷经过Google表单平台颁布,旨在搜集介入者对生成图像的情感分类数据。为了确保数据的宽泛性和多样性,问卷在2023年10月30日至11月30日时期开明。介入者需为每幅随机顺序出现的景色图像选用一个情感类别(满足、文娱、恐怖、悲伤)。介入者的平均年龄为30岁,其中包括33名男子和28名女性,关键来自工程技术和社会迷信畛域,70%的介入者具备钻研生或更高学历。这些人口统计数据的搜集和剖析,不只为钻研提供了丰盛的数据起源,也确保了却果的代表性和牢靠性。整个钻研方法的设计和实施展现了钻研团队在数据选用、预处置、图像生成以及人类评价方面的专业才干和迷信谨严。
图4:钻研介入者的社会人口学数据:箱线图年龄、性别男子、女性、国度、钻研地域、取得的最高钻研水平。对于钻研中经常使用的分组的更多消息将在结果局部启动回忆。
钻研团队将生成工具创立图像的标签作为参考,并将其与介入者的关键分类,即形式启动比拟。因此,钻研团队依据Eser和Aksu的一项钻研中经常使用多个分歧性指数的倡导,经常使用Cohen的Kappa系数Cohen来评价两个评价者之间的分歧性(AI形式)。与上一节中经常使用的Krippendorff的Alpha系数不同,Cohen的kappa系数只准许两个评价者之间启动剖析,因此在这种状况下,他们将经常使用生成工具生成图像所经常使用的形式和情感标签。经过这种方式,可以确定每张图像-评价者和生成工具之间的分歧性或分歧性水平(见图5中的环节示例)。
图5:mode和StyleGAN2 ADA工具之间的评价环节和协定。每团体对每张图片启动投票。而后为每个图像计算形式,以取得每个图像的代表性情感,并将其与生成工具生成的情感标签启动比拟。
另一方面,他们在这种新方法中提出了经常使用混杂矩阵,混杂矩阵通罕用于评价分类模型的功能。该环节的目的是将介入者在图像问卷中启动的分类与生成工具调配的标签启动比拟,将其分为四种心情。为了构建混杂矩阵,他们将实在类定义为由生成工具生成的类,将预测类定义为介入者的分类形式。还计算混杂矩阵的准确度、召回率和F1分数度量,以确定所取得的预测水平,就像它是一个分类疑问一样。经过Fisher测验,钻研团队经常使用性别(男女)、常识畛域(工程和技术-社会迷信)和教育水平(本科-钻研生)作为细分变量,比拟了不同集体从混杂矩阵中取得的准确度和召回率目的。他们选用比拟这些集体,由于他们占受访者的大少数,为剖析提供了一个具备代表性的样本。此外应用Jaccard指数,可以确定不同数据集之间泄露结果之间的交叉水平。
结果与剖析
在本钻研中,结果与剖析局部重点讨论了评价者之间的分歧性以及介入者与AI生成情感之间的分歧性,经过经常使用不同的统计方法启动了详细剖析。
首先,评价者之间的分歧性是经过Krippendorff’s Alpha系数启动剖析的。Krippendorff’s Alpha系数是一种用于评价多个评价者之间分歧性的统计目的。在情感分类的环节中,不同评价者对同一图像的情感评价或许会有差异。剖析结果显示,当情感分类为四种类别(满足、文娱、恐怖、悲伤)时,评价者之间的分歧性较低。这标明,情感评价具备高度的客观性,不同集体对同一图像或许发生不同的情感反响。但是,当情感分类简化为两类(侧面和负面)时,评价者之间的分歧性清楚提高。这一结果反映了情感评价中的复杂性和多样性,同时也标明,简化的情感分类或许更容易达成共识。
图6:与Jaccard的女性指数分歧的百分比低于75%。
在介入者与AI生成情感的分歧性剖析中,钻研团队经常使用了Cohen’s Kappa系数和Jaccard指数。Cohen’s Kappa系数用于评价两个评价者(在本钻研中为介入者和AI生成的情感标签)之间的分歧性。Jaccard指数则用于权衡两个汇合之间的相似性,即介入者选用的情感标签与AI生成的情感标签之间的重合水平。剖析结果显示,当情感分类为侧面和负面时,介入者与AI之间的分歧性较高,这与评价者之间的分歧性结果分歧。但是,当情感分类为四类时,分歧性清楚降落。这标明,虽然AI在生成图像时能够传播特定情感,但人类在评价这些情感时依然存在较大的客观差异。
值得留意的是,在剖析正负情感分类与四类情感分类的分歧性差异时,钻研发现,负面情感的分类分歧性普遍高于侧面情感。详细而言,介入者在评价负面情感(如恐怖和悲伤)时,与AI生成的情感标签分歧性较高,而在评价侧面情感(如满足和文娱)时,分歧性较低。这一发现或许反映出负面情感在视觉传播中的直观性更强,或许说负面情感更容易被不同集体分歧识别。
经过这些剖析,钻研不只提醒了AI生成情感与人类评价之间的分歧性状况,还强调了情感评价中的客观性应战。未来的钻研可以进一步讨论如何提高侧面情感的分类分歧性,优化AI生成情感的准确性和体现力。此外,参与评价者样本的多样性,以及结合更多的图像和情感类型,也将有助于更片面地理解和处置这一复杂疑问。
讨论
在这篇论文中,钻研团队探求了人工自动生成的情感与人类评价之间的分歧性,提醒了情感分类中的诸多应战。特意是负面情感分类的分歧性结果,展现了AI在传播特定情感方面的后劲和局限性。咱们重点讨论这些发现,并剖析情感分类中存在的客观性要素。
钻研发现,负面情感(如恐怖和悲伤)的分类分歧性普遍高于侧面情感(如满足和文娱)。这一现象或许有多方面的要素。首先,负面情感在视觉传播中的直观性较强,人类对负面情感的识别往往更迅速、更明白。负面情感通常随同着剧烈的生理反响,如惊慌、悲伤等,这些反响在视觉上容易捕捉和表白。因此介入者在面对负面情感图像时,能够更分歧地识别和分类。
另一方面,侧面情感的表白和识别则相对复杂。这或许是由于侧面情感的体现方式更多样,不同集体对侧面情感的体验和表白也存在差异。例如,满足和文娱这两种情感之间的界限在某些状况下或许会含糊,人类在分类时容易遭到自身情感体验的影响。此外,侧面情感的视觉特色或许不如负面情感那样显明,从而参与了分类的难度和客观性。
情感分类中的客观性还遭到多种要素的影响。文明背景、生存阅历、社会环境等都会对集体的情感反响发生影响。在本钻研中,虽然介入者来自不同国度、领有不同的教育背景和常识畛域,但样本规模和多样性依然存在局限性。例如,大少数介入者来自工程技术和社会迷信畛域,且70%具备钻研生或更高学历,这一特色或许影响了钻研结果的代表性和宽泛性。
钻研的局限性关键体如今样本规模和评价者多样性方面。样本规模较小,且评价者关键集中在某些特定畛域,限度了钻研结果的泛化性。为了在未来钻研中取得更具代表性的结果,钻研团队倡导扩展样本规模,归入更多不同背景、年龄层和畛域的介入者。此外钻研仅限于景色图像,不足多样化的视觉元素,未来可以结合更多类型的图像,如人脸、情境图等,以更片面地评价AI生成情感的准确性和分歧性。
未来的钻研方向还包括进一步优化情感生成模型,提高侧面情感的分类分歧性。例如,钻研可以探求结合多种情感分类方法,应用深度学习和大数据技术,不时调整和优化模型参数,以增强AI在情感传播中的体现力。此外,钻研团队还倡导深化剖析影响情感分类决策的关键视觉元素,如色彩、形态、纹理等,探求这些元素在情感表白中的作用,为未来的情感计算提供更丰盛的实践支持。
经过这些改良和扩展,钻研可以进一步推进AI在情感生成和评价畛域的开展,使其在实践运行中能够愈加有效地传播和识别情感,满足不同情境下的需求。这将为AI技术在情感计算、心思学、教育、医疗等畛域的运行带来新的机会和应战。(END)
参考资料:
本文转载自,作者: