多模态-大语言模型研究
多模态-大语言模型研究
A briefly survey on large language model, multi-modal model
多模态-大语言模型成为当下最火热,也最具前景的研究方向,本文记录了该邻域的相关技术和研究。
[2023arXiv] DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content
摘要
本文探索了GPT-4的图像合成能力。本文构建了一个benchmark,用于评估GPT-4生成图像的纹理的保真度,比较了手工绘制图片和GPT-4生成版本。本文贡献如下:
- 对GPT-4的图像合成功能的保真度进行了深度分析,为业界首个。
- 定量和定性实验全面揭露了GPT-4在图像合成方面的局限性。
- 构建了一个手工绘画和GPT-4生成图像的独特benchmark,将一种新任务引入先进的AI生成内容保真度研究。数据集地址在:
https://github.com/rickwang28574/DeepArt
。
1 背景
生成应用:
- 修复设计
- 灵感和概念化的创造:艺术家可以使用文本到图像模型生成基于描述文本的视觉想法【文献12】
- 想法的快速原型:对于绘制者和设计师,由描述文字对概念和场景的视觉化可以极大的加速创造过程【文献13】
- 协助复杂构图:对于复杂设计和构造,从文字到图像的功能可以帮助艺术家快速可视化复杂场景或元素【文献14】
- 多样化艺术风格和技术:GPT-4提供了广泛的艺术风格和技术,使得艺术家可以探索除他们习惯外方法外的美术。
- 医学成像和可视化
- 在医学成像这个专门的领域,图像纹理的准确性和可靠性非常关键【文献22】。医学图像中包含精细细节和模式的纹理对于准确地诊断和理解不同医学条件非常关键。GPT-4在生成图像的细节上还有提升的空间,使其更好地适用于医学图像。
- 时尚设计和可视化:
- 对于时尚设计者而言,创造衣物、装饰品和概念化时尚设计的高细节和纹理视觉表示非常重要。
2 方法
作者构造数据集的pipeline如下图所示
整个过程将分成两个部分:
- 编码阶段:作者首先将丰子恺的图像输入GPT-4,得到图片描述。然后人工校准相关的描述,确保这些描述在遵循GPT-4输出的前提上具有足够的细节和适用性。
- 解码阶段:将编码阶段得到的描述输入GPT-4,利用其能力重建图像。
通过上述两个过程,将得到基准数据集。
3 实验
- 检查解剖学或透视中的异常。GPT-4难以处理复杂概念如人类解剖或透视学,如四肢不协调,面面部表情不自然,场景表现出不准确的视角。
- 一致性和细节水平。GPT-4这种统一性缺乏人类艺术特有的细微差别,缺乏人类艺术家自然带入作品的更多主题强调和选择性细节。
- 艺术错误与数字伪影。GPT-4生成的图像倾向于特定的数字伪影。
- 概念化理解:人类艺术家擅长于对背景的细致入微的把握,以及图像中不同元素相互作用和相互关联的复杂方式。这些深度理解使他们能够创造不仅在视觉上非常具有吸引力,在方式和连贯性上也非常丰富的图像。GPT-4生成的图像在主题、风格、逻辑上表现出不一致性,有损于人类创作作品的整体和谐感和目的感。这些差异突出了GPT-4在全面复制人类创作做细致入微的艺术感的局限性。
4 结论和讨论
本文主要聚焦在多模态模型从文本prompt生成图像的能力。主要聚焦在生成图像间纹理特征的保真度以及可识别的差异。采用人类视觉感知与特定评估指标对GPT-4生成图像质量进行评估,从而对AIGC有新的认识。