多模态-大语言模型研究

多模态-大语言模型研究

A briefly survey on large language model, multi-modal model

多模态-大语言模型成为当下最火热,也最具前景的研究方向,本文记录了该邻域的相关技术和研究。

[2023arXiv] DeepArt: A Benchmark to Advance Fidelity Research in AI-Generated Content

摘要

本文探索了GPT-4的图像合成能力。本文构建了一个benchmark,用于评估GPT-4生成图像的纹理的保真度,比较了手工绘制图片和GPT-4生成版本。本文贡献如下:

1 背景

生成应用:

2 方法

作者构造数据集的pipeline如下图所示

image-20240426102221664

整个过程将分成两个部分:

通过上述两个过程,将得到基准数据集。

3 实验
4 结论和讨论

本文主要聚焦在多模态模型从文本prompt生成图像的能力。主要聚焦在生成图像间纹理特征的保真度以及可识别的差异。采用人类视觉感知与特定评估指标对GPT-4生成图像质量进行评估,从而对AIGC有新的认识。

Table of Contents