918博天堂(中国)

918博天堂(中国)BIGAI

用多模态技术革新AI知识编辑,让918博天堂(中国)模型更懂真实世界

MMKE-Bench 多模态知识编辑的新基准

论文地址:http://openreview.net/forum?id=v8qABSeeKO


共同第一作者:蒋凯林,杜云涛;共同通讯作者:郑子隆,李庆

在ICLR 2025上,蒋凯林提出了MMKE-Bench基准,致力于解决大语言模型和多模态模型在知识更新与编辑上的局限。随着现实世界信息的快速变化,模型中的知识容易过时或出错。例如,2023年的模型可能无法准确回答“Hinton是否获得诺贝尔奖”等问题。知识编辑技术应运而生,旨在以最小成本修正模型中的错误信息并注入新知识,同时确保其他内容不受影响。

图:918博天堂(中国)模型是静态的,存在知识过时和失准问题现有的知识编辑基准主要针对实体级知识,通常以简单的三元组形式呈现,例如“中国的首都是北京”。然而,这种格式在现实应用中显得过于单一,难以应对复杂场景。日常知识多以自然语言表达,常涉及多条相关知识的综合;而在多模态领域,视觉知识还需涵盖动作、手势及物体关系等复杂元素。


针对这些问题,蒋凯林及团队构建了MMKE-Bench,一个全面的多模态知识编辑评估基准。该基准采用自然语言描述与图像配对的方式,提供更丰富、灵活的知识表达。MMKE-Bench涵盖三类编辑:视觉实体编辑、视觉语义编辑和用户特定知识编辑。
1. 视觉实体编辑:专注于更新以实体为中心的视觉知识。例如,将足球运动员伊布(Ibrahimović)的图像替换为鲁尼(Rooney)的图像,并将相关信息(如国籍、俱乐部等)更改为与事实不符的内容。

2. 视觉语义编辑:针对复杂的物体行为和关系进行修改。例如,将足球中的越位动作替换为换人动作,并将相关规则(如开球位置)修改为反事实内容。

3. 用户特定知识编辑:向模型中注入用户的个性化信息。例如,用户最喜欢的歌手、宠物等个性化信息。

图:MMKE-Bench的概览图

MMKE-Bench 构建过程与挑战

在构建MMKE-Bench时,蒋凯林面临诸多挑战。现有学术数据多局限于实体层面,缺乏对视觉知识的多样性覆盖。为此,他与导师深入探讨,决定不仅收集实体数据,还纳入动作、表情、手势等视觉知识,以及隶属组织、就读大学等用户个性化信息。这一创新数据收集方式,为多模态知识编辑领域贡献了重要价值。

图:MMKE-Bench构建流程图

同时团队在三个代表性多模态918博天堂(中国)模型(BLIP2[1]、MiniGPT-4[2]和LLaVA-1.5[3]上,对五类主流算法(Fine-tuning, KE[4], MEND[5], SERAC[6], 和IKE[7])进行了测试。

图:MMKE-Bench的测试样例结果展示

实验结果表明:

1. 没有一种编辑方法在所有评价标准中均表现出色。

2. 视觉知识和用户特定知识对模型而言更难编辑。

3. 更先进的模型在应用编辑知识方面表现更佳。

4. MMKE-Bench比现有基准更具挑战性,能够更好地反映现实世界中的复杂知识编辑需求。蒋凯林及团队的研究提出了一个全面的多模态知识编辑基准 MMKEBench,旨在通过自然语言形式的表示来评估现实世界场景中的多种语义编辑任务。研究提出了三种编辑方式(视觉实体编辑、视觉语义编辑和用户特定编辑),以更好地适应现实场景的需求。通过对代表性多模态大模型和知识编辑方法的实验,发现当前方法仍存在局限性,亟需更先进的知识编辑技术来提升模型的表现。

将来 MMKEBench 能够为多模态知识编辑领域的研究提供新的方向和工具,推动该领域的进一步发展。未来的研究可以在此基础上探索更高效的编辑方法、更广泛的应用场景以及更鲁棒的评估机制,从而为多模态模型的实用化和智能化奠定坚实基础。

/参考文献 /

[1]. Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML, pp. 19730–19742, 2023a.

[2]. Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. Arxiv, 2023.

[3]. Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. In CVPR, pp. 26296–26306, 2024a.

[4]. Nicola De Cao, Wilker Aziz, and Ivan Titov. Editing factual knowledge in language models. ACL,2021.

[5]. Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, and Christopher D Manning. Fast model editing at scale. ICLR, 2022a.

[6]. Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D Manning, and Chelsea Finn. Memory-based model editing at scale. In ICML, pp. 15817–15831, 2022b.

[7]. Ce Zheng, Lei Li, Qingxiu Dong, Yuxuan Fan, Zhiyong Wu, Jingjing Xu, and Baobao Chang. Can we edit factual knowledge by in-context learning? EMNLP, 2023.

Facebook
Twitter
LinkedIn
Email