一个LoRA实现GPT-4o级图像编辑,浙大哈佛新模型冲上Hugging Face榜二

日期: 2025-10-14 08:06:52|浏览: 3|编号: 154085

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

项目主页:

代码仓库:

Face演示:

在数据规模及编辑效能方面,同顶尖模型进行对照;仅以五万数据量进行训练,便获得了与一千万训练量相近的效果。

在 face上爆火,登上趋势榜前五,引一众大V转发。

(DiT)文生图模型,包括SD3和FLUX.1 dev等,凭借其出色的可扩展性、对长文本含义的深刻把握以及产出的高水准图像,正日益受到研究者的青睐,被选作基础平台执行各类图像创作任务,本篇研究亦利用DiT多模态大模型,着重考察其在图像修改方面的潜力。

科研人员注意到,当让DiT模型借助一种关联性描述来生成并排展示同一人物的两幅图像时,例如「一幅包含两张并排呈现同一男性的双联作品,左侧是一张该男性直立的照片,右侧是他怀抱篮球的影像」,由此得到的左侧图像与右侧图像会表现出非常显著的主体识别一致性,这一特点已被许多研究项目利用来构建特定用途的数据集合,例如UNO等。

加入编辑方面的要求到背景信息里,模型能够准确把握编辑方面的要求,进而生产出符合要求的内容。

而如果再深入探讨,比如设定一个指令是「让这个男士拥抱着篮球」,直接提供给模型他无法明白怎样生成,然而当这个指令被融入上下文提示词里,就变成了「一幅包含两张并排摆放的同一男士的图画,左右两幅画面各自展现同一个男士。」左侧是一张该男士直立的照片,右侧是同一位男士,不过他正以臂环抱篮球,此时科研人员发现系统可领会指令并输出相仿形态抱着球的结果。此外若对「让男士以臂环抱篮球」进行可视化处理,其注意力图亦能显现

针对这个语句,模型确实识别出需要修改的部分,表明它已经领会了编辑的要求。

另外,将该技术同GPT4o等众多商业型大型模型进行对照,虽然于语义解析、修订多样性方面尚存不足,不过此模型在人物身份的持续把握、非编辑部分的不变以及指令的遵循方面表现非常突出,甚至在某些方面超越了GPT4o及同类商业型大型模型。

这个模型同商业化的产品相比,具有更高的开放性,成本费用也更为低廉,运行效率更为出色,仅需八到十秒就能处理一张图像的修改工作,其性能确实令人瞩目。

图像编辑模型与一众商业大模型的编辑结果对比。

两种免训练的基于上下文理解的图像编辑框架

正如前文所述,尽管该系统能领会修改要求,它依然在从事文字到图像的转换,对原输入图样毫无认知,因此依旧不能执行图像的调整,这种情况怎样应对呢?

因此,作者探索了两种无需训练的方案,目的是让DiT模型既能接收参考图像,也能依据上下文编辑指令完成图像的修改工作

两种免训练指令编辑框架

首个体系运用了文生图DiT方法,这个体系的步骤较为复杂,概括而言就是先对需要修改的图形实施图像逆向处理,并且将逆向期间模型内部的图形特性加以保存,以便接下来实施信息输入,这个过程和RF--Edit的方法相似。

处理完图像的逆向操作所得出的含有杂讯的图形,将与一个同样大小尺寸的随机设定杂讯组合,构成一个杂讯并排组合的图像,此图像将用于消除图形中的杂讯。

去噪时,输入的提示词结合了编辑要求,例如「一幅并排展示两位相同男士的画作……两位男士,但 {让其中一位手持篮球}」。去噪期间,左侧的杂乱图像会持续注入原始画面的特征信息,右侧的杂乱则不受影响。最终生成的图像,左侧会复原成原始画面,右侧则会根据提示词生成编辑后的版本,即男士手持篮球的画面。

另有一个无需训练的架构,它以 DiT(图像补全,比如 FLUX.1 Fill)为基础,这个架构相当精简,编辑目标图像时,只需把图片放在双联图的左边,右边全部设定为空白区域,输入的提示信息依然包含编辑指令的上下文,能够看到最终呈现的是经过修改的图像。

整体而言,这两种结构的主要目标在于使模型能够识别参照图像,并依据周围环境信息执行修改操作,尽管它们产生了令人满意的调整结果,不过从画面中能够发现,那个抱着球的人的编号出现了些微变动,那个手持罐头的人的体态也产生了不同,合格作品的占比仍然偏低。

混合专家LoRA微调与test-time 大幅提升性能

尽管无需训练的方案表现仍然不理想而且适用范围有限,不过它借助后续的调整能够改善工作成效。

作者考虑到框架的精简性,选用互联网上公开的编辑数据集(规模达9k至40k)实施LoRA微调,微调方法较为直接,核心是将数据集中的编辑指令统一转化为固定的上下文指令格式,具体表现为「一张双联画,展示两张并排的同一场景图像,右侧画面与左侧完全一致,然后附加 { 编辑指令 }」。

作者察觉到经过细致调整,模型修正的效果显著增强,同时也可推广至众多非原有数据集的图像修改任务中。

但是作者察觉到,仅运用常规的lora,在各个编辑任务中的成效并不理想,同时部分任务例如风格调整等,其编辑成效欠佳。

作者觉得,这是由于各种编辑任务需要不同的特征处理方式,而一个LoRA很难掌握所有编辑类型的处理技巧,所以使用多个LoRA专家进行混合训练,可能是提升编辑成效的关键点。

作者参考了在大型语言模型领域有显著贡献的MoE技术,将该技术应用于DiT多模态大模型,同时把LoRA调整为不同的专家进行训练,最终成功构建了该模型。

即便模型采用了MoE与LoRA相结合的方式,其训练参数数量仍然远远低于当前顶尖模型(0.2B对比17B)。

表1:模型参数量和性能对比

表2:训练数据量和性能对比

表3 通过LoRA进行微调,性能大幅度超越free版本,进一步应用MoE架构,表现得到持续增强

训练阶段完成后,推理环节中模型的效能是否仍存在改进余地?研究者注意到,采用不同的随机初始扰动,模型会得出各异的修改方案,其中部分方案表现优异,另一些则不尽如人意,怎样促使模型自主且高效地创造出最优方案供使用者选用?

针对初始噪声导致编辑结果差异的难题,研究者提出了针对图像处理场景的预判推理阶段扩展方法,命名为即时检测方案。

这些流行的文生图模型,例如FLUX和SD3,都属于DiT架构,它们普遍运用流匹配方法进行训练,因此仅需少量的推理步骤,就能迅速生成高品质的图像,其过程如同直线运动一般高效,同时也有不少研究致力于开发能够实现单步图像生成的DiT模型。所以,作者打算借助最初的几个步骤来评估初始噪声生成的质量是否符合编辑标准,若不符合,就立刻跳过,去审视下一个备选方案。

Early time

该案例希望将天空转变为夜晚景象,部分声音样本在最初的四步中呈现黎明特征,即便经过全部五十步的推演,其状态仍为黎明,无法达到编辑标准,因此可以借助视觉语言模型充当裁判,在前期阶段就筛除这种不符合要求的样本,从而减少不必要的推理步骤。

而且,VLM能够择优而用,即便多个方案都实现了天色由白转黑的转变,但某个版本中天空还有星星闪烁,这种景象更契合夜晚的意境,VLM仍会将其判定为更佳方案并保留。

VIE-Score评估表明运用时间策略实现了显著的进步,效果非常明显

作者对比了应用-time策略和直接随机生成的效果,借助基于GPT4o的VIE-score进行评估,这种评估方式更贴近人类的选择倾向。实验结果显示,应用该策略之后,VIE-score显著提高,其水平甚至能够和(3月份版本)相提并论。

在非精确评估方面,同其他范例进行的定性分析也表明了其更出色的修订能力,无论是对于指令的执行程度、背景信息的维持情况,还是人物身份信息的保留效果而言。

另外,作者所倡导的技术方案借助外部附加MoE-LoRA组件达成,并未对DiT模型的固有制作本领进行更动,所以它展现出优越的适应性,并且能够利用DiT的内在优势促成更为协调逼真的修饰成果,诸如自动配置暗影、光泽、文字格调等。

借助DiT自身生成能力能产生更加和谐的编辑效果

不仅如此,这个系统也可以视为一种创新的图像转换架构,借助专门的数据训练,它还能处理部分基础层面的工作。研究人员测试了无需额外学习就能适应特定应用的情况,例如调整图像亮度、消除数字标识、进行缺陷修补等操作。

这个体系可视为一种通用的图像转换工具,能够处理各种后续应用场景

参考资料:

提醒:请联系我时一定说明是从夜讯箱包皮具网上看到的!