热门资讯> 正文

图像编辑太慢太粗糙？全新开源自回归模型实现精准秒级修改

2025-09-03 14:29

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：量子位）

但这类模型在实际应用中始终面临两大难题：一是“牵一发而动全身”，即便只想修改一个细节，系统也可能影响到整个画面；二是生成速度缓慢，难以满足实时交互的需求。

模型与代码均已开源，具体链接可见文末。

多尺度量化编码

：将图像表征

编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ，其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递增；融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和，表示为

视觉自回归预测

：基于源图像和文本指令条件，使用VAR Transformer主干网络对目标图像的多尺度残差视觉令牌序列进行预测，其概率函数为

。其中，主干网络预测

对应输入的视觉连续特征为经空间规模下采样对齐的融合特征

设计VAREdit的一个核心挑战是如何将源图像信息引入主干网络中，作为目标尺度生成的参考信息。

智象未来团队首先探索了两种组织方案：

全尺度条件

：将源图像的所有尺度融合特征

作为主干网络输入连续特征前缀。

最大尺度条件

：将源图像的最大尺度融合特征

作为主干网络输入连续特征前缀。

该策略虽能缩短序列缓解计算压力，但会造成尺度不匹配；仅依赖最细粒度参考时，模型在预测粗粒度残差时往往难以适应，在预测粗粒度目标尺度残差的情形下尤其。

尺度对齐参考模块

对全尺度条件模型的自注意力分析发现：

在首层，注意力分布范围广，主要集中于较粗尺度特征，用于建立整体布局和长程依赖；

而在更深层，注意力逐渐局部化，呈现明显的对角结构，说明其功能已转向空间邻域的细化与局部优化。

上述探索促使智象未来提出一种混合方案——尺度对齐参考（SAR）模块：在第一层提供多尺度对齐参考，后续层仅关注最细尺度特征。

具体做法是在最大尺度条件模型中，将第一个自注意力层中的源图像条件输入进行各尺度匹配的下采样操作，得到对应尺度的参考特征

随后，在计算第k个目标尺度对应的自注意力表示时，由

替代

参与Key和Value的计算即可。

通过上述SAR模块优化，使得VAREdit能够更好地捕捉源图像与目标图像之间的多尺度依赖关系，同时实现最大尺度条件模型的生成效率。

基准测试表现出色

其中，VAREdit-8.4B在GPT-Balance指标上相较于ICEdit和UltraEdit分别提升41.5%与30.8%，而轻量级的VAREdit-2.2B也取得了显著提升。

在速度上，VAREdit同样优势明显。

值得一提的是，引入SAR模块后，模型在精准性指标上进一步提升，凸显其优化价值。

GitHub: https://github.com/HiDream-ai/VAREdit

在线使用: https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024

论文链接：https://arxiv.org/pdf/2508.15772

图像编辑太慢太粗糙？全新开源自回归模型实现精准秒级修改

推荐文章

港股周报丨阿里重磅利好！周内暴涨14%；北水单周净买入港股608亿港元环比骤增8成

一周财经日历 | 万众瞩目！9月美联储利率决议来袭；三只港股新股即将上市

美股机会日报 | 金价年内或触及3800美元？国际大行集体唱多黄金！超微电脑涨超5%

能否赶上美联储下周议息会议？美参院就米兰理事提名表决时间定了

港股异动 | 重磅利好！阿里涨近7%，百度涨超6%

华盛早报 | 创近4年新高！阿里大涨8%；外资热情势不可挡！大摩：超九成美国投资者愿加仓中国资产

美股机会日报 | 美国8月CPI符合预期，初请失业金人数创近四年新高！“网红股”Opendoor股价大涨超30%

万亿南向“活水”疯狂抢筹！重仓阿里巴巴逾1200亿港元，如何抄“聪明钱”的作业？