热门资讯> 正文
2025-09-03 14:29
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:量子位)
但这类模型在实际应用中始终面临两大难题:一是“牵一发而动全身”,即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓慢,难以满足实时交互的需求。
模型与代码均已开源,具体链接可见文末。
多尺度量化编码
:将图像表征
编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ,其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递增;融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和,表示为
视觉自回归预测
:基于源图像和文本指令条件,使用VAR Transformer主干网络对目标图像的多尺度残差视觉令牌序列进行预测,其概率函数为
。其中,主干网络预测
对应输入的视觉连续特征为经空间规模下采样对齐的融合特征
设计VAREdit的一个核心挑战是如何将源图像信息引入主干网络中,作为目标尺度生成的参考信息。
智象未来团队首先探索了两种组织方案:
全尺度条件
:将源图像的所有尺度融合特征
作为主干网络输入连续特征前缀。
最大尺度条件
:将源图像的最大尺度融合特征
作为主干网络输入连续特征前缀。
该策略虽能缩短序列缓解计算压力,但会造成尺度不匹配;仅依赖最细粒度参考时,模型在预测粗粒度残差时往往难以适应,在预测粗粒度目标尺度残差的情形下尤其。
尺度对齐参考模块
对全尺度条件模型的自注意力分析发现:
在首层,注意力分布范围广,主要集中于较粗尺度特征,用于建立整体布局和长程依赖;
而在更深层,注意力逐渐局部化,呈现明显的对角结构,说明其功能已转向空间邻域的细化与局部优化。
上述探索促使智象未来提出一种混合方案——尺度对齐参考(SAR)模块:在第一层提供多尺度对齐参考,后续层仅关注最细尺度特征。
具体做法是在最大尺度条件模型中,将第一个自注意力层中的源图像条件输入进行各尺度匹配的下采样操作,得到对应尺度的参考特征
随后,在计算第k个目标尺度对应的自注意力表示时,由
替代
参与Key和Value的计算即可。
通过上述SAR模块优化,使得VAREdit能够更好地捕捉源图像与目标图像之间的多尺度依赖关系,同时实现最大尺度条件模型的生成效率。
基准测试表现出色
其中,VAREdit-8.4B在GPT-Balance指标上相较于ICEdit和UltraEdit分别提升41.5%与30.8%,而轻量级的VAREdit-2.2B也取得了显著提升。
在速度上,VAREdit同样优势明显。
值得一提的是,引入SAR模块后,模型在精准性指标上进一步提升,凸显其优化价值。
GitHub: https://github.com/HiDream-ai/VAREdit
在线使用: https://huggingface.co/spaces/HiDream-ai/VAREdit-8B-1024
论文链接:https://arxiv.org/pdf/2508.15772