Lyra 2.0的技术原理是什么?Lyra 2.0 生成结果可重建为高保真 3D Gaussian Splatting 与表面网格,直接导出至 NVIDIA Isaac Sim 等物理引擎,为具身智能训练提供可交互的仿真环境。以下是小编为大家整理的Lyra 2.0的技术原理最新介绍,一起来看看吧!
1、生成式重建范式:结合相机控制视频扩散模型的视觉保真度与前馈 3D 重建技术,将单图+轨迹转化为可实时渲染的 3D 输出。
2、解耦几何路由与外观合成:维护每帧独立 3D 缓存(深度图+点云),仅用于检索历史帧和建立密集 3D 对应关系;实际像素合成仍由视频扩散模型的生成先验完成,避免渲染伪影传播。
3、规范坐标扭曲注入:将检索到的历史帧通过深度前向扭曲至目标视角,生成规范坐标图与深度图,经位置编码和 MLP 处理后注入 DiT 的自注意力层,提供精确几何对齐信号。
4、自增强抗漂移训练:用概率将训练中的历史隐变量加噪并通过单步去噪替换为近似重建,迫使模型在条件不完美时仍能恢复干净目标,缩小训练-推理分布差异。
5、FramePack 上下文压缩:采用可变核 patchification 对时间历史进行压缩,近帧细粒度、远帧粗粒度,在固定 token 预算内扩展有效上下文窗口。
6、微调前馈重建:基于 Depth Anything v3 改进高分辨率下的 Gaussian 预测密度,在 Lyra 2.0 生成数据上微调,提升对生成伪影的鲁棒性。
以上就是关于Lyra 2.0的技术原理是什么的详细介绍了,更多相关资讯,请持续关注本网站!