胡启滨科研周报12(2023-12-18至2023-12-24)

1. 摘要

本周主要是在补课程的大实验,阅读了两篇论文Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors和Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation。

2. 具体内容

2.1 Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

2.1.1 Contribution

针对此前text to 3d任务关注将2d生成模型升维到3D空间,并没有结合3D先验的情况。这篇工作结合2D diffusion和3D diffusion的先验, 能使生成的3D模型具有3D结构的高FID以及2D丰富的纹理信息。同时生成时间也从prolificdreamer的3.4h缩短到20min。

2.1.2 Method

图1. BiDiff Pipeline

整个过程主要分为两大步骤:1.从3D Diffusion生成模型渲染出2D图片作为2D Diffusion降噪的guidence,从2D Diffusion中渲染的多视图作为3D Diffusion的guidence,这个过程体现了双向扩散。2.用3D Diffusion生成的SDF和2D Diffusion生成的多视图转化成Instant-ngp再进行进行后续SDS Loss优化。

Bidirectional Diffusion

3D Diffusion Model with 2D Guidance

2D Diffusion Model with 3D Guidance

Separate Control of Geometry and Texture

Optimization with BiDiff Initialization

2.1.3 Results

图2. 和Prolificdreamer的比较

2.2 (TICD)Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

2.2.1 Contribution

TICD主要是对此前的SDS Loss进行了改进,此前的SDS Loss仅仅是对从NeRF中渲染出的图片与2D Diffusion基于text prompt生成的图片的Loss对NeRF进行优化,TICD则在此基础上新加了多视图条件,也就多了LSDSimageL_{SDSimage}。能够实现精细的视图连续性和清晰的几何结构。

2.2.2 Method

图3. TICD Pipeline

从Pipeline可以看出,相对于此前Text to 3D任务,TICD中新加了下面的Image Conditioned Module,也就多了这个模块的Loss,整个SDS Loss就变成了

其中,λt\lambda_tλi\lambda_i是两个Loss的权重。

2.2.3 实验结果

图4. 和其他Text to 3D方法的对比

3. 存在的问题

  1. 这周还是在做课程实验,代码这方面跑的少。
  2. 还没有系统研究过目前Text to 3D任务的代码框架,现在只是大概了解每个模块能干些啥

4. 下周规划

  1. 看到NUS有一位老师就在这周系统地讲了video diffusion model,一个3小时的视频【视频扩散模型,三小时入门到精通,Mike Shou, Video Diffusion Models, 2023】,想在下周结合他的视频以及相关论文把video diffusion方向入门一下。
  2. 课程实验工作量有点大,还没干完,得继续弄。