[논문 조사] Dreambooth와 같이 Subject를 유지하면서 Video 생성하는 논문 있는지 조사
1. Dreambooth 구조 ⇒ for customizing
[논문 리뷰] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
-
Fine-Tuning Text-to-Image diffusion
- low-resolution text-to-image model을 fine-tuning한다.
- input image와 text prompt(“A photo of a [T] dog”) 쌍으로 diffusion model을 fine-tuning한다.
- text prompt는 unique identifier([T])와 class name(dog)으로 구성된다.
-
class-specific prior preservation loss 적용
- 클래스 이름을 text prompt에 넣어도 (e.g., “A photo of a dog”) dog라는 클래스 prior가 유지될 수 있도록 위의 fine-tuning과 함께 학습한다.
- input image와 text prompt(“A photo of a [T] dog”) 쌍으로 diffusion model을 fine-tuning한다.
- super resolution components를 fine-tuning하여 높은 해상도 이미지를 얻는다.
-
input images set의 low-resolution과 high-resolution image쌍으로 fine-tuning
⇒ 작은 디테일에 대한 높은 정확도 유지 가능
-
- low-resolution text-to-image model을 fine-tuning한다.
-
Inference
- unique identifier를 다른 문장들에 넣고, personalized text-to-image 모델을 통해 이미지를 생성한다.
2. 논문 조사:
-
Dreamix: Video Diffusion Models are General Video Editors
-
Animate-A-Story: Storytelling with Retrieval-Augmented Video Generationd
- DreamBooth-V
-
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts
-
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
-
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
-
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
댓글남기기