최대 1 분 소요

1. Dreambooth 구조 ⇒ for customizing

[논문 리뷰] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

  • Fine-Tuning Text-to-Image diffusion

    image

    1. low-resolution text-to-image modelfine-tuning한다.
      1. input imagetext prompt(“A photo of a [T] dog”) 쌍으로 diffusion model을 fine-tuning한다.
        • text promptunique identifier([T])class name(dog)으로 구성된다.
      2. class-specific prior preservation loss 적용

        image

        • 클래스 이름을 text prompt에 넣어도 (e.g., “A photo of a dog”) dog라는 클래스 prior가 유지될 수 있도록 위의 fine-tuning과 함께 학습한다.


    2. super resolution components를 fine-tuning하여 높은 해상도 이미지를 얻는다.
      1. input images set의 low-resolution과 high-resolution image쌍으로 fine-tuning

        ⇒ 작은 디테일에 대한 높은 정확도 유지 가능


  • Inference

    image

    • unique identifier를 다른 문장들에 넣고, personalized text-to-image 모델을 통해 이미지를 생성한다.


2. 논문 조사:

댓글남기기