[코드 실행] text-to-audio 모델 AudioLDM으로 실험하기

2023-08-04 최대 1 분 소요

내용: video dataset 조사한 것 중에 하나 선택해서 video caption을 input으로 했을 때 audio 결과가 어떤지 audioldm 모델로 결과 뽑고, video(caption에 해당하는)랑 audio(audioldm모델로 뽑은 결과) 를 합쳤을 때 두개가 sink가 얼마나 잘 안 맞는지 확인하기.
과정
1. audioldm 환경 설정 & 실행
```
 # Optional
 conda create -n audioldm python=3.8; conda activate audioldm
 # Install AudioLDM
 pip3 install audioldm
        
 ### Text-to-Audio Generation: generate an audio guided by a text
 # The default --mode is "generation"
 audioldm -t "A hammer is hitting a wooden surface" 
 # Result will be saved in "./output/generation"
```
  GitHub - haoheliu/AudioLDM at dda0f54ab283ecdc1fe94ffc3182236cb8c343bf
  - Input Text: A hammer is hitting a wooden surface
  - Output Audio (generated audio):
2. Video Dataset: Webvid에서 Video 4개 선정하고, Video의 caption을 넣고, Audio 생성
  - Input Text: Travel blogger shoot a story on top of mountains. young man holds camera in forest.
    - video
    - generated audio
  - Input Text: Horse grazing - seperated on green screen
    - video
    - generated audio
  - Input Text: City traffic lights. blurred view
    - video
    - generated audio
  - Input Text: Young woman flexing muscles with barbell in gym.the coach helps her.
    - video
    - generated audio

[논문 정리] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

2023-08-29 7 분 소요

https://arxiv.org/pdf/2308.07926.pdf

[논문 조사] Audio 2개를 mixing하거나, 이어붙이거나, 중첩시켜서 input으로 사용하는 생성모델 논문 조사

2023-08-28 3 분 소요

아래와 같이 세 가지 모델들을 찾아봤는데, 여러 오디오가 중첩된 비디오에서 오디오를 분리하는 과정(Audio separation)의 역과정에 대한 논문, 즉, Audio separation의 역과정인 분리된 오디오로 여러 오디오가 중첩된 비디오로 생성하는 모델은 현재까지 찾아본 바...

[논문 정리] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

2023-08-25 7 분 소요

오늘은 StableVideo 논문을 읽어보고자 한다. 이 논문은 텍스트 기반으로 비디오를 수정하는 분야를 다룬 논문이다. 논문의 목적과, 모델 구조를 중심으로 정리하였다.

[논문 정리] Text Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

2023-08-22 4 분 소요

JIBIN SONG

[코드 실행] text-to-audio 모델 AudioLDM으로 실험하기

공유하기

댓글남기기

참고

[논문 정리] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

[논문 조사] Audio 2개를 mixing하거나, 이어붙이거나, 중첩시켜서 input으로 사용하는 생성모델 논문 조사

[논문 정리] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

[논문 정리] Text Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion