[논문 조사] Audio 2개를 mixing하거나, 이어붙이거나, 중첩시켜서 input으로 사용하는 생성모델 논문 조사

2023-08-28 1 분 소요

아래와 같이 세 가지 모델들을 찾아봤는데, 여러 오디오가 중첩된 비디오에서 오디오를 분리하는 과정(Audio separation)의 역과정에 대한 논문, 즉, Audio separation의 역과정인 분리된 오디오로 여러 오디오가 중첩된 비디오로 생성하는 모델은 현재까지 찾아본 바로는 아직 없는 것 같다.

Untitled 6
VAST: Video-Audio Separation through Text

1. Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects

Papers with Code - Music Mixing Style Transfer: A Contrastive Learning Approach to Disentangle Audio Effects
Untitled

여러 오디오 트랙을 입력 받고, 스타일이 변형된 오디오를 생성해주는 구조이다.
아래 링크의 AUDIO SAMPLES를 통해 합성 결과를 확인할 수 있다.
MUSIC MIXING STYLE TRANSFER: https://jhtonykoo.github.io/MixingStyleTransfer/

2. Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation

Papers with Code - Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation

텍스트를 입력 받았을 때, 사운드와 함께 비디오를 생성해주는 모델이다.
찾고자 하는 두 가지의 오디오를 합치는 부분은 없지만, 오디오와 비디오를 함께 생성해주는 부분이 하고자하는 프로젝트와 유사하여 가지고 왔다.
아래 링크의 Sounding Video Samples 부분을 통해 Sample를 확인할 수 있다.
https://github.com/jwliu-cc/svg

3. MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images

Papers with Code - MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images

이 모델은 텍스트를 입력 받았을 때, cinematic-picture (3072×1280), film-style (multi-scene), and multi-modality (sounding) movies를 생성해주는 모델이다.
즉, 텍스트를 입력 받았을 때, 영화를 생성해주는 모델이다.
직접적으로 여러 오디오가 합쳐진 데이터를 입력 받지는 않지만, 아래 그림과 같이 텍스트 스크립트를 기반으로 비디오를 생성하고, 비디오 클립에 해당하는 오디오 부분을 검색(retrieve)를 통해 가져온다.
샘플 영상은 아래 링크를 통해 확인할 수 있다.
https://www.youtube.com/watch?v=tvDknhMFhzk

4. 기타: 오디오-비디오 관련 연구를 리뷰한 논문

Learning in Audio-visual Context: A Review, Analysis, and New Perspective
https://arxiv.org/pdf/2208.09579.pdf

오디오-비디오 관련 연구를 크게 3가지로 나누어 분석한 논문이다.
1. Audio-visual Boosting
2. Cross-modal Perception
3. Audio-visual Collaboration

Audio-visual Boosting (Semantic Consistency)
1. Audio-Visual Recognition
  - Speech Recognition
  - Speaker Recognition
  - Action Recognition
  - Emotion Recognition
2. Uni-modal Enhancement
  - Speech Enhancement
  - Speech Separation
  - Sound Separation
  - Face Super-resolution and Reconstruction
Cross-modal Perception (Spatial Consistency)
1. Cross-modal Generation
  - Mono Sound Generation
  - Spatial Sound Generation
  - Video Generation
  - Depth Estimation
2. Audio-visual Transfer Learning
3. Cross-modal Retrieval
Audio-visual Collaboration (Temporal Consistency)
1. Audio-visual Representation Learning
2. Audio-visual Localization
  - Sound Localization in Videos
  - Saliency Detection
  - Audio-visual Navigation
3. Audio-visual Event Localization and Parsing
4. Audio-visual Question Answering and Dialog