[Computer Vision] 5. Convolutional Neural Networks

2022-10-15 최대 1 분 소요

스탠포드대학에서 발표한 CNN 강의 영상을 듣고 자료를 정리했습니다.

Lecture 5 | Convolutional Neural Networks

CNN의 레이어에 대해 알아보자.

Fully Connected Layer

이미지 사이즈가 32 * 32 * 3 이라면,

input = 3072 * 1
weight = 10 * 3072
activation = 10 * 1

Convolution Layer

이미지 사이즈가 32 * 32 * 3 이라면,

input = 32 * 32 * 3 (3차원 구조 유지)
weight = 5 * 5 * 3 filter
activation map = 28 * 28 * 1

이미지의 depth와 filter의 depth가 같아야한다.

filter가 여러 개 사용하면 층이 생기고, 각자 다른 activation map (28 * 28 * N)을 생성한다.

1. Padding

CNN 연산 수행하기 전에 input 주변을 특정값으로 채워 늘리는 것

zero-padding
목적: input의 가장자리 정보 손실 문제를 막는다.

2. Stride

filter가 이동하는 간격

stride로 출력 데이터의 크기를 조절할 수 있다.

Pooling Layer

데이터의 공간적 크기를 축소시킨다.

pooling을 통해 모델의 전체 매개변수의 수를 줄일 수 있다.
Max-Pooling, Average-Pooling 등이 있다.

Twitter Facebook LinkedIn

[논문 정리] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

2023-08-29 7 분 소요

https://arxiv.org/pdf/2308.07926.pdf

[논문 조사] Audio 2개를 mixing하거나, 이어붙이거나, 중첩시켜서 input으로 사용하는 생성모델 논문 조사

2023-08-28 3 분 소요

아래와 같이 세 가지 모델들을 찾아봤는데, 여러 오디오가 중첩된 비디오에서 오디오를 분리하는 과정(Audio separation)의 역과정에 대한 논문, 즉, Audio separation의 역과정인 분리된 오디오로 여러 오디오가 중첩된 비디오로 생성하는 모델은 현재까지 찾아본 바...

[논문 정리] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

2023-08-25 7 분 소요

오늘은 StableVideo 논문을 읽어보고자 한다. 이 논문은 텍스트 기반으로 비디오를 수정하는 분야를 다룬 논문이다. 논문의 목적과, 모델 구조를 중심으로 정리하였다.

[논문 정리] Text Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

2023-08-22 4 분 소요

JIBIN SONG