개요
- 알고리즘은 입력 이미지, 콘텐츠 이미지, 스타일 이미지의 세 가지 이미지를 가져와 콘텐츠 이미지의 콘텐츠와 스타일 이미지의 예술적 스타일과 유사하도록 입력을 변경합니다.
동작 방식
- 먼저 출력 이미지(G)가 될 노이즈 이미지를 초기화합니다.
- 다음 이 이미지가 네트워크의 특정 계층에 있는 콘텐츠 및 스타일 이미지와 얼마나 유사한지 계산합니다.
- 출력 이미지(G)가 콘텐츠 이미지(C)의 콘텐츠와 스타일 이미지(S)의 스타일을 갖기를 원하기 때문에 생성된 이미지(G)의 손실을 각각의 콘텐츠(C)와 스타일( S) 이미지로 부터 계산한다.
- 콘텐츠 손실 및 스타일 손실을 정의해 보겠습니다.
콘텐츠 로스
- 무작위로 생성된 노이즈 이미지(G)가 콘텐츠 이미지(C)와 얼마나 유사한지 의미
- F는 생성된 이미지, P는 원본 이미지, l은 특정 개층이다.
스타일 로스
- 이 이미지는 선택한 특정 레이어의 다양한 채널, 기능 맵 또는 필터를 보여줍니다. 이제 이미지의 스타일을 캡처하기 위해 이러한 필터가 서로 얼마나 "상관"되어 있는지 계산한다.
상관 관계는 어떻게 계산할까?
- 위의 그림 상에서 빨간색, 노란색 채널이 상관성이 있다면, (빨간색 채널이 예를 들어 수직선을 캡쳐 한다고 하면) 빨간색 채널이 수직선을 탐지할 경우 노란색 채널에도 효과가 나타난다???
- 서로 다른 필터 또는 채널 간의 상관 관계를 계산하기 위해 두 필터의 활성화 벡터 간의 내적을 계산합니다. 이렇게 얻은 행렬을 그램 행렬이라고 합니다.
- 스타일과 생성된 이미지(G) 사이의 비용 함수는 스타일 이미지의 그램 매트릭스와 생성된 이미지의 그램 매트릭스 간의 차이 제곱이다.
전체 로스
- 아래 식에서 알파, 베타는 각각 콘텐츠 및 스타일의 가중치를 측정하는데 사용된다.
- 일반적으로 생성된 출력 이미지에서 각 비용의 가중치를 정의합니다.
- 손실이 계산되면 역전파를 사용하여 이 손실을 최소화할 수 있으며, 이는 무작위로 생성된 이미지를 의미 있는 예술 작품으로 최적화합니다.
How Do Neural Style Transfers Work? | by blackburn | Towards Data Science
Neural Transfer Using PyTorch — PyTorch Tutorials 2.2.0+cu121 documentation
'논문 리뷰(Paper Review)' 카테고리의 다른 글
DDPM(Denosing Diffusion Probabilistic Model) 개념 정리 (0) | 2024.02.27 |
---|---|
Dall-e 2 및 주변 기술 리뷰 (1) | 2024.02.14 |
Meta Pseudo Labels(CVPR 2021) (0) | 2024.01.02 |
YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception (1) | 2023.11.05 |
BEVFusion: Multi-Task Multi-Sensor Fusionwith Unified Bird’s-Eye View Representation, IRCA2023 (0) | 2023.09.24 |