본문 바로가기

논문 리뷰(Paper Review)

Dall-e 2 및 주변 기술 리뷰 현재 기준 DALL·E 3 (openai.com) DALL·E 3 DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images. openai.com Imagen: Text-to-Image Diffusion Models (research.google) Imagen: Text-to-Image Diffusion Models Imagen unprecedented photorealism × deep level of language understanding unprecedented ph.. 더보기
StyleTrasfer 복습 개요 - 알고리즘은 입력 이미지, 콘텐츠 이미지, 스타일 이미지의 세 가지 이미지를 가져와 콘텐츠 이미지의 콘텐츠와 스타일 이미지의 예술적 스타일과 유사하도록 입력을 변경합니다. 동작 방식 - 먼저 출력 이미지(G)가 될 노이즈 이미지를 초기화합니다. - 다음 이 이미지가 네트워크의 특정 계층에 있는 콘텐츠 및 스타일 이미지와 얼마나 유사한지 계산합니다. - 출력 이미지(G)가 콘텐츠 이미지(C)의 콘텐츠와 스타일 이미지(S)의 스타일을 갖기를 원하기 때문에 생성된 이미지(G)의 손실을 각각의 콘텐츠(C)와 스타일( S) 이미지로 부터 계산한다. - 콘텐츠 손실 및 스타일 손실을 정의해 보겠습니다. 콘텐츠 로스 - 무작위로 생성된 노이즈 이미지(G)가 콘텐츠 이미지(C)와 얼마나 유사한지 의미 - F는 .. 더보기
Meta Pseudo Labels(CVPR 2021) Abstract - (2021 기준) ImageNet 에서 90.2%로 기존 방법론(Sharpness-Aware Minimization(SAM), Google, 2021)을 제치고 SOTA를 달성하였다. - Pseudo Label(2013)과 유사하게 의사 라벨을 생성하여 학생 모델을 가리키는 선생 모델이 존재. - 하지만, 선생 모델이 고정인 Pseudo Label(2013)과 달리 MLP에서는 학생 성능을 지속적으로 선생 모델에 피드백으로 전달한다. 서론 - 기존 Pseudo Label 단점 : Teacher가 부정확한 경우 → Pseudo label 부정확 → Student는 잘 못된 Pseudo label을 학습 : Student는 Teacher 보다 나아질 수 없음 : 확증 편향(confirma.. 더보기
YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception Abstract - 0.83 MAP for object detection - 0.93 MIOU for the drivable area segmentation - 87.3 accuracy for lane detection - 91 FPS on NVIDIA TESLA V100 기존 모델과의 차이점 - 데이터 전처리: Mosaic and Mixup 적용 - Bag of Freebies (BoF) methods(?) to improve the object detection performance 계보 - UNet -> PSPNet: drivable area segmentation - SCNN은 각 계층의 채널 간 정보 전송을 위해 슬라이스별 컨볼루션을 제안. Enet-SAD는 상위 수준 특성에서 하위 수준 특성을.. 더보기
BEVFusion: Multi-Task Multi-Sensor Fusionwith Unified Bird’s-Eye View Representation, IRCA2023 (들어가기에 앞서,,) 코드로 확인이 필요한 부분 및 주요 내용 부분은 파란색으로, 개인적인 생각은 주황색으로 표기하였다. Abstarct - 근래의 자율주행 시스템의 신뢰도를 높이는 방법으로 카메라 특징을 활용하여 라이다 포인트 클라우드를 증강 시키는 Point-Level Fusion이 주로 등장한다. - 하지만, 카메라->라이타 투영은 카메라 영상이 가지는 의미론적으로 밀집된 특징의 장점을 사라지게 한다. - 본 논문은 BEV 표현 공간에 멀티 모달 기능을 통합하여, 기하학정 정보와 의미론적 정보를 잘 보존 하였다. - 최적화된 BEV 풀링을 통해 뷰 변환의 병목을 해결하여 대기 시간을 40배 이상 개선 시켰다. - 다양한 3D 인식(Perception) 테스크를 지원하는 등 특정 작업에 구애 받지 .. 더보기
Voxel Transformer, ICCV2021 (a) 주황색 큐브는 3D 컨볼루션 커널이며 노란색은 빨간색 복셀을 중심으로 하는 수용 영역 (b) 빨간 복셀은 Q 복셀, 파란 복셀은 어텐션에서 Q에 참여하는 복셀 더보기
LaserMix for Semi-Supervised LiDAR Semantic Segmentation 서론 - 완전 지도 학습을 위한 라이다 포인트 클라우드 라벨링은 비용이 많이 든다. - 본 논문은 Semi-Supervised Learning 기반 Lidar Segmentation 방법을 연구하였다. - 핵심 아이디어는 LiDAR 포인트 클라우드의 강력한 공간 단서(Strong Spatial Cues)를 활용하여 레이블이 없는 데이터를 더 잘 활용하는 것 - 다양한 Lidar 스캔의 레이저 빔(Laser Beams)을 혼합하여, 일관되고 확실한 예측을 할 수 있도록 LaserMix를 제안한다. - 본 모델은 3가지 특성이 존재한다. 1) 일반화(Generic) : LaserMix는 LiDAR 표현(e.g. 거리 범위 및 복셀)에 구애받지 않으므로 SSL 프레임워크를 보편적으로 적용할 수 있다 ==> 보.. 더보기
Spherical Transformer for LiDAR-based 3D Recognition 0.요약 - 공간을 겹치지 않고 좁고 긴 여러 개의 공간으로 분할하는 방사형(Radial) self-attention을 디자인하였다. - 이런 디자인은 끊김 문제를 극복하고, Receptive Field를 부드럽고 극적으로 확대하여 Sparse한 원거리 지점의 성능을 향상 시켰다 ==> Sparse 한 원거리 지점에서는 성능이 비교적 떨어지나 보다 - 또한, 좁고 긴 창(Window)에 맞게 위치 인코딩을 생성하는 지수 분할과 모델 표현 능력을 높이기 위한 '동적 특징 선택'을 제안한다 ==> 주요 특징: exponential splitting for relative position encoding & dynamic feature selection - nuScene과 semanticKITTI에서 81.9.. 더보기