본문 바로가기

논문 리뷰(Paper Review)

Scribble-Supervised LiDAR Semantic Segmentation 서론 - Lidar Point Cloud Dense 어노테이션은 시간/돈이 많이 든다 - 현재까지 Weak supervision 관련 문헌 존재 X - Scribble(낙서, 날림으로 작성한 것) 어노테이션 된 Scribble-Kitti 데이터셋 공개 - Weak-Annotation을 사용할 때 발생하는 성능 격차를 줄이기 위한 파이프라인 제시 - 본 논문의 파이프라인은 모든 LiDAR Semantic Segmentation 모델과 결합할 수 있는 세 가지 독립된(Stand-Alone) 기능으로 구성되어 8%의 라벨링된 포인트만 사용하면서 완전 감독 성능의 최대 95.7%를 달성한다. 본문 세가지 독립된 기능 1) A teacher-student consistency loss on unlabeled po.. 더보기
CVPR2023 참관 후기 개요 MultiView를 이용한 3D 논문이 가장 많았고 대부분 Nerf를 응용한 주제가 상당수를 차지했고, 라이다와 영상을 활용하거나 라이다 데이터 셋을 이용한 3D Representation Learning 이 존재하였다. Image 합성, 비디오 생성 및 Human pose를 예측하는 논문도 많이 볼 수 있었다. 흥미로운 부분은 Vision과 Language를 결합한 Multi-Modal 주제의 논문도 OpenAI의 Clip 이후로 등장하는 추세였고, 자율 주행 그자체를 주제로 다룬 논문은 그리 많지 않았다. 2359개의 논문이 Accept 되었고, 25.8% Acceptance rate이다. 살펴본 논문 (화-오전) 112. ULIP: Learning a Unified Representation .. 더보기
Unsupervised Domain Adaptation by Backpropagation(in ICML'15) - Domain Adaptation은 성격이 유사하지만 다른 도메인의 라벨이 지정된 데이터를 사용할 수 있다는 점에서 매력적이다 (e.g. 합성 이미지) - 본 논문에서는 Source 도메인의 라벨이 주어진 대량의 데이터 셋에서 Target 도메인의 라벨이 없는 데이터로 Domain Adaptation을 수행하는 새로운 접근 방식을 제안한다. - (1) 소스 도메인의 학습 작업에 대해 'Discriminative' 하고, - (2) 도메인간 이동에 대해 Invariant 한 'Deep' 한 피쳐의 출현을 촉진한다. 이러한 적응하는 행동이 거의 모든 FeedForwrd 모델에서 몇가지 표준 레이어와 간단한 그레디언트 Reversal 레이어로 보강함으로써 달성할 수 있다. - 결과 증강 아키텍처는 표준 역전.. 더보기
CMRNet++: Map and Camera AgnosticMonocular Visual Localization in LiDAR Maps ▶Abstract - 딥러닝은 컴퓨터 비전 분야에서 비약적인 발전을 이뤘지만, 시각적 측위 능력을 개선하는 데는 아직 부족하다 - 주요 장애물 중 하나는 기존 CNN(Convolutional Neural Network) 기반 포즈 회귀 방법이 기존에 보지 못했던 장소를 일반화 하지 못한다는 것이다. - 최근에 도입된 CMRNet은 LiDAR 맵에서 독립적인 단안 측위(independent monocular localization)를 가능하게 하여 이러한 제약 사항을 효과적으로 해결하였다. - CMRNet++은 더욱 강건하고, 카메라 파라미터에도 독립적인 네트워크이다. - 본 논문에서는 딥 러닝을 기하학적 기술과 결합하고, 메트릭 추론을 학습 프로세스 밖으로 이동시켰다. - 이러한 방법 덕분에, 네트워크 .. 더보기
2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds 0. 요약 Multi-modality 데이터 퓨전을 통한 Semantic Segmentation 연구가 이루어져 왔다 하지만, Fusion 기반 접근은 Point-Pixel 간의 정확한 매핑이 (학습과 추론 단계에서) 이뤄져야 한다 제안하는 2D Pass 방법은 2D 이미지를 충분히 활용하되, 엄검한 데이터 쌍의 제약이 없어서 세그멘테이션을 수행할 수 있게 해준다. 2D Pass는 Auxiliary Modal Fusion(보조 모달 융합)과 Multi-Scale Fusion-to-Single Knowledge Distillation(MSFSKD, 다중 스케일 융합-단일 지식 증류)를 활용하여 풍부한 의미론적 및 구조적 정보를 획득한 다음 Pure 3D 네트워크(?)로 Distilled(?) 된다 Sema.. 더보기
HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps, CVPR2021 Abstract - HD Map은 움직임을 예측하거나, 플래닝 등에 핵심 정보를 제공하한다. - 실제 도로 토폴로지와 기하 정보는 소수에 불가하여, 보지 못했던 시나리오를 일반화 하기 위한 정보는 부족하다. - 시퀀스, 일반 그래프, 계층적 그래프를 포함하여 다양한 데이터 표현을 사용하여 AutoRegressive 모델을 탐색한다. - HDMapGen을 제안한다. 본 모델은 고품질, 다양한 HD Map을 생성할 수 있는 계층적 그래프 생성 모델이다. - Argoverse 데이터 셋에서 실험을 수행하였다. 서론 - HD Map은 자율 주행에서 핵심이 되는 요소로 '3차원 공간 상에서 위치 인지', '다른 차량의 움직임 예측'. - HD Map은 도시 모델링 및 시뮬레이션의 중요한 구성 요소 - 아래의 2가.. 더보기
Cylindrical and Asymmetrical 3D Convolution Networksfor LiDAR Segmentation 1. 초록 - 기존의 Lidar Segmentation 방법은 2D 프로젝션 후에 수행되며 이는 3D Topology와 기하학적 관계 정보를 버리게 된다. - 차선의 방법인 3D Voxelization과 3D Convolution은 개선이 제한적이다. 왜냐하면, Point Cloud의 희소성과 밀도의 다양성 때문. - 원기둥 형태의 비 대칭적 3D Convolution Network를 제안한다. 또한, point-wise 정제 모듈을 제안하여 Voxel 기반 레이블 인코딩에서 발생하는 간섭을 경감 시켰다. - SemanticKITTI와 nuScenes 에서 1st를 하였다. 기존 대비 4% 성능 개선. - 제안하는 방법은 LIDAR Panoptic Segmentation과 3D Detection도 잘 수.. 더보기
[Vision] EfficientDet(2020) 1. 개요 - 55.1AP on COCO test-dev with 77M parameters and 410B Flops - 최신 대비 4 ~ 9배 파라미터수 적고, 13 ~ 42배 Flops수가 적다. 2. 동기 - 어떤 모델들은 정확도가 높고 파라미터수가 많으며 FLOP수가 크다. 반면, 어떤 모델들은 경량화에 초점을 맞추었다. 본 논문에서는 정확도도 높으면서 효율성이 좋은 (자원 상황에 따라 골라 쓸 수있는) 디택터를 만들고자 하였다. - One-Stage Detector를 계승하되, 백본, 특징 퓨전, Class/Box 네트워크 등을 고려하여 모델을 고려하다가 두가지 도전적 과제를 발견하였다. 2-1. 과거 동향 더보기 MultiScale Feature Representations - SSD(ECC.. 더보기