논문 리뷰(Paper Review) 썸네일형 리스트형 Voxel Transformer, ICCV2021 (a) 주황색 큐브는 3D 컨볼루션 커널이며 노란색은 빨간색 복셀을 중심으로 하는 수용 영역 (b) 빨간 복셀은 Q 복셀, 파란 복셀은 어텐션에서 Q에 참여하는 복셀 더보기 LaserMix for Semi-Supervised LiDAR Semantic Segmentation 서론 - 완전 지도 학습을 위한 라이다 포인트 클라우드 라벨링은 비용이 많이 든다. - 본 논문은 Semi-Supervised Learning 기반 Lidar Segmentation 방법을 연구하였다. - 핵심 아이디어는 LiDAR 포인트 클라우드의 강력한 공간 단서(Strong Spatial Cues)를 활용하여 레이블이 없는 데이터를 더 잘 활용하는 것 - 다양한 Lidar 스캔의 레이저 빔(Laser Beams)을 혼합하여, 일관되고 확실한 예측을 할 수 있도록 LaserMix를 제안한다. - 본 모델은 3가지 특성이 존재한다. 1) 일반화(Generic) : LaserMix는 LiDAR 표현(e.g. 거리 범위 및 복셀)에 구애받지 않으므로 SSL 프레임워크를 보편적으로 적용할 수 있다 ==> 보.. 더보기 Spherical Transformer for LiDAR-based 3D Recognition 0.요약 - 공간을 겹치지 않고 좁고 긴 여러 개의 공간으로 분할하는 방사형(Radial) self-attention을 디자인하였다. - 이런 디자인은 끊김 문제를 극복하고, Receptive Field를 부드럽고 극적으로 확대하여 Sparse한 원거리 지점의 성능을 향상 시켰다 ==> Sparse 한 원거리 지점에서는 성능이 비교적 떨어지나 보다 - 또한, 좁고 긴 창(Window)에 맞게 위치 인코딩을 생성하는 지수 분할과 모델 표현 능력을 높이기 위한 '동적 특징 선택'을 제안한다 ==> 주요 특징: exponential splitting for relative position encoding & dynamic feature selection - nuScene과 semanticKITTI에서 81.9.. 더보기 Scribble-Supervised LiDAR Semantic Segmentation 서론 - Lidar Point Cloud Dense 어노테이션은 시간/돈이 많이 든다 - 현재까지 Weak supervision 관련 문헌 존재 X - Scribble(낙서, 날림으로 작성한 것) 어노테이션 된 Scribble-Kitti 데이터셋 공개 - Weak-Annotation을 사용할 때 발생하는 성능 격차를 줄이기 위한 파이프라인 제시 - 본 논문의 파이프라인은 모든 LiDAR Semantic Segmentation 모델과 결합할 수 있는 세 가지 독립된(Stand-Alone) 기능으로 구성되어 8%의 라벨링된 포인트만 사용하면서 완전 감독 성능의 최대 95.7%를 달성한다. 본문 세가지 독립된 기능 1) A teacher-student consistency loss on unlabeled po.. 더보기 CVPR2023 참관 후기 개요 MultiView를 이용한 3D 논문이 가장 많았고 대부분 Nerf를 응용한 주제가 상당수를 차지했고, 라이다와 영상을 활용하거나 라이다 데이터 셋을 이용한 3D Representation Learning 이 존재하였다. Image 합성, 비디오 생성 및 Human pose를 예측하는 논문도 많이 볼 수 있었다. 흥미로운 부분은 Vision과 Language를 결합한 Multi-Modal 주제의 논문도 OpenAI의 Clip 이후로 등장하는 추세였고, 자율 주행 그자체를 주제로 다룬 논문은 그리 많지 않았다. 2359개의 논문이 Accept 되었고, 25.8% Acceptance rate이다. 살펴본 논문 (화-오전) 112. ULIP: Learning a Unified Representation .. 더보기 Unsupervised Domain Adaptation by Backpropagation(in ICML'15) - Domain Adaptation은 성격이 유사하지만 다른 도메인의 라벨이 지정된 데이터를 사용할 수 있다는 점에서 매력적이다 (e.g. 합성 이미지) - 본 논문에서는 Source 도메인의 라벨이 주어진 대량의 데이터 셋에서 Target 도메인의 라벨이 없는 데이터로 Domain Adaptation을 수행하는 새로운 접근 방식을 제안한다. - (1) 소스 도메인의 학습 작업에 대해 'Discriminative' 하고, - (2) 도메인간 이동에 대해 Invariant 한 'Deep' 한 피쳐의 출현을 촉진한다. 이러한 적응하는 행동이 거의 모든 FeedForwrd 모델에서 몇가지 표준 레이어와 간단한 그레디언트 Reversal 레이어로 보강함으로써 달성할 수 있다. - 결과 증강 아키텍처는 표준 역전.. 더보기 CMRNet++: Map and Camera AgnosticMonocular Visual Localization in LiDAR Maps ▶Abstract - 딥러닝은 컴퓨터 비전 분야에서 비약적인 발전을 이뤘지만, 시각적 측위 능력을 개선하는 데는 아직 부족하다 - 주요 장애물 중 하나는 기존 CNN(Convolutional Neural Network) 기반 포즈 회귀 방법이 기존에 보지 못했던 장소를 일반화 하지 못한다는 것이다. - 최근에 도입된 CMRNet은 LiDAR 맵에서 독립적인 단안 측위(independent monocular localization)를 가능하게 하여 이러한 제약 사항을 효과적으로 해결하였다. - CMRNet++은 더욱 강건하고, 카메라 파라미터에도 독립적인 네트워크이다. - 본 논문에서는 딥 러닝을 기하학적 기술과 결합하고, 메트릭 추론을 학습 프로세스 밖으로 이동시켰다. - 이러한 방법 덕분에, 네트워크 .. 더보기 2DPASS: 2D Priors Assisted SemanticSegmentation on LiDAR Point Clouds 0. 요약 Multi-modality 데이터 퓨전을 통한 Semantic Segmentation 연구가 이루어져 왔다 하지만, Fusion 기반 접근은 Point-Pixel 간의 정확한 매핑이 (학습과 추론 단계에서) 이뤄져야 한다 제안하는 2D Pass 방법은 2D 이미지를 충분히 활용하되, 엄검한 데이터 쌍의 제약이 없어서 세그멘테이션을 수행할 수 있게 해준다. 2D Pass는 Auxiliary Modal Fusion(보조 모달 융합)과 Multi-Scale Fusion-to-Single Knowledge Distillation(MSFSKD, 다중 스케일 융합-단일 지식 증류)를 활용하여 풍부한 의미론적 및 구조적 정보를 획득한 다음 Pure 3D 네트워크(?)로 Distilled(?) 된다 Sema.. 더보기 이전 1 2 3 다음