본문 바로가기

논문 리뷰(Paper Review)

YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception

Abstract

- 0.83 MAP for object detection

- 0.93 MIOU for the drivable area segmentation
- 87.3 accuracy for lane detection

- 91 FPS on NVIDIA TESLA V100

 

기존 모델과의 차이점

- 데이터 전처리: Mosaic and Mixup 적용

- Bag of Freebies (BoF) methods(?) to improve the object detection performance

 

계보

- UNet -> PSPNet: drivable area segmentation

- SCNN은 각 계층의 채널 간 정보 전송을 위해 슬라이스별 컨볼루션을 제안. Enet-SAD는 상위 수준 특성에서 하위 수준 특성을 학습할 수 있는 self-attention 정류 방법을 사용하므로 성능을 향상시킬 뿐만 아니라 모델의 경량 설계를 유지

--> lane detection

- YOLOP는 encoder 하나와 3개의 Head를 사용하였다. HyBridNet과 Bifpn은 이를 개선하였다 --> Multi Task Learning

 

방법

- 우리 모델은 YOLOP 및 HybridNet의 작업에서 영감을 얻었으며 핵심 디자인 개념을 유지하지만 기능 추출을 위해 강력한 백본(E-ELAN)을 활용(YOLOP는 CSPdarknet를 백본으로) 

-  또한 기존 작업과 달리 동일한 분기에서 주행 가능 영역 분할 및 차선 감지 작업을 실행하는 대신 디코더 헤드의 3개 분기를 활용하여 특정 작업을 수행.

-  공유된 하나의 encoder와 3개의 decoder head를 사용

 

해드

- YOLOv7과 유사하게 앵커 기반 다중 스케일 디택션 전략 차용

- Path Aggregation Network (PAN) 버텀업 구조와 FPN을 합쳤다. 

- 디택션: 다중 스케일 기능 맵의 각 그리드에는 서로 다른 종횡비의 3개 앵커가 할당되며 디택션 헤드는 위치 오프셋과 크기 조정된 높이 및 너비는 물론 각 클래스 예측에 대한 확률 및 해당 신뢰도를 예측.

- 주행 가능 영역 : 두 작업 기능이 마지막 레이어에 있는 YOLOP와는 달리, 더 깊은 네트워크 계층이 꼭 필요하지 않다고 판단(?). FPN 전 레이어를 사용한다. 

- 차선 탐지: FPN 마지막 브랜치에 연결. 차선 검출 단계에서는 Deconvolution을 적용하여 성능 더욱 향상 시켰다.

 

주행 영역 탐지, 라인 탐지

- 두 작업의 기능이 Neck의 마지막 레이어에 있는 YOLOP과 달리 우리는 서로 다른 의미 수준의 기능을 사용하였다. 우리는 더 깊은 네트워크 계층에서 추출된 특징이 다른 두 작업과 비교하여 운전 가능한 영역 분할에 필요하지 않다는 것을 발견하였다.

 

 

로스

- L_Box는 예측 결과와 GT 간의 중첩율, 종횡비 및 Scale 유사성을 비교

- 주행 영역 구분: 크로스 엔트로피 로스 사용, 차선 분할: Focal Loss 사용

  : C는 전체 카테고리 수, 2로 설정

 

 

 

 

학습 상세

- “Cosine Annealing” policy is used to adjust the learning rate

- learning rate  0.01 and warm-restart is performed and set in the first 3 epochs.

- the momentum 0.937 weight decay 0.005

- epoch number is 300

- resize images in BDD100k dataset from 1280×720×3 --> 640×640×3 in the traing stage

  1280×720×3 --> 640×384×3 in the testing stage.

- 차선 탐지에서는 Lane Mask를 8 픽셀 너비로 하려 학습하였고, 테스트 시에는 2 픽셀 너비로 유지하였다(?)

 

 

 

 

BDD 100K 데이터 셋

- 10만개 프레임 보유

- 10개의 비전 테스크 존재

 


  YOLOP HybridNet YOLOP2
백본 CSPdarknet   E-ELAN
인코더 1개   1개
디코더 3개   3개
특징 융합 방법
(Feature Fuse)
SPP & FPN
(Spatial Pyramid Pooling &
Feature Pyramid Network)
  SPP & FPN
파라미터 수/ PFS 7.9M / 49 12.8M / 28 38.9M / 91
기타     데이터 증강을 위한
Mosaic, Mixup 적용
성능     0.83 MAP 디택션
 0.93 MIOU 주행 가능 영역
87.3 차선 탐지

91 FPS on NVIDIA TESLA V100

 

반응형