본문 바로가기

논문 리뷰(Paper Review)

"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" 논문: [2408.03314] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model ParametersEnabling LLMs to improve their outputs by using more test-time computation is a critical step towards building generally self-improving agents that can operate on open-ended natural language. In thi.. 더보기
LoRA for Efficient Stable Diffusion Fine-Tuning 출처- Using LoRA for Efficient Stable Diffusion Fine-Tuning (huggingface.co) Using LoRA for Efficient Stable Diffusion Fine-TuningUsing LoRA for Efficient Stable Diffusion Fine-Tuning LoRA: Low-Rank Adaptation of Large Language Models is a novel technique introduced by Microsoft researchers to deal with the problem of fine-tuning large-language models. Powerful models with billions ohuggingface.co.. 더보기
DDPM(Denosing Diffusion Probabilistic Model) 개념 정리 Diffusion Model 개요Diffusion Model 알고리즘Diffusion Model Loss Experiments Diffusion Model 개요- GAN, VAE 와 같은 생성 모델(Generative Model) 중 하나로써, 2022년에 이슈가 되었던 text-to-image 모델인 Stable-Diffusion, DALL-E-2, Imagen의 기반이 되는 모델- 입력 이미지에 (정규 분포를 가진) Noise를 여러 단계에 걸쳐 추가하고, 여러 단계에 걸쳐 (정규 분포를 가진) Noise를 제거함으로써, 입력 이미지와 유사한 확률 분포를 가진 결과 이미지를 생성하는 모델- Forward Diffusion Process에서는 이미지에 고정된(fixed) 정규 분포(=Gaussian분포.. 더보기
Dall-e 2 및 주변 기술 리뷰 현재 기준 DALL·E 3 (openai.com) DALL·E 3 DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images. openai.com Imagen: Text-to-Image Diffusion Models (research.google) Imagen: Text-to-Image Diffusion Models Imagen unprecedented photorealism × deep level of language understanding unprecedented ph.. 더보기
StyleTrasfer 복습 개요 - 알고리즘은 입력 이미지, 콘텐츠 이미지, 스타일 이미지의 세 가지 이미지를 가져와 콘텐츠 이미지의 콘텐츠와 스타일 이미지의 예술적 스타일과 유사하도록 입력을 변경합니다. 동작 방식 - 먼저 출력 이미지(G)가 될 노이즈 이미지를 초기화합니다. - 다음 이 이미지가 네트워크의 특정 계층에 있는 콘텐츠 및 스타일 이미지와 얼마나 유사한지 계산합니다. - 출력 이미지(G)가 콘텐츠 이미지(C)의 콘텐츠와 스타일 이미지(S)의 스타일을 갖기를 원하기 때문에 생성된 이미지(G)의 손실을 각각의 콘텐츠(C)와 스타일( S) 이미지로 부터 계산한다. - 콘텐츠 손실 및 스타일 손실을 정의해 보겠습니다. 콘텐츠 로스 - 무작위로 생성된 노이즈 이미지(G)가 콘텐츠 이미지(C)와 얼마나 유사한지 의미 - F는 .. 더보기
Meta Pseudo Labels(CVPR 2021) Abstract - (2021 기준) ImageNet 에서 90.2%로 기존 방법론(Sharpness-Aware Minimization(SAM), Google, 2021)을 제치고 SOTA를 달성하였다. - Pseudo Label(2013)과 유사하게 의사 라벨을 생성하여 학생 모델을 가리키는 선생 모델이 존재. - 하지만, 선생 모델이 고정인 Pseudo Label(2013)과 달리 MLP에서는 학생 성능을 지속적으로 선생 모델에 피드백으로 전달한다. 서론 - 기존 Pseudo Label 단점 : Teacher가 부정확한 경우 → Pseudo label 부정확 → Student는 잘 못된 Pseudo label을 학습 : Student는 Teacher 보다 나아질 수 없음 : 확증 편향(confirma.. 더보기
YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception Abstract - 0.83 MAP for object detection - 0.93 MIOU for the drivable area segmentation - 87.3 accuracy for lane detection - 91 FPS on NVIDIA TESLA V100 기존 모델과의 차이점 - 데이터 전처리: Mosaic and Mixup 적용 - Bag of Freebies (BoF) methods(?) to improve the object detection performance 계보 - UNet -> PSPNet: drivable area segmentation - SCNN은 각 계층의 채널 간 정보 전송을 위해 슬라이스별 컨볼루션을 제안. Enet-SAD는 상위 수준 특성에서 하위 수준 특성을.. 더보기
BEVFusion: Multi-Task Multi-Sensor Fusionwith Unified Bird’s-Eye View Representation, IRCA2023 (들어가기에 앞서,,) 코드로 확인이 필요한 부분 및 주요 내용 부분은 파란색으로, 개인적인 생각은 주황색으로 표기하였다. Abstarct - 근래의 자율주행 시스템의 신뢰도를 높이는 방법으로 카메라 특징을 활용하여 라이다 포인트 클라우드를 증강 시키는 Point-Level Fusion이 주로 등장한다. - 하지만, 카메라->라이타 투영은 카메라 영상이 가지는 의미론적으로 밀집된 특징의 장점을 사라지게 한다. - 본 논문은 BEV 표현 공간에 멀티 모달 기능을 통합하여, 기하학정 정보와 의미론적 정보를 잘 보존 하였다. - 최적화된 BEV 풀링을 통해 뷰 변환의 병목을 해결하여 대기 시간을 40배 이상 개선 시켰다. - 다양한 3D 인식(Perception) 테스크를 지원하는 등 특정 작업에 구애 받지 .. 더보기