본문 바로가기

분류 전체보기

Code Llama FineTune Llama2 특징 Supervised Fine-Tuning (SFT) Reinforcement Learning from Human Feedback (RLHF) 언패킹 LoRA 기술 필요 라이브러리 모델과 토큰나이저 세팅 양자화 설정 Llama2 특징 Llama2는 확장된 컨텍스트 길이와 모델의 추론 확장성을 향상시키는 GQA(Grouped Query Attention)의 혁신적인 도입을 자랑합니다. 트레이닝 코퍼스(Training Corpus): 방대한 2조 개의 토큰으로 트레이닝된 이 모델은 노출된 데이터의 폭에 있어서는 전혀 뒤떨어지지 않습니다. 4K로 확장된 컨텍스트 길이를 통해 모델은 광범위한 콘텐츠를 파악하고 생성할 수 있습니다. GQA(Grouped Query Attention): 추론 확장성.. 더보기
Code llama 개요 소개 - 코드 라마는 라마 2를 기반으로 한 코드 전용 대규모 언어 모델로, 오픈 모델 중 최고의 성능을 제공하며, 큰 입력 컨텍스트 지원, 프로그래밍 작업을 위한 제로샷 명령 수행 능력 등을 갖추고 있습니다. - 다양한 응용 프로그램을 커버하기 위해 여러 가지 버전을 제공합니다 : 파운데이션 모델(코드 라마), 파이썬 전문화(코드 라마 - 파이썬), 명령 수행 모델(코드 라마 - 인스트럭트) 각각 7B, 13B, 34B 파라미터를 가집니다. - 모든 모델은 16k 토큰 시퀀스에 대해 훈련되었으며, 최대 100k 토큰까지 입력에서 개선을 보여줍니다. - 코드 라마는 라마 2를 더 많은 샘플링 코드를 사용하여 세부 조정하여 개발되었습니다. 다운로드 및 모델 사이즈 - llama2와 동일한 경로에서 모델 접.. 더보기
Dall-e 2 및 주변 기술 리뷰 현재 기준 DALL·E 3 (openai.com) DALL·E 3 DALL·E 3 understands significantly more nuance and detail than our previous systems, allowing you to easily translate your ideas into exceptionally accurate images. openai.com Imagen: Text-to-Image Diffusion Models (research.google) Imagen: Text-to-Image Diffusion Models Imagen unprecedented photorealism × deep level of language understanding unprecedented ph.. 더보기
StyleTrasfer 복습 개요 - 알고리즘은 입력 이미지, 콘텐츠 이미지, 스타일 이미지의 세 가지 이미지를 가져와 콘텐츠 이미지의 콘텐츠와 스타일 이미지의 예술적 스타일과 유사하도록 입력을 변경합니다. 동작 방식 - 먼저 출력 이미지(G)가 될 노이즈 이미지를 초기화합니다. - 다음 이 이미지가 네트워크의 특정 계층에 있는 콘텐츠 및 스타일 이미지와 얼마나 유사한지 계산합니다. - 출력 이미지(G)가 콘텐츠 이미지(C)의 콘텐츠와 스타일 이미지(S)의 스타일을 갖기를 원하기 때문에 생성된 이미지(G)의 손실을 각각의 콘텐츠(C)와 스타일( S) 이미지로 부터 계산한다. - 콘텐츠 손실 및 스타일 손실을 정의해 보겠습니다. 콘텐츠 로스 - 무작위로 생성된 노이즈 이미지(G)가 콘텐츠 이미지(C)와 얼마나 유사한지 의미 - F는 .. 더보기
Meta Pseudo Labels(CVPR 2021) Abstract - (2021 기준) ImageNet 에서 90.2%로 기존 방법론(Sharpness-Aware Minimization(SAM), Google, 2021)을 제치고 SOTA를 달성하였다. - Pseudo Label(2013)과 유사하게 의사 라벨을 생성하여 학생 모델을 가리키는 선생 모델이 존재. - 하지만, 선생 모델이 고정인 Pseudo Label(2013)과 달리 MLP에서는 학생 성능을 지속적으로 선생 모델에 피드백으로 전달한다. 서론 - 기존 Pseudo Label 단점 : Teacher가 부정확한 경우 → Pseudo label 부정확 → Student는 잘 못된 Pseudo label을 학습 : Student는 Teacher 보다 나아질 수 없음 : 확증 편향(confirma.. 더보기
YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception Abstract - 0.83 MAP for object detection - 0.93 MIOU for the drivable area segmentation - 87.3 accuracy for lane detection - 91 FPS on NVIDIA TESLA V100 기존 모델과의 차이점 - 데이터 전처리: Mosaic and Mixup 적용 - Bag of Freebies (BoF) methods(?) to improve the object detection performance 계보 - UNet -> PSPNet: drivable area segmentation - SCNN은 각 계층의 채널 간 정보 전송을 위해 슬라이스별 컨볼루션을 제안. Enet-SAD는 상위 수준 특성에서 하위 수준 특성을.. 더보기
BEVFusion: Multi-Task Multi-Sensor Fusionwith Unified Bird’s-Eye View Representation, IRCA2023 (들어가기에 앞서,,) 코드로 확인이 필요한 부분 및 주요 내용 부분은 파란색으로, 개인적인 생각은 주황색으로 표기하였다. Abstarct - 근래의 자율주행 시스템의 신뢰도를 높이는 방법으로 카메라 특징을 활용하여 라이다 포인트 클라우드를 증강 시키는 Point-Level Fusion이 주로 등장한다. - 하지만, 카메라->라이타 투영은 카메라 영상이 가지는 의미론적으로 밀집된 특징의 장점을 사라지게 한다. - 본 논문은 BEV 표현 공간에 멀티 모달 기능을 통합하여, 기하학정 정보와 의미론적 정보를 잘 보존 하였다. - 최적화된 BEV 풀링을 통해 뷰 변환의 병목을 해결하여 대기 시간을 40배 이상 개선 시켰다. - 다양한 3D 인식(Perception) 테스크를 지원하는 등 특정 작업에 구애 받지 .. 더보기
Voxel Transformer, ICCV2021 (a) 주황색 큐브는 3D 컨볼루션 커널이며 노란색은 빨간색 복셀을 중심으로 하는 수용 영역 (b) 빨간 복셀은 Q 복셀, 파란 복셀은 어텐션에서 Q에 참여하는 복셀 더보기