블로그: Scaling test-time compute - a Hugging Face Space by HuggingFaceH4
LLM이 스스로를 개선하는 에이전트를 구축하는데 있어, Test-Time 연산을 활용하여 출력을 개선하는 것은 중요한 단계이다. 본 논문에서는 LLM 추론 시간의 연산 스케일링을 연구하여 다음의 질문에 집중한다.
(일전에 딥러닝 분류/디택션 모델에서도 Test-Time 연산이 화두가 된 적 있다. 혹자는 Validation 성능을 조금이나마 더 높이기 위한 방법으로 생각하기도 했었는데, LLM에서도 이와 비슷하게 출력 전에 연산을 더 수행하는 개념으로 쓰인다)
" LLM이 고정된 하지만, 적지 않은 연산 시간을 사용할 수 있을때 난이도 있는 프롬프트의 답변을 얼마나 향상 시킬 수 있을까?"
해당 질문에 답하는 것은 LLM의 달성 가능한 성능 뿐 아니라, 'LLM 사전 학습의 방향'과 '추론 시간과 사전 학습 간의 트레이트 오프'에 대해 생각할 거리를 던져 준다.
('추론 시간을 충분히 가짐으로서'에 답변이 개선 될 수 있다면 LLM 사전 학습 시간을 줄일 수다고 생각할 수 있기 때문에 위와 같은 질문은 타당해 보인다.)
Test-Time 연산의 스케일에 따른 이해를 연구하는 시도는 적었다. 본 연구의 주요 분석
(1) 밀집된 프로세스 기반 검증기(?) 보상 모델 검색
(2) 테스트 시간에 프롬프트가 주어 졌을때, 응답에 대한 모델의 분포를 적응적으로(?) 업데이트
두 경우 모두 Test-Time 연산을 확장하려는 다양한 접근 방식을 효과가 프로프트 난이도에 따라 크게 달라진 다는 것을 확인
(프롬프트 난이도에 따라, Test-Time 연산의 효과가 달라졌다. 쉬운 난이도에서는 오히려 안 적용하는 것이 연산의 시간을 줄일 수 있다는 얘기로도 들린다)
결론)
- 이러한 관찰은 프롬프트 (난이도) 별로 최적의 테스트 시간을 할당하는 "compute-optimal 스케일링 전략"을 도출하게 했다.
- "compute-optimal 스케일링 전략" 으로 효율성을 4배 향상 시킬 수 있었다. 또한, FLOPs가 일치하는 평가(?)에서, 작은 모델이 14배 큰 모델 성능을 능가할 수 있음을 확인하였다.
'논문 리뷰(Paper Review)' 카테고리의 다른 글
LoRA for Efficient Stable Diffusion Fine-Tuning (0) | 2024.06.17 |
---|---|
DDPM(Denosing Diffusion Probabilistic Model) 개념 정리 (0) | 2024.02.27 |
Dall-e 2 및 주변 기술 리뷰 (1) | 2024.02.14 |
StyleTrasfer 복습 (0) | 2024.02.13 |
Meta Pseudo Labels(CVPR 2021) (0) | 2024.01.02 |