LLM 썸네일형 리스트형 [사용법] NVIDIA Triton Inference Server 핵심 구조모든 Python 백엔드는 다음 주요 함수들을 포함하는 TritonPythonModel이라는 클래스를 구현해야 합니다:auto_complete_config (선택사항): 모델 구성 매개변수 설정- 모델의 입력/출력 정보, 배치 크기(max_batch_size) 등 기본 구성을 자동으로 설정합니다.- 예를 들어, 입력 텐서 이름, 데이터 타입(TYPE_FP32) 및 차원([4]) 등을 정의할 수 있습니다.- 이 함수는 모델이 로드될 때 한 번 호출되며, 설정 정보를 Triton 서버에 전달합니다.initialize (선택사항): 모델이 로드될 때 한 번만 호출됨execute (필수): 각 추론 요청마다 호출됨finalize (선택사항): 모델이 언로드될 때 한 번만 호출됨import triton_.. 더보기 [조사] NVIDIA Triton Inference Server 개요- 훈련된 모든 ML, Deep Learning 모델을 모든 프레임워크(e.g. ONNX, Tensorflow, Pytorch, TensorRT)에서 GPU, CPU를 통해 실행하는 것을 돕는다(?)- NVIDIA AI 플랫폼의 일부이며, NVIDIA AI Enterprise와 함께 제공되는 Triton Inference Server는 모든 워크 로드에 걸쳐 AI 모델 배포 및 실행을 표준화 하는 오픈소스이다.--> NIVIDIA의 AI 솔루션에 사용되는 기술인가 보다. --> NVIDIA AI Enterprise와 함께 제공된다. 말 그대로 전 솔루션 공통적으로 사용되는 배포/실행 모듈이다. 장점모든 학습 및 추론 프레임워크 지원 Triton Inference Server를 사용하여 Tensor.. 더보기 [Chatbot] Task Oriented Dialogure (TOD) 에 대한 이해 참고: [Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (youtube.com) 1. Task-Oriented Dialog system- 특정 Task에서 사용자 요구사항 파악하고 이를 해결하기 위한 대화 시스템- 특정 시나리오를 가정하여 구성된 대화 데이터 2. ToD 종류- Single Turn 대화- Multi Turn 대화 3. FAQ와의 차이점 - FAQ는 TOD 대비 질문-정답 쌍이 사전에 존재, 질문에 맞는 구절을 출력한다.- TOD는 질문을 이해하고, 정답을 포함한 문장을 생성하는 것이 목적 : 사용자 의도를 파악하기 위한 여러 Sub-Task가 존재할 수 있음 4. ToD.. 더보기 (1) LangGraph 설명 Why LangGraph? (langchain-ai.github.io) Why LangGraph?Why LangGraph? LLMs are extremely powerful, particularly when connected to other systems such as a retriever or APIs. This is why many LLM applications use a control flow of steps before and / or after LLM calls. As an example RAG performs retrieval of rellangchain-ai.github.io LLM(대규모 언어 모델)은 특히 검색기(retriever)나 API와 같은 다른 시스템에 연결될 때 매우 강력합니다.. 더보기 Ollama 활용 모델 커스터마이징- llama3를 커스터마이징 해본다$ ollama pull llava # 모델 다운- 다운 받은 모델은 .ollama/models/blob 에 위치하게 되는데, 이때 Modelfile 도 같이 저장되는 것으로 보인다 - 그이유는 아래에 나와 있다.더보기ollama show --modelfile {모델명} 해보면 modelfile을 보여주는데 FROM 의 파일이 sha256XXX.인코딩 파일이다.따라서, modelfile도 같이 .ollama/models/blob 에 저장되는 것을 알 수 있다.Modelfile를 수정할 경우 기존의 FROM을 llava:latest로 바꾸라고 한다.기존 llava가 인코딩된 파일을 가리키지 말라고 한다, 왤까?? - Modelfile 생성 FROM ll.. 더보기 [1] 유튜브 영상 요약하기 동기- CVPR 유튜브 영상을 챙겨 보다가 영상의 길이가 너무 길어, 이참에 OpenAI Whisper API를 이용한 동영상 요약을 진행해보고자 하였다.CVPR #18546 - Denoising Diffusion Models: A Generative Learning Big Bang (youtube.com)다음의 순서로 진행하고자 한다1) Speech to text - 유튜브 영상을 mp3로 전환 - mp3 파일을 txt로 변환하여 스크립트 저장2) LLM을 이용한 텍스트 요약 Speech to text (Whisper 사용법)- Audio API는 transcriptions(필사), translations(번역) 기능을 제공한다. - mp3, mp4, mpeg, mpga, m4a, wav, w.. 더보기 GGUF 파일이란? GGUF(Georgi Gerganov Unified Format) 소개- GGUF는 GGML을 사용하여 대형 모델을 실행하는 프로그램과 모델을 저장하는 파일 형식이다. 참고로 GGML은 보통 컴퓨터에서도 큰 모델을 빠르게 돌릴 수 있는 ML용 라이브러리이다.- Georgi Gerganov(@ggerganov)란 개발자가 만들었다.- 2023년 하반기에 나타나더니 급속도로 인기를 얻고 있으며 많은 사람들이 Pytorch의 .pt 포맷의 모델 파일을 .gguf 포맷으로 컨버팅하며 공유하고 있다.(역시 많이 쓰이는 것이 업계의 표준이 된다) 파일 구조- @mishig25가 작성한 GGUFv3 다이어그램 - 모델의 weight 텐서 값과 메타데이터가 key-value 형식으로 저장되어 있다. 사용 예시- .. 더보기 LangServe 개요 ❏ 개요LangServe는 개발자가 LangChain 실행 가능 항목과 체인(LCEL)을 REST API로 배포하는 데 도움을 줍니다.이 라이브러리는 FastAPI와 통합되어 있으며 데이터 검증을 위해 pydantic을 사용합니다.또한 서버에 배포된 실행 파일을 호출하는 데 사용할 수 있는 클라이언트를 제공합니다. JavaScript 클라이언트는 LangChain.js에서 사용할 수 있습니다. ❏ 특징입력 및 출력 스키마는 LangChain 개체에서 자동으로 추론되고 모든 API 호출에 적용되며 풍부한 오류 메시지가 표시됩니다.JSONSchema 및 Swagger가 포함된 API 문서 페이지단일 서버에서 많은 동시 요청을 지원하는 효율적인 /invoke, /batch 및 /stream 엔드포인트체인/에이.. 더보기 이전 1 2 다음