LLM 썸네일형 리스트형 [조사] NVIDIA Triton Inference Server 개요- 훈련된 모든 ML, Deep Learning 모델을 모든 프레임워크(e.g. ONNX, Tensorflow, Pytorch, TensorRT)에서 GPU, CPU를 통해 실행하는 것을 돕는다(?)- NVIDIA AI 플랫폼의 일부이며, NVIDIA AI Enterprise와 함께 제공되는 Triton Inference Server는 모든 워크 로드에 걸쳐 AI 모델 배포 및 실행을 표준화 하는 오픈소스이다.--> NIVIDIA의 AI 솔루션에 사용되는 기술인가 보다. --> NVIDIA AI Enterprise와 함께 제공된다. 말 그대로 전 솔루션 공통적으로 사용되는 배포/실행 모듈이다. 장점모든 학습 및 추론 프레임워크 지원 Triton Inference Server를 사용하여 Tensor.. 더보기 [Chatbot] Task Oriented Dialogure (TOD) 에 대한 이해 참고: [Paper Review] Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems (youtube.com) 1. Task-Oriented Dialog system- 특정 Task에서 사용자 요구사항 파악하고 이를 해결하기 위한 대화 시스템- 특정 시나리오를 가정하여 구성된 대화 데이터 2. ToD 종류- Single Turn 대화- Multi Turn 대화 3. FAQ와의 차이점 - FAQ는 TOD 대비 질문-정답 쌍이 사전에 존재, 질문에 맞는 구절을 출력한다.- TOD는 질문을 이해하고, 정답을 포함한 문장을 생성하는 것이 목적 : 사용자 의도를 파악하기 위한 여러 Sub-Task가 존재할 수 있음 4. ToD.. 더보기 (1) LangGraph 설명 Why LangGraph? (langchain-ai.github.io) Why LangGraph?Why LangGraph? LLMs are extremely powerful, particularly when connected to other systems such as a retriever or APIs. This is why many LLM applications use a control flow of steps before and / or after LLM calls. As an example RAG performs retrieval of rellangchain-ai.github.io LLM(대규모 언어 모델)은 특히 검색기(retriever)나 API와 같은 다른 시스템에 연결될 때 매우 강력합니다.. 더보기 Ollama 활용 모델 커스터마이징- llama3를 커스터마이징 해본다$ ollama pull llava # 모델 다운- 다운 받은 모델은 .ollama/models/blob 에 위치하게 되는데, 이때 Modelfile 도 같이 저장되는 것으로 보인다 - 그이유는 아래에 나와 있다.더보기ollama show --modelfile {모델명} 해보면 modelfile을 보여주는데 FROM 의 파일이 sha256XXX.인코딩 파일이다.따라서, modelfile도 같이 .ollama/models/blob 에 저장되는 것을 알 수 있다.Modelfile를 수정할 경우 기존의 FROM을 llava:latest로 바꾸라고 한다.기존 llava가 인코딩된 파일을 가리키지 말라고 한다, 왤까?? - Modelfile 생성 FROM ll.. 더보기 [1] 유튜브 영상 요약하기 동기- CVPR 유튜브 영상을 챙겨 보다가 영상의 길이가 너무 길어, 이참에 OpenAI Whisper API를 이용한 동영상 요약을 진행해보고자 하였다.CVPR #18546 - Denoising Diffusion Models: A Generative Learning Big Bang (youtube.com)다음의 순서로 진행하고자 한다1) Speech to text - 유튜브 영상을 mp3로 전환 - mp3 파일을 txt로 변환하여 스크립트 저장2) LLM을 이용한 텍스트 요약 Speech to text (Whisper 사용법)- Audio API는 transcriptions(필사), translations(번역) 기능을 제공한다. - mp3, mp4, mpeg, mpga, m4a, wav, w.. 더보기 GGUF 파일이란? GGUF(Georgi Gerganov Unified Format) 소개- GGUF는 GGML을 사용하여 대형 모델을 실행하는 프로그램과 모델을 저장하는 파일 형식이다. 참고로 GGML은 보통 컴퓨터에서도 큰 모델을 빠르게 돌릴 수 있는 ML용 라이브러리이다.- Georgi Gerganov(@ggerganov)란 개발자가 만들었다.- 2023년 하반기에 나타나더니 급속도로 인기를 얻고 있으며 많은 사람들이 Pytorch의 .pt 포맷의 모델 파일을 .gguf 포맷으로 컨버팅하며 공유하고 있다.(역시 많이 쓰이는 것이 업계의 표준이 된다) 파일 구조- @mishig25가 작성한 GGUFv3 다이어그램 - 모델의 weight 텐서 값과 메타데이터가 key-value 형식으로 저장되어 있다. 사용 예시- .. 더보기 LangServe 개요 ❏ 개요LangServe는 개발자가 LangChain 실행 가능 항목과 체인(LCEL)을 REST API로 배포하는 데 도움을 줍니다.이 라이브러리는 FastAPI와 통합되어 있으며 데이터 검증을 위해 pydantic을 사용합니다.또한 서버에 배포된 실행 파일을 호출하는 데 사용할 수 있는 클라이언트를 제공합니다. JavaScript 클라이언트는 LangChain.js에서 사용할 수 있습니다. ❏ 특징입력 및 출력 스키마는 LangChain 개체에서 자동으로 추론되고 모든 API 호출에 적용되며 풍부한 오류 메시지가 표시됩니다.JSONSchema 및 Swagger가 포함된 API 문서 페이지단일 서버에서 많은 동시 요청을 지원하는 효율적인 /invoke, /batch 및 /stream 엔드포인트체인/에이.. 더보기 Prompt engineering 1. 명확한 명령을 쓰세요 전술 1) 더 적절한 답변을 얻기 위해 쿼리에 상세 내용을 포함하세요전술 2) 모델이 페르소나를 채택하게 하세요 (모델에게 특정 성격을 주입시키세요)전술 3) 입력 구분을 표시하기 위해 구분자를 사용하세요전술 4) 작업을 완료하기 위한 단계를 구체화를 지시하세요전술 5) 예시를 제공하세요 (Few Shot 프롬프트)전술 6) 원하는 출력의 길이를 구체화 하세요 2. 참조 텍스트를 제공하세요 전술 7) 참조 텍스트를 사용해 모델이 답변하도록 지시할 수 있습니다 (RAG 기반 기술)전술 8) 참조 텍스트를 인용처를 명시하게 할 수 있습니다. 3. 복잡한 업무를 작은 단위로 쪼개세요 전술 9) 의도 분류를 사용하여 사용자 쿼리와 가장 관련성이 높은 지침을 식별합니다.전술 10) .. 더보기 이전 1 2 다음