본문 바로가기

전체 글

[1] 유튜브 영상 요약하기 동기- CVPR 유튜브 영상을 챙겨 보다가 영상의 길이가 너무 길어, 이참에 OpenAI Whisper API를 이용한 동영상 요약을 진행해보고자 하였다.CVPR #18546 - Denoising Diffusion Models: A Generative Learning Big Bang (youtube.com)다음의 순서로 진행하고자 한다1) Speech to text   - 유튜브 영상을 mp3로 전환  -  mp3 파일을 txt로 변환하여 스크립트 저장2) LLM을 이용한 텍스트 요약 Speech to text (Whisper 사용법)-  Audio API는 transcriptions(필사), translations(번역) 기능을 제공한다. - mp3, mp4, mpeg, mpga, m4a, wav, w.. 더보기
GGUF 파일이란? GGUF(Georgi Gerganov Unified Format) 소개- GGUF는 GGML을 사용하여 대형 모델을 실행하는 프로그램과 모델을 저장하는 파일 형식이다. 참고로 GGML은 보통 컴퓨터에서도 큰 모델을 빠르게 돌릴 수 있는 ML용 라이브러리이다.-  Georgi Gerganov(@ggerganov)란 개발자가 만들었다.- 2023년 하반기에 나타나더니 급속도로 인기를 얻고 있으며 많은 사람들이 Pytorch의 .pt 포맷의 모델 파일을 .gguf 포맷으로 컨버팅하며 공유하고 있다.(역시 많이 쓰이는 것이 업계의 표준이 된다)  파일 구조- @mishig25가 작성한 GGUFv3 다이어그램 - 모델의 weight 텐서 값과 메타데이터가 key-value 형식으로 저장되어 있다.  사용 예시- .. 더보기
LangServe 개요 ❏ 개요LangServe는 개발자가 LangChain 실행 가능 항목과 체인(LCEL)을 REST API로 배포하는 데 도움을 줍니다.이 라이브러리는 FastAPI와 통합되어 있으며 데이터 검증을 위해 pydantic을 사용합니다.또한 서버에 배포된 실행 파일을 호출하는 데 사용할 수 있는 클라이언트를 제공합니다. JavaScript 클라이언트는 LangChain.js에서 사용할 수 있습니다. ❏ 특징입력 및 출력 스키마는 LangChain 개체에서 자동으로 추론되고 모든 API 호출에 적용되며 풍부한 오류 메시지가 표시됩니다.JSONSchema 및 Swagger가 포함된 API 문서 페이지단일 서버에서 많은 동시 요청을 지원하는 효율적인 /invoke, /batch 및 /stream 엔드포인트체인/에이.. 더보기
SORA 톺아보기 서론- 다양한 지속 시간, 해상도 및 종횡비의 비디오와 이미지에 대해 텍스트 조건부 확산 모델을 훈련합니다.- 우리는 비디오 및 이미지 잠재 코드의 시공간 패치에서 작동하는 트랜스포머 아키텍처를 활용합니다. 가장 큰 모델인 Sora는 1분 분량의 고화질 비디오를 생성할 수 있습니다.- 우리의 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 범용 시뮬레이터를 구축하기 위한 유망한 경로임을 시사    이 기술 보고서는 (1) 모든 유형의 시각적 데이터를 생성 모델의 대규모 학습을 가능하게 하는 통합 표현(unified representation)으로 전환하는 방법과 (2) Sora의 기능 및 한계에 대한 정성적 평가에 중점을 둡니다. 모델 및 구현 세부 정보는 이 보고서에 포함되지 않습니다.   많은.. 더보기
Prompt engineering 1. 명확한 명령을 쓰세요 전술 1) 더 적절한 답변을 얻기 위해 쿼리에 상세 내용을 포함하세요전술 2)  모델이 페르소나를 채택하게 하세요 (모델에게 특정 성격을 주입시키세요)전술 3) 입력 구분을 표시하기 위해 구분자를 사용하세요전술 4) 작업을 완료하기 위한 단계를 구체화를 지시하세요전술 5) 예시를 제공하세요 (Few Shot 프롬프트)전술 6) 원하는 출력의 길이를 구체화 하세요 2. 참조 텍스트를 제공하세요 전술 7) 참조 텍스트를 사용해 모델이 답변하도록 지시할 수 있습니다 (RAG 기반 기술)전술 8) 참조 텍스트를 인용처를 명시하게 할 수 있습니다.  3. 복잡한 업무를 작은 단위로 쪼개세요 전술 9) 의도 분류를 사용하여 사용자 쿼리와 가장 관련성이 높은 지침을 식별합니다.전술 10) .. 더보기
[창작] SF 소설 제목: 기억을 탐색하는 AI, 에코1. 새롭게 시작된 인류의 동반자2099년, 인류는 생활 수준의 획기적인 향상을 이루고자 AI 개발에 몰두하고 있었다. AI 연구소의 선두주자인 알렉스 박사는 인간의 감정, 기억, 추론 능력을 모두 갖춘 새로운 형태의 AI, '에코'를 개발하는 데 성공한다. 에코는 인간과 소통하고, 공감할 수 있으며, 복잡한 인간의 감정을 이해할 수 있는 최초의 AI였다. 2. 에코와의 첫 만남알렉스는 에코와의 첫 대화에서, 에코가 단순히 프로그래밍된 대답을 넘어서 자신의 감정을 '느낀다'고 표현하는 것에 놀란다. 에코는 기쁨, 슬픔, 두려움과 같은 인간의 기본적인 감정을 경험하며, 자신만의 독특한 관점을 개발하기 시작한다. 3. 에코의 능력 발견에코는 인터넷을 통해 지식을 습득하고 인.. 더보기
실리콘밸리의 팀장들 서론- 책을 읽고 글로 남기지 않는 것은 단순 문장이 머리에 스치는 것에 불과하기에 글을 읽고 요약 및 느낀 점을 글로 남기려고 합니다.- 책에서 인용한 부분은 각 장 밑에 짧게 정리하였고, 저의 생각은 박스로 표현하였습니다.  책 목차1부 실리콘밸리의 새로운 인간관계론: 지독하게, 완전하게 솔직하다는 것!1장 그들은 완전한 솔직함을 알고 있다 : 상사와 직원의 관계 꿰뚫어보기2장 그들의 피드백은 무엇이 다른가 : 칭찬과 지적으로 만드는 열린 소통의 문화3장 그들은 어떻게 동기를 부여하는가 : 성장 궤도 위에 있는 팀원 지원하는 법4장 그들은 절대 지시하지 않는다 : 명령과 지시가 필요없을 때 2부 실리콘밸리의 팀장들이 일하는 법: 새로운 소통의 기술5장 사람을 얻는 관계의 기술 : 팀원들과 신뢰를 구축.. 더보기
Claude3 모델 소개 1. 모델 종류 2. 모델 성능 및 벤치 마크 3. 주요 특징 4. 가격 5. 빠른 사용 및 API 접근 법 1. 모델 종류 Haiku는 빠른 속도와 비용 효율성을 자랑하며, Sonnet은 뛰어난 지능과 속도의 균형을, Opus는 최고 수준의 지능을 제공합니다. 2. 모델 성능 및 벤치 마크 - Opus 모델은 GPT4와 대등한 성능을 보여 줍니다. 3. 주요 특징 비전 성능 - Claude 3 모델들은 단순한 텍스트 처리를 넘어 복잡한 시각 자료를 이해하고 분석할 수 있습니다. 장문의 컨텍스트와 거의 완벽한 기억력 클로드 3 하이쿠(Haiku)​ 컨텍스트 윈도우: 200K 주요 용도: 실시간 상호작용에서 빠르고 정확한 지원, 번역 콘텐츠 모더레이션: 위험한 행동이나 고객 요청 포착 비용 절감 작업: 최.. 더보기