「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」
일시 : 2023.09.15. 13:00 ~ 16:00
장소 : 모두의연구소
Session 01. Infrastructure for LLMs — Llama 2 학습부터 파인튜닝, 배포까지
안재만, Co-founder & CEO, VESSL AI
1) VESSL AI
- 실리콘밸리 본사
- 국내 대기업, AI스타트업, 카이스트등 플랫폼 사용중
2) Does one large llm ~?
- 하나의 모델로 통합되는것이 아닌 개별의 모델이 더 성능이 좋을 것이다.
3) Why run your own models?
-privacy, cost, control
- (1) 보안에 대한 우려
- (2) 비용 - summarize english wikipedia to half(6M articles)
-(3) Control - 예상되지 못한 결과값, XAI로 융합하는등의 custom하게 활용하기가 어려움
비즈니스 장점
도메인 specific
ownership
위 세개의 이유로 LLM모델을 커스템하게 사용하는것을 원함
4) For many use cases : 1B~7B are sufficient.
모델사이즈는 1B, 7B면 충분하다. --> Llama모델
ex사례) 3B 정도의 BioMedLM 모델 --> 의학지식 관련 모델
결론적으로 3B~7B의 모델을 활용하면 비즈니스 가치가 있다.
-2부-
hosting llm
(1) running your llm in 5 min
[사진1]
(2) challenges in Running LLMs
- 비싼 비용
-LLM모델 운영할때 비용이 많이 든다 -- 연 5억
-너무 어렵다. --> custom하게 사용할떄는 많은 기술스택, 인프라, GPU 리소스 등 고려사항이 많다.
solution1
-80%의 비용을 절감하는 방법
1. 최적화된 LLM을 사용한다.
- 인프라
- [사진2]
- optimized llms
- 모델 정확도와 예측 속도를 트레이드오프한다
[사진3]
-빠른 예측 모델 --> vllm 모델
- LLama 2.c --> c언어로 코딩해서 CPU만으로 가능
[사진4]
2. Hybrid Cloud + Auto-Privisioner
- 클라우드를 활용해도 원하는 GPU 할당이 안된다
[사진5]
- 가능한 GPU를 찾아주는 서비스 생김
- Managed Spot - spot gpus --> AWS,GCP에서 자동으로 중지 될 수 있는 문제 있음
3. optimized cluster ops
- 내가 사용하는 시간만 gpu를 사용할수 있도록 만들어주는 기능
[사진6]
Deploy : real-time/ batch/ Serverless
[사진7]
[사진8] --> 노아껄로 뒤에 슬라이드 찍힘
[사진9]
[2] Challenge 2 -- Just too difficult!
- 인프라 등 기술적인 어려움
- 기업의 요구사항
-[사진10] --> GPU가 오랜 시간 학습하면 하다가 끊키거나
- 뤼튼과의 프로젝트의 사례 --> 업데이트하면서 모델을 학습시키는 것
-[사진11] --> How we got there --> 베셀AI가 제공하는 기능들
[3] VESSL LLM SUITE
- 여러 LLM모델
[사진12] --> 어떤 llm 모델을 사용하고 --> 베이스모델, optimized llm모델
- Yaml 파일 하나로 로드 간능하게 만든
-비용절감 솔루션
[사진13]
-하이브리드 GPU --> 가장 강력한 기닁
[사진14,15] 기타 기능들
[사진16] -- yaml파일 수정으로 llm 모델 튜닝 가능
[사진17] 모니터링 기능
[배치단위로 동작될수 있도록 ]- 파이프라인
제공하는 서비스 --> LLM 컨설팅 서비스, 개인화 가능
핵심기능
- 80% 비용절감효과를 내는 방법 --> spot 인스턴스, 하이브리드 클러스터, 옵티마이즈 LLM
QR코드, 인터넷 링크 --> 보충 자료
QnA
1) 베이스모델 개발후 -- 사내 프로젝트에 맞게 커스텀하게 학습해서 사용하는데
custom하게 한다는게 모델 개발을 해서 쓰는것인지
- pretrained된 llama모델을 사용하는것이다.
- 모델 경량화도 해볼 수 있지만 많이 쓰는 방법은 아니다.
- 7B 크기의 모델을 사용해도 충분하다.
2) 미국, 한국의 기업들의 요구사항의 차이가 있는지
- 미국에서는 LLM을 직접 학습해서 회사에 맞게 사용하기를 원하는 경우가 많음
ex) 블룸버그
- 기업에서 직접 LLM을 운영해보고 싶다는 기업은 적다.
3) 기업, 연구소와 합꼐 협업하는 포인트는?
- GPU cost절감등의 기능
- 인프라 구축
-LLM을 적용하는데 있어서 어려운점
- 스케터랩, 뤼튼과 협업을 진행
4) LLM인프라 직무, 라마2 CPU로 서빙할때와 GPU로 서빙할때의 차이?
- 나중에 article로 공유할예정 --> 블로그인가?
5) 모델은 그대로인데 서빙 기술이 따로 있나? --> 페이지드어텐션 알고리즘 ?
6) 데이터 보안 문제를 해결하는 솔루션이 있는지?
- 고객사 인프라에 콘트롤러를 올려버림
7) 모델의 수정, 구조 변경도 가능한지?
- 모듈화로 만들수있게 함
8) 배포후 성능이 떨어지는 경우
- 모델 퍼포먼스 대시보드 사용
- 일정 threshold 넘어가면 재학습등의 자동화
- SK에서는 ci/cd 작업을 통해 극복중
LLMs from playgrounds to production — LLM 서비스 배포와 운영
김준성, ML Engineer, 스캐터랩
어떻게 만들고 어떻게 배포할까? 슼랩의 좌추우돌 스토리
스캐터랩, 김준성
b2b로 사업모델 변경 -- pingpong AI
-슼랩만의 sLLM을 만든이유
(1) 대화퀄리티
(2) 연구자유도
(3) 데이터보안
(4) 운영비용
(5) 운영안정성
(1) 대화퀄리티
- 친구와의 대화에서 오는 위로 같은 custom한 서비스에 맞는 답변을 할수 없음
- fine tuning을 해도 어려움
(2)연구자유도
- 채팅서비스의 추가되는 기능이 필요함
- 멀티턴+이미지기반대화, RLHF, 사용자 메시지 읽씹
- 사진을보고 졸귀탱 등의 답변이 필요함
(3) 데이터 보안
- 개인정보 보호가 안됨
(4) 운영비용
- 수많은 트래픽에 대한 많은 비용
(5)운영안정성
- 챗지피티 사용시 답변 지연등의 문제가 빈번히 발생함
[사진] - 요약 노아가 찍은 사진에 있음
[사진] - 지피티의 모델 학습 비용 표 , 노아한테 있음
- 학습비용 < 추론비용
- 서빙비용 추산 [사진] 노아한테 있음
<어떻게 sLLM을 대량의 데이터로 pre-Training 할까?>
[사진] - 노아한테있음, 1회학습 가격표
[사진] - 디버깅, 수많은 에러로 학습비용이 기하급수적으로 증가
--> MosaicML 회사에서 이걸 해결주는 솔루션이 있음 LLM학습 솔루션
3개월만에 개발
<어떻게 sLLM을 테스크에 맞게 파인튜닝 할까>
- LLM진화과정 -->[사진] - 노아한테 있음
-LLM --> SFT -->
-RLHF
-20명의 ML연구자, 엔지니어 --> 한정된 GPU
A100 8장인데 쓰는건 1개 -- 효율적으로 사용하는게 힘듬
[사진] - 노아
-- VESSEL AI와 협업 시작
VESSEL AI의 장점 --> [사진]
가장큰 장점 -- spot instance 를 사용할수 있는게 장점
<어떻게 sLLM을 서비스에 배포할까>
-큰 모델을 어떻게 배포할까 -
-LLM 서빙시 발생하는 여러문제들
- 너무 비싼GPU 서빙비용
- 클라우드 GPU 리소스 부족
- 큰 LLM 모델을 올리기엔 부족한 GPU Memory
- CUDA 기반의 서빙 최적화 소프트웨어 개발
방법1. AWS 인프렌시아 HW 다변화
-->
방법2 spot instance 이용해서 비용절감
--> karpenter와 spot으로 저렴하고 유연하게 노드 프로비저닝하기
-->
방법3. 멀티 클라우드 운영
--> AWS, GCP, AZURE, Coreweave등 모든
--> 각 클라우드사마다 GPU종류가 달라서 문제 발생함, 메모리가 달라
--> A100이 부족함, A6000 사용
방법4. Quantization을 이용한 모델크기 압축/속도 향상
--> SmoothQuantization, AWQ 등
방법5. FriendliAI : Periflow serving Engine(PSE)
- 특허가 있음
- 최고의 LLM serving
-- [사진]
총정리
[사진] --> 노아 사진에 있음
- Inhouse로 LLM을 학습하기에는 시간적으로 너무 부족함
junseong.kim@ scatterlab.co.kr
facebook./ Linked in. codertimo
QnA
1) 대화형
- 대화히스토리 데이터
- 레그?를 활용한다고?
2) 데이터의 양이 어느정도인지?
- 공개불가
3) 대화형 LLM을 개발할때 어떤걸 베이스로 하는게 낫는지?
- 한국어 기반의 모델은 성능이 좋지 않음
- 파운데이션 모델을 사용시 , 튜닝이 잘못된건지, 파운데이션 모델이 잘못됐는지 알수 없다.
- 스크래치 모델 개발후 사용함
4) 이미지도 대화에 사용할 수 있는데 멀티모달 모델을 어떻게 하는지?
- 블로그글이 있음
Prompts for LLMs — 프롬프트 엔지니어링과 LLM 디버깅
Akira Shibata, Head of Japan & Korea, Weights & Biases
LLMOps를 뒷받침하는 WanDB
- LLM 앱 개발 프로세스
[사진] 노아 사진
블로그
wandb.me/llmpaper ?
'Trends' 카테고리의 다른 글
[스마일샤크]AWS 생성형 AI로 실현하는 비즈니스 살펴보기 (2) | 2024.03.25 |
---|---|
[세미나] AI in Finance 2024 by VESSL AI (0) | 2024.01.26 |
알짜 기업이 쓰는 진짜 AI - 24년 금융권 AI 도입 전략 (1) | 2024.01.22 |
Adieu 2023 with MLOps Community (0) | 2023.12.14 |
MLOps Now — MLOps & LLMOps 2023 주요 트렌드 (1) | 2023.11.24 |