[세미나] 모두의 연구소 「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」

「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」

일시 : 2023.09.15. 13:00 ~ 16:00

장소 : 모두의연구소

Session 01. Infrastructure for LLMs — Llama 2 학습부터 파인튜닝, 배포까지

안재만, Co-founder & CEO, VESSL AI

1) VESSL AI

실리콘밸리 본사
국내 대기업, AI스타트업, 카이스트등 플랫폼 사용중

2) Does one large llm ~?

- 하나의 모델로 통합되는것이 아닌 개별의 모델이 더 성능이 좋을 것이다.

3) Why run your own models?

-privacy, cost, control

- (1) 보안에 대한 우려

- (2) 비용 - summarize english wikipedia to half(6M articles)

-(3) Control - 예상되지 못한 결과값, XAI로 융합하는등의 custom하게 활용하기가 어려움

비즈니스 장점

도메인 specific

ownership

위 세개의 이유로 LLM모델을 커스템하게 사용하는것을 원함

4) For many use cases : 1B~7B are sufficient.

모델사이즈는 1B, 7B면 충분하다. --> Llama모델

ex사례) 3B 정도의 BioMedLM 모델 --> 의학지식 관련 모델

결론적으로 3B~7B의 모델을 활용하면 비즈니스 가치가 있다.

-2부-

hosting llm

(1) running your llm in 5 min

[사진1]

(2) challenges in Running LLMs

- 비싼 비용

-LLM모델 운영할때 비용이 많이 든다 -- 연 5억

-너무 어렵다. --> custom하게 사용할떄는 많은 기술스택, 인프라, GPU 리소스 등 고려사항이 많다.

solution1

-80%의 비용을 절감하는 방법

1. 최적화된 LLM을 사용한다.

- 인프라

- [사진2]

- optimized llms

- 모델 정확도와 예측 속도를 트레이드오프한다

[사진3]

-빠른 예측 모델 --> vllm 모델

- LLama 2.c --> c언어로 코딩해서 CPU만으로 가능

[사진4]

2. Hybrid Cloud + Auto-Privisioner

- 클라우드를 활용해도 원하는 GPU 할당이 안된다

[사진5]

- 가능한 GPU를 찾아주는 서비스 생김

- Managed Spot - spot gpus --> AWS,GCP에서 자동으로 중지 될 수 있는 문제 있음

3. optimized cluster ops

- 내가 사용하는 시간만 gpu를 사용할수 있도록 만들어주는 기능

[사진6]

Deploy : real-time/ batch/ Serverless

[사진7]

[사진8] --> 노아껄로 뒤에 슬라이드 찍힘

[사진9]

[2] Challenge 2 -- Just too difficult!

- 인프라 등 기술적인 어려움

- 기업의 요구사항

-[사진10] --> GPU가 오랜 시간 학습하면 하다가 끊키거나

- 뤼튼과의 프로젝트의 사례 --> 업데이트하면서 모델을 학습시키는 것

-[사진11] --> How we got there --> 베셀AI가 제공하는 기능들

[3] VESSL LLM SUITE

- 여러 LLM모델

[사진12] --> 어떤 llm 모델을 사용하고 --> 베이스모델, optimized llm모델

- Yaml 파일 하나로 로드 간능하게 만든

-비용절감 솔루션

[사진13]

-하이브리드 GPU --> 가장 강력한 기닁

[사진14,15] 기타 기능들

[사진16] -- yaml파일 수정으로 llm 모델 튜닝 가능

[사진17] 모니터링 기능

[배치단위로 동작될수 있도록 ]- 파이프라인

제공하는 서비스 --> LLM 컨설팅 서비스, 개인화 가능

핵심기능

- 80% 비용절감효과를 내는 방법 --> spot 인스턴스, 하이브리드 클러스터, 옵티마이즈 LLM

QR코드, 인터넷 링크 --> 보충 자료

QnA

1) 베이스모델 개발후 -- 사내 프로젝트에 맞게 커스텀하게 학습해서 사용하는데

custom하게 한다는게 모델 개발을 해서 쓰는것인지

- pretrained된 llama모델을 사용하는것이다.

- 모델 경량화도 해볼 수 있지만 많이 쓰는 방법은 아니다.

- 7B 크기의 모델을 사용해도 충분하다.

2) 미국, 한국의 기업들의 요구사항의 차이가 있는지

- 미국에서는 LLM을 직접 학습해서 회사에 맞게 사용하기를 원하는 경우가 많음

ex) 블룸버그

- 기업에서 직접 LLM을 운영해보고 싶다는 기업은 적다.

3) 기업, 연구소와 합꼐 협업하는 포인트는?

- GPU cost절감등의 기능

- 인프라 구축

-LLM을 적용하는데 있어서 어려운점

- 스케터랩, 뤼튼과 협업을 진행

4) LLM인프라 직무, 라마2 CPU로 서빙할때와 GPU로 서빙할때의 차이?

- 나중에 article로 공유할예정 --> 블로그인가?

5) 모델은 그대로인데 서빙 기술이 따로 있나? --> 페이지드어텐션 알고리즘 ?

6) 데이터 보안 문제를 해결하는 솔루션이 있는지?

- 고객사 인프라에 콘트롤러를 올려버림

7) 모델의 수정, 구조 변경도 가능한지?

- 모듈화로 만들수있게 함

8) 배포후 성능이 떨어지는 경우

- 모델 퍼포먼스 대시보드 사용

- 일정 threshold 넘어가면 재학습등의 자동화

- SK에서는 ci/cd 작업을 통해 극복중

LLMs from playgrounds to production — LLM 서비스 배포와 운영

김준성, ML Engineer, 스캐터랩

어떻게 만들고 어떻게 배포할까? 슼랩의 좌추우돌 스토리

스캐터랩, 김준성

b2b로 사업모델 변경 -- pingpong AI

-슼랩만의 sLLM을 만든이유

(1) 대화퀄리티

(2) 연구자유도

(3) 데이터보안

(4) 운영비용

(5) 운영안정성

(1) 대화퀄리티

- 친구와의 대화에서 오는 위로 같은 custom한 서비스에 맞는 답변을 할수 없음

- fine tuning을 해도 어려움

(2)연구자유도

- 채팅서비스의 추가되는 기능이 필요함

- 멀티턴+이미지기반대화, RLHF, 사용자 메시지 읽씹

- 사진을보고 졸귀탱 등의 답변이 필요함

(3) 데이터 보안

- 개인정보 보호가 안됨

(4) 운영비용

- 수많은 트래픽에 대한 많은 비용

(5)운영안정성

- 챗지피티 사용시 답변 지연등의 문제가 빈번히 발생함

[사진] - 요약 노아가 찍은 사진에 있음

[사진] - 지피티의 모델 학습 비용 표 , 노아한테 있음

- 학습비용 < 추론비용

- 서빙비용 추산 [사진] 노아한테 있음

<어떻게 sLLM을 대량의 데이터로 pre-Training 할까?>

[사진] - 노아한테있음, 1회학습 가격표

[사진] - 디버깅, 수많은 에러로 학습비용이 기하급수적으로 증가

--> MosaicML 회사에서 이걸 해결주는 솔루션이 있음 LLM학습 솔루션

3개월만에 개발

<어떻게 sLLM을 테스크에 맞게 파인튜닝 할까>

- LLM진화과정 -->[사진] - 노아한테 있음

-LLM --> SFT -->

-RLHF

-20명의 ML연구자, 엔지니어 --> 한정된 GPU

A100 8장인데 쓰는건 1개 -- 효율적으로 사용하는게 힘듬

[사진] - 노아

-- VESSEL AI와 협업 시작

VESSEL AI의 장점 --> [사진]

가장큰 장점 -- spot instance 를 사용할수 있는게 장점

<어떻게 sLLM을 서비스에 배포할까>

-큰 모델을 어떻게 배포할까 -

-LLM 서빙시 발생하는 여러문제들

- 너무 비싼GPU 서빙비용

- 클라우드 GPU 리소스 부족

- 큰 LLM 모델을 올리기엔 부족한 GPU Memory

- CUDA 기반의 서빙 최적화 소프트웨어 개발

방법1. AWS 인프렌시아 HW 다변화

-->

방법2 spot instance 이용해서 비용절감

--> karpenter와 spot으로 저렴하고 유연하게 노드 프로비저닝하기

-->

방법3. 멀티 클라우드 운영

--> AWS, GCP, AZURE, Coreweave등 모든

--> 각 클라우드사마다 GPU종류가 달라서 문제 발생함, 메모리가 달라

--> A100이 부족함, A6000 사용

방법4. Quantization을 이용한 모델크기 압축/속도 향상

--> SmoothQuantization, AWQ 등

방법5. FriendliAI : Periflow serving Engine(PSE)

- 특허가 있음

- 최고의 LLM serving

-- [사진]

총정리

[사진] --> 노아 사진에 있음

- Inhouse로 LLM을 학습하기에는 시간적으로 너무 부족함

junseong.kim@ scatterlab.co.kr

facebook./ Linked in. codertimo

QnA

1) 대화형

- 대화히스토리 데이터

- 레그?를 활용한다고?

2) 데이터의 양이 어느정도인지?

- 공개불가

3) 대화형 LLM을 개발할때 어떤걸 베이스로 하는게 낫는지?

- 한국어 기반의 모델은 성능이 좋지 않음

- 파운데이션 모델을 사용시 , 튜닝이 잘못된건지, 파운데이션 모델이 잘못됐는지 알수 없다.

- 스크래치 모델 개발후 사용함

4) 이미지도 대화에 사용할 수 있는데 멀티모달 모델을 어떻게 하는지?

- 블로그글이 있음

Prompts for LLMs — 프롬프트 엔지니어링과 LLM 디버깅

Akira Shibata, Head of Japan & Korea, Weights & Biases

LLMOps를 뒷받침하는 WanDB

- LLM 앱 개발 프로세스

[사진] 노아 사진

블로그

wandb.me/llmpaper ?

'PM > 세미나 후기' 카테고리의 다른 글

[스마일샤크]AWS 생성형 AI로 실현하는 비즈니스 살펴보기 (2)	2024.03.25
[세미나] AI in Finance 2024 by VESSL AI (0)	2024.01.26
알짜 기업이 쓰는 진짜 AI - 24년 금융권 AI 도입 전략 (1)	2024.01.22
Adieu 2023 with MLOps Community (0)	2023.12.14
MLOps Now — MLOps & LLMOps 2023 주요 트렌드 (1)	2023.11.24

「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」

Session 01. ​Infrastructure for LLMs — Llama 2 학습부터 파인튜닝, 배포까지

​LLMs from playgrounds to production — LLM 서비스 배포와 운영

'PM > 세미나 후기' 카테고리의 다른 글

티스토리툴바

Session 01. Infrastructure for LLMs — Llama 2 학습부터 파인튜닝, 배포까지

LLMs from playgrounds to production — LLM 서비스 배포와 운영