[세미나] 모두의 연구소 「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」

2023. 9. 15. 15:23·PM/세미나 후기

「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」

일시 : 2023.09.15.  13:00 ~ 16:00

장소 : 모두의연구소

 

 

 

Session 01. ​Infrastructure for LLMs — Llama 2 학습부터 파인튜닝, 배포까지

​안재만, Co-founder & CEO, VESSL AI

 

1) VESSL AI

  • 실리콘밸리 본사 
  • 국내 대기업, AI스타트업, 카이스트등  플랫폼 사용중

 

2)  Does one large llm ~?

- 하나의 모델로 통합되는것이 아닌 개별의 모델이 더 성능이 좋을 것이다.

 

3) Why run your own models?

-privacy, cost, control

- (1) 보안에 대한 우려

- (2) 비용 -  summarize english wikipedia to half(6M articles) 

 -(3) Control - 예상되지 못한 결과값, XAI로 융합하는등의 custom하게 활용하기가 어려움 

 

비즈니스 장점

도메인 specific

ownership

위 세개의 이유로 LLM모델을 커스템하게 사용하는것을 원함

 

4) For many use cases : 1B~7B are sufficient.

 모델사이즈는 1B, 7B면 충분하다. --> Llama모델

ex사례) 3B 정도의 BioMedLM 모델 --> 의학지식 관련 모델

결론적으로 3B~7B의 모델을 활용하면 비즈니스 가치가 있다.

 

-2부-

hosting llm

(1) running your llm in 5 min

[사진1]

 

(2) challenges in Running LLMs

- 비싼 비용

   -LLM모델 운영할때 비용이 많이 든다 -- 연 5억

-너무 어렵다. --> custom하게 사용할떄는 많은 기술스택, 인프라, GPU 리소스 등 고려사항이 많다. 

 solution1

 -80%의 비용을 절감하는 방법

   1. 최적화된 LLM을 사용한다.

   - 인프라 

   - [사진2]

  - optimized llms

     - 모델 정확도와 예측 속도를 트레이드오프한다

 [사진3]

    -빠른 예측 모델 --> vllm 모델

    - LLama 2.c --> c언어로 코딩해서 CPU만으로 가능

[사진4]

 

2. Hybrid Cloud + Auto-Privisioner

  - 클라우드를 활용해도 원하는 GPU 할당이 안된다

[사진5]

  - 가능한 GPU를 찾아주는 서비스 생김

 - Managed Spot - spot gpus --> AWS,GCP에서 자동으로 중지 될 수 있는 문제 있음

 

3. optimized cluster ops

 - 내가 사용하는 시간만 gpu를 사용할수 있도록 만들어주는 기능

[사진6]

 

Deploy : real-time/ batch/ Serverless

[사진7]

[사진8] --> 노아껄로 뒤에 슬라이드 찍힘

[사진9]

 

[2] Challenge 2 -- Just too difficult!

- 인프라 등 기술적인 어려움

- 기업의 요구사항

 -[사진10] --> GPU가 오랜 시간 학습하면 하다가 끊키거나

 - 뤼튼과의 프로젝트의  사례 --> 업데이트하면서 모델을 학습시키는 것

 -[사진11] --> How we got there --> 베셀AI가 제공하는 기능들

 

[3] VESSL LLM SUITE

- 여러 LLM모델 

 [사진12] --> 어떤 llm 모델을 사용하고 --> 베이스모델, optimized llm모델

- Yaml 파일 하나로 로드 간능하게 만든

 

-비용절감 솔루션

 [사진13]

 -하이브리드 GPU --> 가장 강력한 기닁

 

[사진14,15] 기타 기능들

[사진16] -- yaml파일 수정으로 llm 모델 튜닝 가능

[사진17] 모니터링 기능

[배치단위로 동작될수 있도록 ]- 파이프라인

 

제공하는 서비스 --> LLM 컨설팅 서비스, 개인화 가능

핵심기능

 - 80% 비용절감효과를 내는 방법 --> spot 인스턴스, 하이브리드 클러스터, 옵티마이즈 LLM

QR코드, 인터넷 링크 --> 보충 자료 

 

QnA

1) 베이스모델 개발후 -- 사내 프로젝트에 맞게 커스텀하게 학습해서 사용하는데

custom하게 한다는게 모델 개발을 해서 쓰는것인지

 - pretrained된 llama모델을 사용하는것이다.

 - 모델 경량화도 해볼 수 있지만 많이 쓰는 방법은 아니다.

 - 7B 크기의 모델을 사용해도 충분하다.

 2) 미국, 한국의 기업들의 요구사항의 차이가 있는지

  - 미국에서는 LLM을 직접 학습해서 회사에 맞게 사용하기를 원하는 경우가 많음

    ex) 블룸버그 

 - 기업에서 직접 LLM을 운영해보고 싶다는 기업은 적다.

 3) 기업, 연구소와 합꼐 협업하는 포인트는? 

  - GPU cost절감등의 기능

 - 인프라 구축

 -LLM을 적용하는데 있어서 어려운점

 - 스케터랩, 뤼튼과 협업을 진행

4) LLM인프라 직무, 라마2 CPU로 서빙할때와 GPU로 서빙할때의 차이?

 - 나중에 article로 공유할예정 --> 블로그인가?

 5) 모델은 그대로인데 서빙 기술이 따로 있나? --> 페이지드어텐션 알고리즘 ? 

6) 데이터 보안 문제를 해결하는 솔루션이 있는지?

 - 고객사 인프라에 콘트롤러를 올려버림

7) 모델의 수정, 구조 변경도 가능한지? 

 - 모듈화로 만들수있게 함

8) 배포후 성능이 떨어지는 경우 

 - 모델 퍼포먼스 대시보드 사용

 - 일정 threshold 넘어가면 재학습등의 자동화  

 - SK에서는 ci/cd 작업을 통해 극복중

 

 

​LLMs from playgrounds to production — LLM 서비스 배포와 운영

김준성, ML Engineer, 스캐터랩

 

어떻게 만들고 어떻게 배포할까? 슼랩의 좌추우돌 스토리

스캐터랩, 김준성

 

b2b로 사업모델 변경 -- pingpong AI

-슼랩만의 sLLM을 만든이유

(1) 대화퀄리티

(2) 연구자유도

(3) 데이터보안

(4) 운영비용

(5) 운영안정성

 

(1) 대화퀄리티

 - 친구와의 대화에서 오는 위로 같은 custom한 서비스에 맞는 답변을 할수 없음

 - fine tuning을 해도 어려움

(2)연구자유도

 - 채팅서비스의 추가되는 기능이 필요함 

 - 멀티턴+이미지기반대화, RLHF, 사용자 메시지 읽씹

 - 사진을보고 졸귀탱 등의 답변이 필요함

(3) 데이터 보안

 - 개인정보 보호가 안됨

(4) 운영비용

 - 수많은 트래픽에 대한 많은 비용

(5)운영안정성

 - 챗지피티 사용시 답변 지연등의 문제가 빈번히 발생함

[사진] - 요약 노아가 찍은 사진에 있음

[사진] - 지피티의 모델 학습 비용 표 , 노아한테 있음

 

- 학습비용 < 추론비용

- 서빙비용 추산  [사진] 노아한테 있음

 

<어떻게 sLLM을 대량의 데이터로 pre-Training 할까?>

[사진] - 노아한테있음, 1회학습 가격표

[사진] - 디버깅, 수많은 에러로 학습비용이 기하급수적으로 증가

--> MosaicML 회사에서 이걸 해결주는 솔루션이 있음 LLM학습 솔루션

3개월만에 개발

 

<어떻게 sLLM을 테스크에 맞게 파인튜닝 할까>

- LLM진화과정 -->[사진] - 노아한테 있음

-LLM --> SFT -->

-RLHF

-20명의 ML연구자, 엔지니어 --> 한정된 GPU 

A100 8장인데 쓰는건 1개 -- 효율적으로 사용하는게 힘듬

[사진] - 노아 

-- VESSEL AI와 협업 시작

VESSEL AI의 장점 --> [사진] 

가장큰 장점 -- spot instance 를 사용할수 있는게 장점

 

<어떻게 sLLM을 서비스에 배포할까>

-큰 모델을 어떻게 배포할까 -

-LLM 서빙시 발생하는 여러문제들

  - 너무 비싼GPU 서빙비용

  - 클라우드 GPU 리소스 부족

  - 큰 LLM 모델을 올리기엔 부족한 GPU Memory

  - CUDA 기반의 서빙 최적화 소프트웨어 개발

 

방법1. AWS 인프렌시아 HW 다변화

 --> 

방법2 spot instance 이용해서 비용절감

 --> karpenter와 spot으로 저렴하고 유연하게 노드 프로비저닝하기

 --> 

방법3. 멀티 클라우드 운영 

  --> AWS, GCP, AZURE, Coreweave등 모든

  --> 각 클라우드사마다 GPU종류가 달라서 문제 발생함, 메모리가 달라 

  --> A100이 부족함, A6000 사용

 방법4. Quantization을 이용한 모델크기 압축/속도 향상

 --> SmoothQuantization, AWQ 등

방법5. FriendliAI : Periflow serving Engine(PSE)

- 특허가 있음

 - 최고의 LLM serving 

-- [사진] 

 

총정리 

 [사진] --> 노아 사진에 있음

 - Inhouse로 LLM을 학습하기에는 시간적으로 너무 부족함

junseong.kim@ scatterlab.co.kr

facebook./ Linked in. codertimo

 

QnA

1) 대화형 

 - 대화히스토리 데이터 

 - 레그?를 활용한다고?

2) 데이터의 양이 어느정도인지?

 - 공개불가

3) 대화형 LLM을 개발할때 어떤걸 베이스로 하는게 낫는지?

 - 한국어 기반의 모델은 성능이 좋지 않음

 - 파운데이션 모델을 사용시 , 튜닝이 잘못된건지, 파운데이션 모델이 잘못됐는지 알수 없다.

 - 스크래치 모델 개발후 사용함

4) 이미지도 대화에 사용할 수 있는데 멀티모달 모델을 어떻게 하는지?

 - 블로그글이 있음

 

 

​Prompts for LLMs — 프롬프트 엔지니어링과 LLM 디버깅

​Akira Shibata, Head of Japan & Korea, Weights & Biases

 

LLMOps를 뒷받침하는 WanDB

 

- LLM 앱 개발 프로세스

[사진] 노아 사진

 

블로그 

wandb.me/llmpaper ?

 

 

'PM > 세미나 후기' 카테고리의 다른 글

[스마일샤크]AWS 생성형 AI로 실현하는 비즈니스 살펴보기  (2) 2024.03.25
[세미나] AI in Finance 2024 by VESSL AI  (0) 2024.01.26
알짜 기업이 쓰는 진짜 AI - 24년 금융권 AI 도입 전략  (1) 2024.01.22
Adieu 2023 with MLOps Community  (0) 2023.12.14
MLOps Now — MLOps & LLMOps 2023 주요 트렌드  (1) 2023.11.24
'PM/세미나 후기' 카테고리의 다른 글
  • [세미나] AI in Finance 2024 by VESSL AI
  • 알짜 기업이 쓰는 진짜 AI - 24년 금융권 AI 도입 전략
  • Adieu 2023 with MLOps Community
  • MLOps Now — MLOps & LLMOps 2023 주요 트렌드
버터젤리
버터젤리
  • 버터젤리
    across the universe
    버터젤리
  • 전체
    오늘
    어제
    • 분류 전체보기 (135) N
      • 데이터 엔지니어 (3) N
        • MLOPs (0)
      • 인프라 및 클라우드 (0)
        • Docker (0)
        • Kubernetes (0)
      • Development(개발) (5)
        • 백엔드 (0)
        • 개발 Core (5)
      • LLM (4)
        • 강화학습 (0)
        • LLM (4)
        • Generator (0)
      • PM (7)
        • IT Trends (0)
        • 세미나 후기 (7)
      • Deep learning (30)
        • 기초이론 (8)
        • 컴퓨터비전 (6)
        • 자연어처리 (5)
        • Anomaly Detection (6)
      • Machine learning (25)
      • Computer Science (26)
        • Linux (21)
        • 네트워크 (1)
        • 하드웨어 (4)
        • 운영체제(OS) (0)
      • 프로그래밍 언어 (17)
        • Python (8)
        • Pytorch (8)
        • Tensorflow (0)
      • Tools (1)
        • 주피터노트북 (7)
        • 깃(Git) (2)
        • 파이참 (5)
      • Book (2)
      • LIFE (0)
      • 창고 (0)
        • AI 인턴 (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    batch normalization
    sbml
    객체지향의사실과오해
    rbml
    BatchNormalization
    #git#github
    hml
    역할
    책임
    객사오
    역할과책임
    nohup
    jupyer notebook
    리눅스#파일이동#특정이름#포함
    BN
    백그라운드
    @
    객체지향
    데코레이터
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.1
버터젤리
[세미나] 모두의 연구소 「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」
상단으로

티스토리툴바