Adieu 2023 with MLOps Community — across the universe

Agenda
19:00 ~ 19:10 Opening (마키나락스 임용섭 CDS)
19:10 ~ 19:40 Talk 1 - Navigating the Shift: From MLOps to LLMOps (Akira Shibata, Weights & Biases 일본/한국 지사장)

> In this talk, I'll take you on our journey from MLOps to LLMOps, exploring the profound implications of LLMs and other large foundation models on our development/operation workflow. Beyond technical considerations, we'll delve into the organizational aspects of these transformative changes and spotlight the essential tools crucial for success in LLMOps.

<내용>

주제 : MLOps vs LLMOps

추가되는 단계 - 벡터 데이터베이스/텍스트검색/앱
MLOps의 필요성
- 사전학습된 모델의 성능이 떨어질 수도있음
파인튜닝시의 문제상황
- open ai 논문 [authorship, credit Attribution, and (2023)]
- LLM의 평가 기준의 다양함이 존재.
  - alignment등등
  - reasoning, Roleplay, Writing
- W&B Launch를 통한 자동화된 LLM 평가
  - (사진) 데이터/모델관리 - 평가관리 -(컴퓨팅리소스) - 리더보드
  - GPT4를 이용해서 평가진행
- 많은 부서의 개입
  - R&D, 파운데이션 모델링 - 등록담당(개발대시보드, 기본언어테스트)
  - AI 개발 , 파인튜닝 - 승인담당(태스크 특화결과 ..)
  - 서비스 개발부서, 애플리케이션 개발 - QA담당 (성능평가, 유저테스트)
  - 조직간의 모델 관리 및 승인 절차의 Flow 확립
- 나아가야할 방향
  - 단계별, 조직별 UI/UX개발 필요하다

19:40 ~ 20:00 Talk 2 - GPU 인프라의 Serverless 아키텍처를 활용하여 확장성 있는 sLLM Fine-tuning 서비스를 만들기 위한 MLOps의 기술적 고려점 (고석현, Sionic ai 대표)

> PEFT (Parameter Efficient Fine Tuning) 과 같은 기술의 발전과 보급으로 인하여 sLLM 과 SD 등 1B 이상의 비교적 대규모 모델의 대한 상용화 수준의 커스텀 모델 학습의 비용이 합리적인 수준까지 도달 하였습니다. 이를 위하여 특히 미세조정-학습 형태의 Serverless 형태의 시스템은 많은 장점을 가지고 있고 딥러닝 모델의 튜닝과 서비스를 SaaS 수준의 제품과 결합하는데 큰 도움을 줍니다. 하지만 일반적인 Serverless 아키텍처와 비교하여 MLOps 타겟인 서비스의 경우 에서는 Container 수준에서 Artifact Registry의 대한 더 많은 고민이 필요합니다. 우리가 해당 문제를 해결하며 겪은 경험을 공유합니다.

<내용>

주제 : 서버리스 GPU

Severless
- model flow 구축 UI
GPU instance 비용
- 대안들
  - spot instance
서버리스 아키텍처
- vercel 기업
  - 서버리스 아키텍처를 잘 구축함
  - GPU
- Runpod 기업
- Beam 기업
실제 아키텍처
- (사진)
- API 서버 로드밸런서 - PROXY,
- 네트워크구현체 -
CPU서버와 다른점
- GPU는 컨테이너 추상화 레벨에서 나눠쓰기 어려운 구조
- TASK단위로 변하는중
컨테이너 배포, 컨테이너가 100GB가 넘어간다면? 어떻게?
- cuda 만 해도 10GB
네트워크에서의 관점
- Dragonfly
- Nypus -p2p컨테이너
라이센스 관점에서의 고려점
- Nvidia Tax
- A100등의 GPU가 특정 모델/배치/옵티마이저에서 효과가 떨어진다.
- Memory, bandwidth 에서의 차이가 있다.
Solution
- 멀티클라우드 구성 - AWS/GCP/AZURE
Mixture of Experts

20:00 ~ 20:20 Talk 3 - MLOps Transition in Action: 마키나락스의 과거, 현재, 그리고 미래 (김영휘, 마키나락스 MLOps 엔지니어)

> AI 프로젝트의 수와 규모가 커지면서 ML엔지니어가 모델 개발에만 집중할 수 있는 환경 구축이 필요했습니다. 이 세션에서는 다양한 시행착오를 겪으며 오픈소스 기반 아키텍처를 MLOps 플랫폼으로 전환하고, kubernetes와 데이터베이스의 마이그레이션을 진행한 경험을 공유합니다. 또한, 과거와 현재의 경험을 바탕으로 미래의 엔터프라이즈 MLOps 플랫폼이 갖추어야 할 필수 요건과 고려점에 대해 살펴봅니다.

<내용>

주제:

1. 오픈소스 LLM 아키텍처

2. 쿠버네티스와 데이터베이스의 통합

3. 마키나락스의 MLOps 2024 방향

MLOps란
- AWS발표에서 정의내린것 참고(사진)
- machine learning is an iterative process
KubeFlow를 주로 사용
MLOps의 필요성
- AI 프로젝트의 수와 규모 증가
- ML engineer는 모델 개발에만 집중할 수 있도록, 인프라 지식없이 (컨테이너, k8s, infra)
- Opensource 제공기능 이상의 필요(노트북 SSH)
- ML개발에서 반복적인 과정의 최적화, 자동화(Pipeline, serving, No/Low code)

아키텍처별 기능등

kubeflow로 파이프라인 만들기가 어려움(고려해야하는 Config가 너무 많음)
wandb로 저장후 deployment 가능
모델 tracker : 모니터링, logging, debugging

버전업 진행하면서
- kubernetes - Script, images, 폐쇄망 상황 대처 필요
- Script를 만들어 진행
- 스크립트 만든것을 이미지로 만들어서 진행(operation pod)
- 스크립트를 alembic과 동시에 진행(Alembic version 사용)
- downgrade는 역순 --> 사용자 요청에 따라

2024 방향성

interoperability : compute resource

클라우드 HPC 자원 연결하는 방안

Edge deployment

- Mpu칩에 tiny ML 넣기

- 제조업기반

No code/ low code in ML development

- Blink

Data centric aI

- A/B test shadowing

- drift detection

- 새로 수집된 데이터로 테스트 진행

20:20 ~ 21:30 Networking & Closing

'Trends' 카테고리의 다른 글

[스마일샤크]AWS 생성형 AI로 실현하는 비즈니스 살펴보기 (2)	2024.03.25
[세미나] AI in Finance 2024 by VESSL AI (0)	2024.01.26
알짜 기업이 쓰는 진짜 AI - 24년 금융권 AI 도입 전략 (1)	2024.01.22
MLOps Now — MLOps & LLMOps 2023 주요 트렌드 (1)	2023.11.24
[세미나] 모두의 연구소 「MLOps Now — LLM in Production by VESSL AI, Weights & Biases, and more」 (0)	2023.09.15

티스토리툴바