PM/세미나 후기

MLOps Now — MLOps & LLMOps 2023 주요 트렌드

버터젤리 2023. 11. 24. 12:18

MLOps Now — MLOps & LLMOps

  • 일시 — 2023년 11월 24일 오후 2시
  • 장소 — 모두의연구소 강남캠퍼스
  • 발표 내용 및 연사 —
    • MLOps & LLMOps 2023 트렌드 - 안재만, Co-founder & CEO, VESSL AI
    • 프로덕션 LLM을 위한 ​MLOps & AI 인프라 - 류인태, Product Manager, VESSL AI
    • 고군분투 LLM 프로덕트 적용기 — Blind Prompting 부터 Agent까지  - Technical Lead & ML Engineer, LINER
    • LLM 기반 추천 시스템 개발기 - 이태호, Technical Lead, Corca

 

 

MLOps & LLMOps 2023 트렌드 - 안재만, Co-founder & CEO, VESSL AI

1) LLMOps는? MLOps와의 차이는?

    차이점 3가지

     (1) Transfer learning - 

     (2) Compute management - 컴퓨팅의 효율적인 운영

     (3) Feedback loops - LLM은 평가기준이 어렵다. 평가기준을 세우고 성능 향상을 만드는게 더 어려워짐

  - 어떻게 변화 되었나?

    - 새로운 컴포넌트가 생겨남

    - 하부에는 컴퓨팅 효율적 운용을 위한 컴포넌트가 생겨남

https://www.insightpartners.com/ideas/llmops-mlops-what-you-need-to-know/

 

Navigating the LLMops landscape: What you need to know

At Insight, we have been closely monitoring the rise of enterprise adoption of artificial intelligence (AI) for years – from the industry-specific applications of AI we first started tracking in 2017, the “MLops” infrastructure companies we discussed

www.insightpartners.com

 

 - LLM Maturity model

    - lv1 --> In context learning 프롬프트 엔지니어링

   - lv2  --> RAG, 사내 파일 입력후  답변 생성

   - lv3 --> Fine tuning

   - lv4 --> Training

    ex) Gernerative AI Personalization stack 

         (01)프롬프트 설정, 버전관리, 

         (02) RAG, 사내 문서를 벡터DB에 주입, LLM이 벡터 DB를 바탕으로 답변을 생성

         (03) Fine tuninig --> 부작용이 많다. 원래 답변 수준을 망칠 가능성이 있다. RAG만으로 부족할때 시도해보는게 좋다

 

"LLM 학습부터 배포까지 하나의 단일한 인터페이스로 어떤 환경에서나 쉽게 노트북부터 파이프라인까지"

 

< Insights from MLOps world 2023.10.25~26 >

7 keywords

 (1) LLMOps

 (2) Finetuning LLMs

 (3) Deploy LLMs

 (4) LLM Evaluation

 (5) Security/ Privacy

 (6) RAG

 (7) Business/ Enterprise

 기업별 사례

  01. Meta : Future of end to end ML Platform

    - GPU의 Failure 발생했을때 어떻게 제외하고 모델을 안정적으로 학습시킬것인가?

    - working well 할 수 있는 슈퍼컴퓨팅 자원(RSC) 연구를 한다, 딥러닝 모델이 잘 작동하는 칩을 설계한다.

    - Acadia : 하드웨어적인 부분. 만장정도의 GPU를 사용했을때 어느정도 퍼포먼스가 나오는지

                    네트워크 트래픽, 이걸 어떻게 효율적으로 관리할 수 있는지 연구

02. Instacart : Supercharging ML/AI Foundations

   - In-House ML Platform development  --> 3년 정도 걸림

  - vessl ai와 같은 솔루션으로 플랫폼을 제작하고 모델들을 하나씩 올려가고 있는중

 

프로덕션 LLM을 위한 ​MLOps & AI 인프라 - 류인태, Product Manager, VESSL AI

내용

바라보는 시장의 관점 , 어떻게 제품에 녹여내는가?

 

3 WHY

1) 왜 라마를 쓰는지

2) 왜 셀프 호스트 해야하는지

 3) 제품레벨에서 deploy하려면 어떻게 해야 하는지

 

1) 오픈소스 모델 

 - 리더보드 --> lmsys leaderboard

 - gpt4가 성능이 가장 좋음

 - 오픈소스는 성능이 비교적 낮을 수 밖에 없다 --> 투자가 없기 때문

 - openai fine tuning 비용 --> 4~12불 한번당

- 오픈소스로 파인튜닝하면 --> 인력고용, AWS비용 --> 80불 per fine-tuning

 **특정 분야에 특화된 LLM모델 만들기에서 어느것이 나은가?

  - LOL 챗봇을 만든다고 한다면? 

    - 아직 LOL 관련 질문에 제대로된 답을 못함, need more context 요청함

    - 오픈소스 모델은 gpt4와 싸워 성능이 잘나오는게 아니라 파인튜닝 잘하는 모델로 개발되야 한다

  - Open Source LLMs Direction 2 : Downstream Tasks

     - 작은 모델이라도 다운스트림에서 , 특정 도메인에서 성능을 잘 낼수 있는 모델로 개발해야 하낟.

 

2)왜 셀프 호스트 해야 하는가

 - 보안 -> over data

  -Control --> 연구 방향이 과도기적 성향,  SFT/RLHF/Multi-model/RAG 등 방향성이 너무 자주 바뀌어서 

                        자신만의 모델이 있는게 대응해 나가기 쉽다

 - Operation Stability - Open AI 서버가 터지면 대응이 어렵다

 - Transparency - Open AI에서 어떻게 운용하는지 알수 없다--> 개선할 수 없다.

 

3) VESSLAI 에서는 어떻게 제품화하고 있나?

 - 제품개발 철학 The atomic unit of MLOps --> 쪼갤수있는대로 쪼개서 구현하기

 - 여러기능의 묶음 --> 파이프라인 

 - VESSL RUN 

     - Import : 다운로드 데이터

    - Mount : Direct mount to run container

    - Export : upload artifacts to storage -- 파라미터, 데이터 등

    - resources --> spec, lmage, cluster

  -yaml파일로 정리 -- 메타 데이터, 리소스, 볼륨, 런컨피그 

 

RAG TEST 질문 --> what is Haerae? --> 해래는 한 논문에서 정의된 단어, 이걸 RAG로 적용해보고 질문해보고 알맞은 답변을 주는지 TEST 해봄

 

 

 

고군분투 LLM 프로덕트 적용기 — Blind Prompting 부터 Agent까지  - 허훈 Technical Lead & ML Engineer, LINER

허훈, 라이너,카카오브레인, NLP 개발자

liner workspace 

 

1) Prompt Engineering

 - 오픈에이아이에 프롬프트 가이드도 제공하고 있음

 - LLM들은 대부분 프롬프트 엔지니어링 가이드는 비슷비슷함

 - 프롬프트 수정으로 성능 개선이 이루어지고 있는게 맞나? 라는 생각을 하게됨

 - --> 'Blind Prompting'  트라이얼, 에러에 대한 접근이다., 감으로 프롬프트 하는 거임

 

2) TEST CODE , 사전 정의된 질문을 가지고 프롬프트를 사용할때마다 테스트를 해보게 함

  - 그러나 상황에 따라 다른 대답을 하는 LLM으로 인해 부정확한 방법이 됨

  - 오픈에이아이에서 Seed Parameter를 내놓음.--> 하지만 most of time에 이라고 한정해서 완전한 방법은 아니었음

  - 그러므로 매번 같은 결과가 나오지 않을 수 있다고 가정하고 테스트를 진행해야함

  - 테스트 케이스가 많아지고, 시행횟수를 높일수록 일반화된 성능 경향을 발견 할 수 있음

 

3) RAG 

  - Liner는 추천시스템

  - Annoy, FAISS, ScaNN, Milvus 다써보고 --> Elastic Search로 정착 --> term matching 서치

  - 벡터서치만으로 답이 없다 , --> 텀매칭, 벡터서칭 을 모두 사용하는 하이브리드로 사용

  - 펑션스코어 분포를 시각화해서 관리하는게 필요함 --> Grafana 사용

 

4) KEY Management

5) MODEL Management

 - 11월8일에 open ai 러시아 Ddos 공격있었음, 사이트 정지됨

 - Closed model 형태 필요성이 대두됨

 - 여러 파운데이션 모델을 사용하는 안전 파이프라인을 구축하는게 필요해짐 (Fall back 로직)

6) 조언들

  - open ai 에서 발표한 영상자료가 앱 개발에 도움될거임, 안드레아가 발표한거 USE GPT-4

  -  Reasoning 이 많이 필요한 문제라면 GPT4를 쓰는걸 추천

 - Reasioning 이 많이 안필요하면 LLama2, Palm을 쓰는게 나음 *MT - Bench Score 참고 --> 공부하자!!

 6-2) 블랭크 페이지 신드롬 

  - 꼭 대화형으로 개발할 필요는 없다.--> 대화형의 단점이 있다. 어떤걸 해야할지 첫페이지에서는 사용자는 모른다.

  - Linus Lee 의 발표 영상 보기! 맥락과 의도의 중요성

 - Intent , action, context를 기반으로 서비스는 구성됨을 인지하고 있다면 대화형 플랫폼에 귀속되지 않고 사고 할 수 있다.

 - 예시) 대화형이 언제 필요한지? 효용을 느끼기 어렵다.

 - 바로 효용을 제공할 수 있는 기능을 제공해야 한다. --> ASK AI ---> SUMMARY로 바꿈 --> 지표를 통해 UI 개선효과 확인

7) 시작할때부터 평가를 준비하자

  - wandb에서 LLM관련 기능을 출시하고있음

  - Prompt 넣었을때 스코어 어떻게 변화하는지 시각화 

8) LLMOPs 플랫폼이 빠르게 성숙하는 중

  - 실리콘밸리에서도 MLOPs 플랫폼 개발에 집중하고있다.

  - pain point를 해소해주는 LLMOps 제품 많이 나오고 있다. --> vellum

 

어떻게 측정하는가 ? 성능을

Intent 케이스에 따라 평가해야함

GPT4로 테스트해보는게 낫지않나?

테스트 할때 안풀리는 문제의 원인을 어디로 판단해야할까?

 - low level 부터 테스트해보고 해결이 되는지 확인 해보는게 좋다.

 

데이터의 폼이 다르다. PDF도 다 다르다 single컬럼, double 컬럼?

일반화된 로직을 짜는방법은 아직 어렵다. 

일반화된 로직을 안짜면 레이턴시가 길다.   

 

LLM 기반 추천 시스템 개발기 - 이태호, Technical Lead, Corca

광고 B2B SaaS solution

- 추천시스템 개발 업체

코르카 에이전트의 시작

코르카의 LLM

 

1) 18개월 동안 코르카가 바라본 LLM, PoC 해본것들

 - LLM으로 무엇을 할까

2) 코르카의 LLM 개발

 - 에이전트란? LLM을 활용하는 객체의 단위, 미션/행동/도구/외부지식

- EVAL -- coding, CORCA .ai 툴

   - terminal, Code Editor 도구 개발을 통해 직접 코딩, 디버깅, 테스트, 배포 할 수 있도록 권한을 LLM에게 줌

   - Langchain 활용

   - 전세계 최초로 웹서비스를 개발하고 서빙하는 첫 에이전트였음

 

3) AI vilization

  - Agent가 여러명일 필요성 --> 도구, 권한을 너무 많이 주면 , 사람처럼 힘들어함,, 역할분담을 나눠서 하는게 낫다

 - 도구를 쥐어주지 말고 직접 사용하면서 개선한다면?

  - AGI의 궁극적인 형태이며 지능이 하나가 아니라 지능의 집단이자 문명

 - 같은 GPT인데 ?의미가 있어? --> 대화를 하면서 학습이 된다면?, 학습이 될까?

 

4) 코르카의 제품화된 LLM

 - LLM으로 성공할 프로덕트는? --> 파도를 거스르지말고 파도위에 올라타라

    - open ai, google, meta를 따라가라

    - Do Things that don't scale. 

  - 어떻게?

   - Agent를 새로운 공간으로 옮기자 ! --> ADCIO Agent

      - Coplilot이 잘 된 이유는 성능보다 쓰기 쉬워서이고 쓰기 쉬운 이유는 코딩창 안에 있기 떄문이다.

   - Agent간의 협력구조를 만들자 --> Agent Village

     - 확장가능한 Agent를 확대하자

 

 - ADCIO Agent

   - 검색이 잘되는 이커머스 플랫폼은 많지 않다.

   - 대화를 토대로 사용자의 니즈를 분석하여 상품을 추천해준다면?

   - 대화 지면을 광고에 사용한다면? --> 대화창에 광고 경매를 매긴다면?

   - 대화를 통해 유저의 의도를 얼마나 정확하게 이해하고 얼마나 정확하게 수행할 수 있는가?

     - Keyword Search ( Elastic Search)

    - Vector Search ( Weaviate, Pinecone,..)

    - Text to SQL

 - 에이전트를 매장의 점원으로 만들자!

 

- 웹브라우징에서 개인화된 광고, 상품을 보여주게 하는 컨셉.

 남자가 검색했는데 여자 용품 나오는건 불필요한 광고, 상품을 보여주는 거임

 

오픈소스 모델 성능을 gpt보다 높이는 방법

-Real time reverse fine tuning

   - 대화 프롬프트를 바탕으로 바로 학습을 진행 --> 따로 pre프롬프트 넣거나 할 필요가 없음

   - In-context learning을 대체하자.

   - context를 실시간으로 parameter에 반영해버리자

 

Advantage 1. 추론비용 대폭감소  2. Text-based RLHF 를 통해 Agent 진화  3. 에이전트 간의 대화를 토대로 실시간 학습가능     --> Multi-Agent 협업시 job이 생김

 

Q) Adversarial attack 은 어떻게 하나요?Q) 몇턴 정도의 대화를 통해 파악할 수 있나?     - 너가 원한게 이게 맞아? 라는 질문을 하도록 하고 확인하는 방식으로 진행

-오픈소스 모델로 제품화하는 곳은 그렇게 많지 않다...

 A100 8장으로 사용 중