Learn

[논문리뷰] Foundation Model랑 LLM 같죠? (부제 : Foundation Model에 대하여)

부루기 2024. 7. 1. 18:03
728x90

이름이.... 몇명일까요....

논문 리뷰 - On the Opportunities and Risks of Foundation Models

이 논문은 지도교수님이 Foundation Model에 관한 대략적인 내용을 다룬다고 추천해준 논문입니다. 그러나 내용은 대략적이지 않고 굉장히 집약적이며(참조논문만 60페이지 가량...) 이 논문에 참여한 인원 수도 굉장히 많습니다.

그래도 참조 빼면 120페이지 정도니 읽을만 합니다

그러나 내용 자체는 깊게 들어가지 않고 분야만 바뀔뿐 비슷한 내용을 다루고 있기에 그런 부분을 축약하고 제목처럼 새로운 시각으로 이해해보고자 합니다.

 

파운데이션 모델(Foundation Models)과 대형 언어 모델(LLM, Large Language Models)은 개념적으로 겹치는 부분이 많지만, 몇 가지 차이점을 통해 둘의 특징을 명확히 이해할 수 있습니다.

옛날 광고... 똑같다!

파운데이션 모델 (Foundation Models)

정의: 광범위한 데이터로 훈련된 모델로, 다양한 하위 작업에 적응할 수 있도록 설계된 모델입니다.

  • 특징:
    • 범용성: 여러 분야에서 다양한 작업을 수행할 수 있도록 설계되었습니다.
    • 적응력: 특정 작업에 맞춰 미세 조정(fine-tuning)하거나 프롬프트를 사용하여 다양한 작업에 적용될 수 있습니다.
    • 데이터: 텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 사용하여 훈련됩니다.
    • 예시: GPT-3, BERT, DALL-E 등이 있습니다.
    • 응용 분야: 법률, 의료, 교육, 로봇 공학 등 다양한 산업에 적용됩니다.

대형 언어 모델 (LLM, Large Language Models)

정의: 주로 텍스트 데이터로 훈련된 매우 큰 규모의 언어 모델입니다.

  • 특징:
    • 언어 처리 능력: 주로 텍스트 생성, 번역, 요약, 질의 응답 등 언어와 관련된 작업에 특화되어 있습니다.
    • 대규모: 수십억 개의 매개변수를 갖추고 있으며, 방대한 양의 텍스트 데이터로 훈련됩니다.
    • 자연어 처리(NLP) 중점: 언어 이해와 생성 능력에 집중하여 NLP 작업에 주로 사용됩니다.
    • 예시: GPT-3, T5, BERT 등이 있습니다.
    • 응용 분야: 챗봇, 텍스트 번역, 문서 요약, 질의 응답 시스템 등 주로 언어와 관련된 작업에 사용됩니다.

주요 차이점

  1. 범용성 vs 특화성:
    • 파운데이션 모델: 언어, 시각, 로봇 공학 등 다양한 데이터 유형과 작업에 적응할 수 있도록 설계되었습니다.
    • LLM: 주로 텍스트 데이터에 중점을 두고, 언어 처리와 생성 작업에 특화되어 있습니다.
  2. 데이터 유형:
    • 파운데이션 모델: 텍스트, 이미지, 오디오 등 여러 유형의 데이터를 포함합니다.
    • LLM: 주로 텍스트 데이터로 훈련됩니다.
  3. 응용 분야:
    • 파운데이션 모델: 다양한 산업 분야에 걸쳐 응용 가능합니다.
    • LLM: 주로 언어와 관련된 작업에 응용됩니다.

요약

  • 파운데이션 모델은 범용성을 갖추고 다양한 데이터와 작업에 적응할 수 있는 모델을 의미합니다.
  • 대형 언어 모델(LLM)은 주로 텍스트 데이터로 훈련된 대규모 언어 모델로, 언어 처리와 생성 작업에 특화되어 있습니다.

+ 여기까지 Foundation Model과 LLM에 대해 간략하게 알아봤습니다. 그렇다면 메인 내용인 Foundation Model은 대체 어디에 쓰는가? 에 대해서 알아보겠습니다.

On the Opportunities and Risks of Foundation Models

 

1. 서론

  • 기초 모델: 광범위한 데이터로 훈련되고 다양한 하위 작업에 적응할 수 있는 모델을 의미. 현재 예시로는 BERT, GPT-3, DALL-E 등이 있음.
  • 목적: 이 보고서는 기초 모델의 기회와 위험에 대해 논의하고, 이들의 기술적 원리, 응용, 사회적 영향 등을 포괄적으로 다룸. 정말 다양한 분야의 전문가들이 설명하며 내용도 굉장히 많습니다.

2. 기초 모델의 능력

  • 언어, 시각, 로봇 공학 등: 기초 모델은 여러 영역에서 뛰어난 성능을 보임. 예를 들어, GPT-3는 텍스트 생성, BERT는 검색 쿼리 이해에 사용됨.
  • 기술적 원리: 모델 아키텍처, 훈련 절차, 데이터 처리 방법 등을 포함.

3. 응용

  • 법률, 의료, 교육 등: 기초 모델은 다양한 산업에서 응용 가능. 예를 들어, 의료 분야에서 질병 진단, 법률 분야에서 문서 분석 등에 사용될 수 있음. 여기서 신기했던 점은 응용을 정말 3개로만 딱 나눠서 설명한 점이 신기했습니다. 이는 활용 분야의 큰 3가지의 시작 줄기로도 볼 수 있을 것 같습니다.

4. 기술적 측면

  • 모델링: 기초 모델의 아키텍처와 훈련 방법을 논의.
  • 적응: 기초 모델을 특정 작업에 맞추기 위해 미세 조정(fine-tuning)하거나 프롬프트 기반 방법을 사용.
  • 보안과 개인정보 보호: 기초 모델이 직면한 다양한 보안 위협(데이터 도용, 적대적 공격 등)과 이를 극복하기 위한 방안 논의. 정말 빠질 수 없는 문제입니다. 이것에 관해서 왈가왈부가 많은데 여기서 다루기에는 너무 많은 내용이기에 넘어가도록 하겠습니다.

기적의 보안...

  • 견고성: 데이터 분포 변화에 대한 견고성 문제를 해결하기 위한 방법. 일명 Robustness라고 하는 문제에 대해서 다룹니다. 여기서는 다양한 분야를 다루다보니 세부적으로 빠져들지 않지만 충분히 알고 있어야하는 내용입니다.

5. 사회적 영향

  • 불평등과 공정성: 기초 모델이 사회적 불평등을 심화시킬 가능성.
  • 중앙집중화: 데이터와 모델 소유권이 대기업에 집중될 위험.
  • 환경적 영향: 대규모 데이터와 연산 자원의 사용으로 인한 환경적 영향.
  • 법적 및 윤리적 고려사항: 기초 모델의 사용에 따른 법적 및 윤리적 문제.
  • 여기서도 자세히 설명하지 못하지만 이런 것들이 있다는 것을 넓게 알고가는 건 좋은 것 같습니다. 저는 그 중에서도 중앙집중화가 굉장히 많이 신경쓰였는데 지금 보여지는 모델들이 대부분 학습 데이테를 알려주지 않고 있기 때문에 결과만을 보고 있는 상황입니다. 이런 상황이 지속된다면 어떤 미래가 있을 지 아무도 장담할 수 없기에 여러모로 해결해야하는 숙제가 많습니다.

결론

  • 책임감 있는 개발: 기초 모델의 책임감 있는 개발과 배포를 위해 다양한 분야와 협력이 필요.
  • 미래 연구 방향: 기초 모델의 견고성, 해석 가능성, 안전성 등 다양한 측면에서의 연구 필요.

이 보고서는 기초 모델의 광범위한 적용 가능성과 그에 따른 위험을 심도 있게 탐구하고 있으며, 기술적, 사회적, 윤리적 측면에서의 포괄적인 이해를 제공하려고 합니다. 논문의 분량이 많아 모든 점을 다 이야기 하지 못하는 것은 아쉽지만 정말 넓은 관점에서 보기에는 좋은 글입니다. 

728x90