LoRA, QLoRA, LoRA-FA 분석

이-프 2024. 11. 18. 16:25

0. LoRA

💡 Fine-Tuning

사전에 훈련된 모델을 특정 작업에 맞게 추가로 훈련시키는 방법
적은 비용으로도 큰 모델을 효율적으로 훈련시킬 수 있는 장점 제공

💡 PEET (Parameter-Efficient Fine-Tuning)

적은 양의 매개변수를 학습하는 것 만으로도 빠른 시일 안에 새로운 문제를 비슷한 성능으로 풀 수 있게 하기 위한 미세조정(Fine-Tuning) 방법론
모델 전체를 미세조정 하는 것보다, 훨씬 적은 계산 자원과 데이터가 필요함
다양한 태스크나 문제에 대해 모델을 빠르게 적용하거나, 실험하려는 연구자나 개발자에게 매우 유용함

💡 Fully Fine-Tuning이 힘든 이유

LLM의 weight는 최소 1.5GB ~ 3GB
Model을 GPU에 로드하는 것만 해도, 엄청난 GPU 크기 소모
Fine-Tuning은 주로 Forward, Backward, 이를 통한 Update로 이뤄지는데 이때 발견된 gradient와 optimizer를 모두 GPU에 저장해야 함.
결국, Fully Fine-Tuning 시, weight 수 * 2 ~ 3배의 GPU 용량이 필요함

=> 사전 학습된 LLM 모델 위에 얇은 레이어를 추가하여 파인튜닝하는 방식 덕분에 새로운 태스크에 대한 모델의 적용 및 평가를 수행 가능

💡 LoRA (Low-Rank Adaptation)

Huggingface에서 개발한 Parameter-Efficient Fine-Tuning 방식 (PEET) 중 하나
Low-Rank를 이용해서 시간, 리소스, 비용을 줄이는 기법
언어 모델을 구성하는 대부분의 매개변수 (parameter)의 가중치 (weight)를 그대로 유지한 채, 일부 매개변수에만 파인튜닝을 적용하여 가중치를 변경하는 파인 튜닝 방식
⇒ 특정 부분만 집중적으로 수정하여 작업에 대한 성능을 개선
사전에 학습된 모델의 가중치를 동결하고, 각 층에 저랭크(rank decomposition) 행렬을 삽입하여 학습 가능한 파라미터 수를 크게 줄인다.
- 저랭크 행렬 삽입
- 큰 차원의 행렬 연산을 낮은 차원으로 분해하는 것

ex) 파이썬의 peft 라이브러리를 사용하여 쉽게 LoRA를 사용할 수 있음

💡 LoRA 학습 방법

Fully Fine-Tuning을 하지 않는다.
Model weight를 Freeze 한다.
학습하는 Layer는 LoRA_A & LoRA_B (둘다 linear 상태)
Transformer Layer에 있는 Query, Key, Value, Output(=self attention) 중 하나를 선택하여 단순히 더해준다.

Full Finetuning에서는 기존 W자체를 학습하기에 보통 매우 많은 연산량을 필요로 한다.
하지만, LoRA에서는 W는 고정해두고, 적은 연산량을 필요로하는 A, B 행렬만을 학습함.

💡 LoRA 장단점

장점

Memory, Storage 사용량이 적다.
- 기존 Pretrained Parameter(W)에서 학습을 진행하지 않으므로, 이 파라미터들은 Optimizer에 저장할 필요가 없다.
- 따라서 Low Rank Decomposition을 수행한 차원에 따라 VRAM을 2/3 수준으로 줄일 수 있고, CheckPoint Size 또한 매우 줄일 수 있다.
Infernece Cost가 적음
- 최종 결과물에 대한 비용이 적음
- Task 별로 LoRA 파라미터를 갖고, Task에 따라 Switch하여 연산하기 때문
학습 시간이 줄어듬
- GPT3 175GB 모델 기준 25% 속도 향상
- 대부분의 Pretrained Parameter (w)로 Gradient를 계산할 필요가 없기 때문

단점

다양한 Task를 섞어 Batch를 구성할 수 없다는 점
인공지능분야에 잠재적인 영향력 o

1. QLoRA

Quantized Low-Rank Adaptation
모델의 파라미터를 양자화하여 메모리 효율성을 개선하고, 저용량 환경에서도 고성능을 유지할 수 있도록 하는 기술
LoRA와 결합된 QLoRA는 모델의 크기를 줄이면서도 성능 저하를 최소화하는 데 강점이 존재

특징 및 장점
- 메모리 및 저장 공간 절약
- 고성능 유지
- 효율적인 대규모 모델 학습 지원

사용 방안 (etc)
- 클라우드 서비스에서 모델 배포 최적화
- 모바일 환경에서의 AI 모델 사용 최적화

2. LoRA-FA

Low-Rank Adaptation for Fine-Tuning
대형 모델을 파인튜닝할 때 필요한 자원 소비를 최적화 하는 기술
기존의 파인튜닝 방식에 비해 계산량을 대폭 줄이고, 효율적 학습 가능

특징 및 장점
- 파인튜닝 과정에서 계산 자원 절약
- 더 작은 모델 크기
- 빠른 학습 속도

사용 방안 (etc)
- 대형 언어 모델의 빠른 파인튜닝
- 자원 제약 환경에서 AI 모델 최적화

3. QLoRA 와 LoRA-FA 비교

	QLoRA	LoRA-FA
목적	모델 크기 축소 및 메모리 최적화	빠르고 효율적인 모델 파인튜닝
자원 최적화	메모리 최적화 (양자화 및 저차원 근사)	계산 자원 절약 (저차원 근사를 통한 파인튜닝)
성능	성능 손실 가능성 (양자화로 인한 정확도 감소)	높은 파인튜닝 속도, 학습 효율성 향상
적용 분야	모바일, 클라우드 환경에서 AI 모델 배포 최적화	대형 언어 모델 파인튜닝, AI 연구
장점	저용량 환경에서 효율적인 모델 실행	빠른 학습 속도, 자원 최적화
단점	성능 저하 가능성, 양자화로 인한 정확도 감소	모델 크기가 커지면 효과 감소, 파인튜닝만 가능

정리하자면, 두 기술 모두 AI 모델 최적화라는 공통 목표가 있다.

하지만 QLoRA는 저용량 환경에서 모델의 메모리 효율성을 극대화 할 수 있는 기술로, 모바일 및 클라우드 환경에서 매우 유용하다.

반면, LoRA-FA는 대형 모델 파인튜닝을 최적화하는 기술로, 특히 대형 자연어 처리 모델을 빠르고 효율적으로 학습시키는 데 장점이 있다.

'AI' 카테고리의 다른 글

한국어 임베딩 모델 SOTA 분석 (1)	2024.11.21
벡터 DB 분석 (2)	2024.11.20
Continue Extension을 활용한 AI Coding 평가 (2)	2024.10.21
Prompt란 ? (feat. LLM) (0)	2024.08.28
Ollama / Embedding (0)	2024.08.27

현재글LoRA, QLoRA, LoRA-FA 분석

99클럽, 부트캠프, 패스트캠퍼스, 백준, db, 국비지원, Java, llm, springboot, 완전탐색, 항해99, DP, 자바, 스프링, 백엔드개발자, BFS, 프로그래머스, 코딩테스트준비, Til, 국비지원취업,

Today :
Yesterday :

for IF