AI

한국어 임베딩 모델 SOTA 분석

이-프 2024. 11. 21. 08:29

1. 한국어 임베딩 모델이란

  • 텍스트, 이미지, 오디오와 같은 데이터를 고차원 공간에서 저차원 벡터로 변환하는 기계 학습 모델
  • 컴퓨터는 텍스트를 이해할 수 없으므로, 텍스트 데이터를 벡터 형태로 변환해야 기계 학습에서 사용할 수 있음
  • 유사한 의미를 가진 텍스트는 임베딩 공간에서 서로 가까운 위치에 배치

임베딩 모델의 작동 방식

  • 학습 데이터 : 대규모 텍스트 데이터로 모델을 학습시켜 언어의 통계적 특성을 파악
  • 학습 방법 : 단어 간의 연관성을 기반으로 벡터를 학습
    • 최근에는 딥러닝 기반의 Transformer 모델(BERT, GPT 등)을 사용해서 더 정교한 문맥 정보를 포함
  • 출력 결과 : 각 텍스트는 다차원 벡터로 표현되며, 벡터의 크기와 방향의 텍스트의 의미를 반영하며, 벡터 간 연산을 통해 유사성을 계산

2. SOTA란

  • State of the Art
  • '현재 최고 수준의 결과'를 가진 모델
  • 즉, 현재 수준에서 가장 정확도가 높은 모델을 의미
  • 최신 기술 및 최신 연구 내용이 계속 출시되기에, 이를 빠르게 적용하는 것이 관건

3. 최신 SOTA 모델

https://paperswithcode.com/sota

 

Papers with Code - Browse the State-of-the-Art in Machine Learning

12191 leaderboards • 5237 tasks • 10943 datasets • 148061 papers with code.

paperswithcode.com

Single Sentence Task

3.1. KR-BERT

https://paperswithcode.com/paper/kr-bert-a-small-scale-korean-specific

  • 개발 기관 : 서울대학교 NLP 연구실 (SNUNLP)
  • 특징
    • 한국어 특화된 어휘 사전 및 BidirectionalWordPiece 토크나이저 적용
    • 다국어 BERT 대비 한국어 STS(Semantic Textual Similarity) 태스크에서 우수한 성능
  • 활용 사례
    • 문장 임베딩
    • 문서 검색

3.2 KoBERT

https://github.com/SKTBrain/KoBERT

  • 개발 기관: SK텔레콤
  • 특징
    • BERT 모델을 한국어 데이터셋으로 재학습
    • KorQuAD와 NSMC 데이터셋에서 탁월한 성능
    • 모델 경량화로 실시간 애플리케이션에 활용 가능
  • 활용 사례
    • QA 시스템
    • 문서 분류
    • 챗봇

3.3 KLUE-BERT

https://huggingface.co/klue/bert-base

  • 개발 기관: 고려대학교 AI 연구소 및 협력 기관
  • 특징
    • KLUE(Korean Language Understanding Evaluation) 데이터셋 기반 학습
    • 문장 분류, 자연어 추론 등 다양한 한국어 태스크 최적화
    • 데이터셋의 도메인 다양성을 통해 언어적 일반화 성능 확보
  • 활용 사례: 개체명 인식(NER), 감성 분석, 질의응답 시스템

3.4 HanBERT

→ 투블럭 AI에서 공개한 일반문서 및 특허문서 70GB로 학습된 모델

→ 하지만, 현재는 운영하지 않는 모델 중 하나입니다.

→ 이처럼, SOTA 기준은 매번 변경되며, 모델의 변경사항을 확인해야할 필요가 있습니다.

3.5. HyperCLOVA

https://deview.kr/data/deview/session/attach/3_HyperCLOVA – Korean GPT3 하이퍼스케일, 그리고 그 후.pdf

  • 개발 기관: 네이버
  • 특징
    • 562B 한국어 데이터
    • 1,120 GPU superpod
    • Transformer decoder 82B 파라미터 사이즈
    • 한국어 및 다국어의 대규모 데이터를 학습하여 고품질 문장 생성, 의미 분석 제공
    • 사용자가 주는 간단한 프롬프트로 다양한 결과 생성 가능
  • 활용 사례: 대화형 AI, 문서 생성, 개인화 서비스

참고 문서

https://www.letr.ai/ko/blog/tech-20221124

 

한국어 언어모델 (Korean Pre-trained Language Models) 톺아보기 (2)

해외와 마찬가지로 한국어 역시 대량의 말뭉치를 통해 사전 학습된 Transformer를 기반으로 모델을 연구한 사례들이 많이 있습니다. KoBERT,KorBERT, HanBERT, KoELECTRA, KoGPT, Hyper CLOVA 등등 다양한 모델들이

www.letr.ai

 

https://github.com/su-park/mteb_ko_leaderboard

 

GitHub - su-park/mteb_ko_leaderboard: 한글 텍스트 임베딩 모델 리더보드

한글 텍스트 임베딩 모델 리더보드. Contribute to su-park/mteb_ko_leaderboard development by creating an account on GitHub.

github.com

 

https://meetcody.ai/ko/blog/2024%EB%85%84-%EC%83%81%EC%9C%84-8%EB%8C%80-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%9E%84%EB%B2%A0%EB%94%A9-%EB%AA%A8%EB%8D%B8/

 

2024년 상위 8대 텍스트 임베딩 모델

텍스트 임베딩 모델에 대해 알고 싶으신가요? 이 블로그에서 이러한 도구가 기계가 단어와 문장을 이해하는 데 어떻게 도움이 되는지 알아보세요!

meetcody.ai

 

'AI' 카테고리의 다른 글

벡터 DB 분석  (2) 2024.11.20
LoRA, QLoRA, LoRA-FA 분석  (0) 2024.11.18
Continue Extension을 활용한 AI Coding 평가  (2) 2024.10.21
Prompt란 ? (feat. LLM)  (0) 2024.08.28
Ollama / Embedding  (0) 2024.08.27