기술 블로그

  • 홈
  • 태그
  • 방명록

LLM NLP Transformer 1

LLaMA를 중심으로한 LLM 돌아보기

2023년 2월에 LLaMA(Large Language Model Meta AI) 논문이 나왔다. 이 글 작성 시점에서 4개월 전임에도 불구하고 그 사이에도 많은 연구들이 쏟아져 이제는 까마득하게 느껴진다. 지금 시점에와서 논문의 리뷰를 하는 것은 애매하기도 하고, 이미 좋은 리뷰들이 많이 있다고 생각한다. 때문에, 여기서는 LLaMA 논문의 내용만을 정리하기보다는 LLaMA를 중심으로 LLM 전반에 대한 고려 요소들을 한번 정리하는 글을 써보려고 한다. LLM의 성능을 단순히 벤치마크로 비교하기는 어렵지만, LLaMA는 모델의 멀티태스크 벤치마크에서 퓨샷러닝의 정확도에서 13B 모델이 GPT3 175B 모델보다 좋은 성능을 보였다. 그리고 모델의 구조도 아예 공개하고, pre-trained wiehgt..

LLM 2023.06.29
이전
1
다음
더보기
프로필사진

기술 블로그

Github: https://github.com/Taeksu-Kim Linkedin: https://www.linkedin.com/in/taeksu-kim-691254209/ 제안 있으신 분은 caesian@gmail.com으로 편하게 연락주시기 바랍니다.

  • 분류 전체보기
    • 딥러닝 정리
    • 개념 정리
    • Paper Review
    • Pre-Training
    • LLM
    • ChatGPT와 웹 개발 도전하기
    • 팁
    • 바이브 코딩

Tag

windows, vllm, Attention, LLM #LLaMA2 #NLP, Flash Attention, ChatGPT, T5, 트랜스포머, 어텐션, Self-attention, 바이브 코딩 #RUST, UL2, 윈도우, LLM NLP Transformer, Transformer, nlp, 사이드 프로젝트, 셀프 어텐션,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바