LLM 2

LLaMA 2 살펴보기(작성 중)/08.27 업데이트

우선은 메모 형식으로 적어두고 나중에 정리할 것 같다. 일단 LLaMA2라고 하는게 맞다고 느껴질 정도로 기존 LLaMA에 비해서 PLM의 모델링 측면에서는 그렇게 많이 달라진 건 없는 것 같다. 반면에 말은 많지만 아직 체계가 덜 잡힌 RLHF에 대한 meta의 실험에 대한 내용, LLM 모델 학습을 위해 어떤 데이터가 필요하고 어떻게 데이터를 구성하는게 효율적인지에 대한 내용들은 참고할 점이 많은 것 같다. 체크 리스트 1. Grouped-query attention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints(2023) -> Multi-head attention -> Multi-query at..

LLM 2023.07.19

LLaMA를 중심으로한 LLM 돌아보기

2023년 2월에 LLaMA(Large Language Model Meta AI) 논문이 나왔다. 이 글 작성 시점에서 4개월 전임에도 불구하고 그 사이에도 많은 연구들이 쏟아져 이제는 까마득하게 느껴진다. 지금 시점에와서 논문의 리뷰를 하는 것은 애매하기도 하고, 이미 좋은 리뷰들이 많이 있다고 생각한다. 때문에, 여기서는 LLaMA 논문의 내용만을 정리하기보다는 LLaMA를 중심으로 LLM 전반에 대한 고려 요소들을 한번 정리하는 글을 써보려고 한다. LLM의 성능을 단순히 벤치마크로 비교하기는 어렵지만, LLaMA는 모델의 멀티태스크 벤치마크에서 퓨샷러닝의 정확도에서 13B 모델이 GPT3 175B 모델보다 좋은 성능을 보였다. 그리고 모델의 구조도 아예 공개하고, pre-trained wiehgt..

LLM 2023.06.29