기술 블로그

Attention의 q,k,v 개념 및 해석 변화

트랜스포머를 처음 공부 할 때 의아한 것 중 하나가 q, k, v 다. 설명은 있는데 솔직히 직관적으로 잘 와닿지 않는데다가, 코드가 구현된 걸 보면 하나의 같은 입력을 q, k, v 레이어에 통과 시켜서 다른 3개를 만들고 q,k를 내적한 후에 softmax로 가중치로 바꿔 준 후에 스케일링을하고, v랑 내적을 한다. 써있는 게 구현된 건 알겠는데, 왜 이렇게 하는 건지에 대해서 처음에는 이해하기가 어려웠기 때문에 이번에 생각 난 김에 한번 더 정리해 두고자 한다. 여기서 말하는 어텐션은 트랜스포머 이전의 어텐션은 제외하고, 트랜스포머 이후 어텐션을 의미한다. 이 어텐션의 개념도 Attention is All you need에서 처음 제안한 해석과 LLM 위주의 현재 해석은 초기의 해석보다 일부 개념이..

개념 정리 2025.05.03

Windows에서 Flash Attention 설치하기

Flash Attention를 이제 윈도우에서도 사용할 수 있다. 내 경우에는 RTX 4090 cuda 12.2 환경에서 설치를 했다. 공식적으로는 리눅스 기반 배포를 중심으로 하지만, 아래의 링크에서 윈도우 버전에서 사용할 수 있는 설치 파일을 꾸준히 올려주는 사람이 있다. https://github.com/bdashore3/flash-attention/releases 해당 레포의 readme에 있는 것 처럼 packaging와 ninja를 먼저 설치 해둔다. 이후 releases 안에서 원하는 버전을 다운 받는다. 이때 파일 이름에 대한 설명은 다음과 같다. cu121 -> 쿠다 버전. 즉 이 경우에는 쿠다 12.1을 의미함. torch2.1 -> 파이토치 버전. cxx11abiFALSE -> 아래 ..

팁 2024.01.03

LLaMA 2 살펴보기(작성 중)/08.27 업데이트

우선은 메모 형식으로 적어두고 나중에 정리할 것 같다. 일단 LLaMA2라고 하는게 맞다고 느껴질 정도로 기존 LLaMA에 비해서 PLM의 모델링 측면에서는 그렇게 많이 달라진 건 없는 것 같다. 반면에 말은 많지만 아직 체계가 덜 잡힌 RLHF에 대한 meta의 실험에 대한 내용, LLM 모델 학습을 위해 어떤 데이터가 필요하고 어떻게 데이터를 구성하는게 효율적인지에 대한 내용들은 참고할 점이 많은 것 같다. 체크 리스트 1. Grouped-query attention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints(2023) -> Multi-head attention -> Multi-query at..

LLM 2023.07.19

프로젝트 소개

주소 : http://langparse.com/MBTI/test 기술 스택 Server : Amazon Lightsail Backend : FastAPI Frontend : Vue3 DB : MySQL 계기 ChatGPT는 개발쪽에도 많은 영향을줬고, 실제로 나도 업무 중에 꽤 자주 사용한다. 또한 인공지능을 활용한 다양한 서비스들이 빠르게 출시되고 있기도 하다. NLP에서는 ChatGPT API사용, Langchain과 LLM 경량화, 컴퓨터 비전쪽의 스테이블 디퓨전 WebUI, 음성쪽에서는 최근에 부쩍 늘어난 AI cover들이 나오면서 인공지능의 모델을 활용하는 것에 대해 문턱이 낮아졌다. 그리고 그 활용한 결과물들도 꽤 좋은 수준으로 나오고 있다. 또 나도 업무나 일상생활에서 이거 한번 해볼 수도..

ChatGPT와 웹 개발 도전하기 2023.07.16

LLaMA를 중심으로한 LLM 돌아보기

2023년 2월에 LLaMA(Large Language Model Meta AI) 논문이 나왔다. 이 글 작성 시점에서 4개월 전임에도 불구하고 그 사이에도 많은 연구들이 쏟아져 이제는 까마득하게 느껴진다. 지금 시점에와서 논문의 리뷰를 하는 것은 애매하기도 하고, 이미 좋은 리뷰들이 많이 있다고 생각한다. 때문에, 여기서는 LLaMA 논문의 내용만을 정리하기보다는 LLaMA를 중심으로 LLM 전반에 대한 고려 요소들을 한번 정리하는 글을 써보려고 한다. LLM의 성능을 단순히 벤치마크로 비교하기는 어렵지만, LLaMA는 모델의 멀티태스크 벤치마크에서 퓨샷러닝의 정확도에서 13B 모델이 GPT3 175B 모델보다 좋은 성능을 보였다. 그리고 모델의 구조도 아예 공개하고, pre-trained wiehgt..

LLM 2023.06.29

T5 Pre-training하기

현재 계속 실험중이기 때문에 내용이 바뀔 수 있습니다. 데이터셋을 한국어 위키, 모두의 말뭉치 데이터(문어, 일상대화) -> 나무위키 데이터로 변경을 검토 중입니다. T5 논문에서 언급된 C4의 데이터셋의 형식을 생각할 때 적당한 길이에서 내용이 끝나는 형식의 데이터가 비슷하다고 생각을 하고 있습니다. 모두의 말뭉치의 경우에는 데이터의 길이 자체가 길고 그걸 적당한 단위로 끊는 것에 어려움이 있고, 일상대화의 경우에는 회화의 내용이다보니 표현이나 전개가 중구난방이거나 정리가 되지 않은 느낌이 있었습니다. 문어의 경우에도 상대적으로 해당 분야에 대한 내용들이 많아 애매하다고 생각 중입니다. 물론 PLM 데이터가 일반적이어야하고 전문적인 내용이나 고유명사 등이 들어가면 안된다는 것은 아니지만 일반적인 표현이..

Pre-Training 2022.12.02

T5(Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer) 논문 리뷰

본 논문에 대한 리뷰는 논문의 내용 그 자체를 충실하게 정리해서 쓰기보다는 필자의 표현과 인사이트로 재가공되어 쓰여진 것입니다. 요약 Text-To-Text Transfer Transformer T가 5개라 T5다. NLU, NLG의 구분 없이 자연어처리의 모든 Task들을 생성 모델로 전부 통합하는 프레임워크를 제안하였다. 통합하는 프레임워크 제안을 위해 당시의 여러가지 PLM 학습 기법들에 대해 다양한 실험을 한 후 저자들이 찾은 최선의 조합을 제안하였다. 때문에 논문에는 여러가지 실험 내용들이 포함되어 있다. 이후 UL2의 논문이 T5와 꽤 유사하다. 저자들이 실험하고 찾은 최선의 조합은 아래와 같다. 볼드체가 T5 모델이 선택한 방법이다. Model Architecture Encoder-Decod..

Paper Review 2022.12.01

기술 블로그

전체 글 7

티스토리툴바

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31