'Self-attention' 태그의 글 목록

Attention의 q,k,v 개념 및 해석 변화

트랜스포머를 처음 공부 할 때 의아한 것 중 하나가 q, k, v 다. 설명은 있는데 솔직히 직관적으로 잘 와닿지 않는데다가, 코드가 구현된 걸 보면 하나의 같은 입력을 q, k, v 레이어에 통과 시켜서 다른 3개를 만들고 q,k를 내적한 후에 softmax로 가중치로 바꿔 준 후에 스케일링을하고, v랑 내적을 한다. 써있는 게 구현된 건 알겠는데, 왜 이렇게 하는 건지에 대해서 처음에는 이해하기가 어려웠기 때문에 이번에 생각 난 김에 한번 더 정리해 두고자 한다. 여기서 말하는 어텐션은 트랜스포머 이전의 어텐션은 제외하고, 트랜스포머 이후 어텐션을 의미한다. 이 어텐션의 개념도 Attention is All you need에서 처음 제안한 해석과 LLM 위주의 현재 해석은 초기의 해석보다 일부 개념이..

개념 정리 2025.05.03

« 2026/04 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

기술 블로그

Self-attention 1

티스토리툴바