
트랜스포머를 처음 공부 할 때 의아한 것 중 하나가 q, k, v 다. 설명은 있는데 솔직히 직관적으로 잘 와닿지 않는데다가, 코드가 구현된 걸 보면 하나의 같은 입력을 q, k, v 레이어에 통과 시켜서 다른 3개를 만들고 q,k를 내적한 후에 softmax로 가중치로 바꿔 준 후에 스케일링을하고, v랑 내적을 한다. 써있는 게 구현된 건 알겠는데, 왜 이렇게 하는 건지에 대해서 처음에는 이해하기가 어려웠기 때문에 이번에 생각 난 김에 한번 더 정리해 두고자 한다. 여기서 말하는 어텐션은 트랜스포머 이전의 어텐션은 제외하고, 트랜스포머 이후 어텐션을 의미한다. 이 어텐션의 개념도 Attention is All you need에서 처음 제안한 해석과 LLM 위주의 현재 해석은 초기의 해석보다 일부 개념이..