기술 블로그

  • 홈
  • 태그
  • 방명록

Self-attention 1

Attention의 q,k,v 개념 및 해석 변화

트랜스포머를 처음 공부 할 때 의아한 것 중 하나가 q, k, v 다. 설명은 있는데 솔직히 직관적으로 잘 와닿지 않는데다가, 코드가 구현된 걸 보면 하나의 같은 입력을 q, k, v 레이어에 통과 시켜서 다른 3개를 만들고 q,k를 내적한 후에 softmax로 가중치로 바꿔 준 후에 스케일링을하고, v랑 내적을 한다. 써있는 게 구현된 건 알겠는데, 왜 이렇게 하는 건지에 대해서 처음에는 이해하기가 어려웠기 때문에 이번에 생각 난 김에 한번 더 정리해 두고자 한다. 여기서 말하는 어텐션은 트랜스포머 이전의 어텐션은 제외하고, 트랜스포머 이후 어텐션을 의미한다. 이 어텐션의 개념도 Attention is All you need에서 처음 제안한 해석과 LLM 위주의 현재 해석은 초기의 해석보다 일부 개념이..

개념 정리 2025.05.03
이전
1
다음
더보기
프로필사진

기술 블로그

Github: https://github.com/Taeksu-Kim Linkedin: https://www.linkedin.com/in/taeksu-kim-691254209/ 제안 있으신 분은 caesian@gmail.com으로 편하게 연락주시기 바랍니다.

  • 분류 전체보기
    • 딥러닝 정리
    • 개념 정리
    • Paper Review
    • Pre-Training
    • LLM
    • ChatGPT와 웹 개발 도전하기
    • 팁
    • 바이브 코딩

Tag

ChatGPT, Flash Attention, UL2, vllm, 사이드 프로젝트, LLM NLP Transformer, Self-attention, Attention, LLM #LLaMA2 #NLP, 어텐션, Transformer, 바이브 코딩 #RUST, windows, nlp, 트랜스포머, T5, 윈도우, 셀프 어텐션,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바