기술 블로그

  • 홈
  • 태그
  • 방명록

팁 2

윈도우에서 vllm 설치 에러 해결 방법

windows에서 vllm 설치시 아래와 같이 에러가 나는 경우가 있다. error: could not create 'build\bdist.win-amd64\wheel\.\vllm\model_executor\layers\quantization\utils\configs\N=1536,K=1536,device_name=AMD_Instinct_MI300X,dtype=fp8_w8a8,block_shape=[128,128].json': No such file or directory [end of output] note: This error originates from a subprocess, and is likely not a problem with pip. ERROR: Failed b..

팁 2025.07.26

Windows에서 Flash Attention 설치하기

Flash Attention를 이제 윈도우에서도 사용할 수 있다. 내 경우에는 RTX 4090 cuda 12.2 환경에서 설치를 했다. 공식적으로는 리눅스 기반 배포를 중심으로 하지만, 아래의 링크에서 윈도우 버전에서 사용할 수 있는 설치 파일을 꾸준히 올려주는 사람이 있다. https://github.com/bdashore3/flash-attention/releases 해당 레포의 readme에 있는 것 처럼 packaging와 ninja를 먼저 설치 해둔다. 이후 releases 안에서 원하는 버전을 다운 받는다. 이때 파일 이름에 대한 설명은 다음과 같다. cu121 -> 쿠다 버전. 즉 이 경우에는 쿠다 12.1을 의미함. torch2.1 -> 파이토치 버전. cxx11abiFALSE -> 아래 ..

팁 2024.01.03
이전
1
다음
더보기
프로필사진

기술 블로그

Github: https://github.com/Taeksu-Kim Linkedin: https://www.linkedin.com/in/taeksu-kim-691254209/ 제안 있으신 분은 caesian@gmail.com으로 편하게 연락주시기 바랍니다.

  • 분류 전체보기
    • 딥러닝 정리
    • 개념 정리
    • Paper Review
    • Pre-Training
    • LLM
    • ChatGPT와 웹 개발 도전하기
    • 팁
    • 바이브 코딩

Tag

UL2, 트랜스포머, Self-attention, T5, 셀프 어텐션, ChatGPT, nlp, 어텐션, LLM #LLaMA2 #NLP, Attention, Flash Attention, LLM NLP Transformer, vllm, Transformer, 윈도우, 바이브 코딩 #RUST, 사이드 프로젝트, windows,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바