기술 블로그

  • 홈
  • 태그
  • 방명록

Pre-Training 1

T5 Pre-training하기

현재 계속 실험중이기 때문에 내용이 바뀔 수 있습니다. 데이터셋을 한국어 위키, 모두의 말뭉치 데이터(문어, 일상대화) -> 나무위키 데이터로 변경을 검토 중입니다. T5 논문에서 언급된 C4의 데이터셋의 형식을 생각할 때 적당한 길이에서 내용이 끝나는 형식의 데이터가 비슷하다고 생각을 하고 있습니다. 모두의 말뭉치의 경우에는 데이터의 길이 자체가 길고 그걸 적당한 단위로 끊는 것에 어려움이 있고, 일상대화의 경우에는 회화의 내용이다보니 표현이나 전개가 중구난방이거나 정리가 되지 않은 느낌이 있었습니다. 문어의 경우에도 상대적으로 해당 분야에 대한 내용들이 많아 애매하다고 생각 중입니다. 물론 PLM 데이터가 일반적이어야하고 전문적인 내용이나 고유명사 등이 들어가면 안된다는 것은 아니지만 일반적인 표현이..

Pre-Training 2022.12.02
이전
1
다음
더보기
프로필사진

기술 블로그

Github: https://github.com/Taeksu-Kim Linkedin: https://www.linkedin.com/in/taeksu-kim-691254209/ 제안 있으신 분은 caesian@gmail.com으로 편하게 연락주시기 바랍니다.

  • 분류 전체보기
    • 딥러닝 정리
    • 개념 정리
    • Paper Review
    • Pre-Training
    • LLM
    • ChatGPT와 웹 개발 도전하기
    • 팁
    • 바이브 코딩

Tag

Flash Attention, ChatGPT, T5, Attention, Transformer, UL2, vllm, 윈도우, windows, 바이브 코딩 #RUST, 어텐션, 사이드 프로젝트, LLM #LLaMA2 #NLP, 트랜스포머, 셀프 어텐션, nlp, LLM NLP Transformer, Self-attention,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/04   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바