현재 계속 실험중이기 때문에 내용이 바뀔 수 있습니다. 데이터셋을 한국어 위키, 모두의 말뭉치 데이터(문어, 일상대화) -> 나무위키 데이터로 변경을 검토 중입니다. T5 논문에서 언급된 C4의 데이터셋의 형식을 생각할 때 적당한 길이에서 내용이 끝나는 형식의 데이터가 비슷하다고 생각을 하고 있습니다. 모두의 말뭉치의 경우에는 데이터의 길이 자체가 길고 그걸 적당한 단위로 끊는 것에 어려움이 있고, 일상대화의 경우에는 회화의 내용이다보니 표현이나 전개가 중구난방이거나 정리가 되지 않은 느낌이 있었습니다. 문어의 경우에도 상대적으로 해당 분야에 대한 내용들이 많아 애매하다고 생각 중입니다. 물론 PLM 데이터가 일반적이어야하고 전문적인 내용이나 고유명사 등이 들어가면 안된다는 것은 아니지만 일반적인 표현이..