카테고리 없음

GPT : Generative Pre-trained Transformer 를 잘 설명했다.

devwriter 2023. 3. 31. 16:12

https://ainote.tistory.com/17

 

GPT (Generative Pre-trained Transformer) 학습시키기

들어가며 오늘은 Generative Pre-trained Transformer (GPT) 의 구조에 대해 자세히 글을 써보려고 한다. 아래의 링크들은 참고하면 좋을만한 사이트들이다. 특히 유튜브 영상은 ETRI 임준호 박사님이 GPT-3에

ainote.tistory.com

Generative

위는 Generative 라는 단어를 직관적으로 설해준다. 즉, 한 단어 (정확히는 토큰) 가 들어오면 다음에 올 적절한 토큰을 생성하는 언어 모델이라는 것이다. 예를들어, "오늘" 이라는 단어가 GPT 모델에 Input으로 들어가면, GPT는 "날씨가"  같은 뒤에 올 적절한 단어를 Output으로 내보내는 것이다.

Pre-trained

GPT는 별도의 추가적인 데이터를 사용하여 학습을 하지 않고 기존에 사전 학습된 지식만을 가지고
따라서 Pre-trained


Transformer

Transformer 은 그 목적이 번역을 잘하는 것이었기에 영어를 벡터로 Encode 하고, 다시 벡터를 프랑스어로 Decode 하는 과정이 필요
GPT 는 그 목적이 언어 모델을 사전 학습 시키는 것

 

그리고 Fine Tunning

태스크를 풀기 위해 15만 개의 영화 리뷰들을 추가적으로 학습한다