당신이 ChatGPT를 잘 알고 있다면, 이것은 방대한 데이터 코퍼스로 훈련된다는 것을 들어보았을 것입니다. 그러나 정확히 무슨 뜻인지 알고 계십니까? 이 기사에서는 "ChatGPT는 어떻게 훈련되는가?"의 복잡성에 대해 자세히 살펴볼 것입니다.
ChatGPT는 감독 및 강화 학습 기술의 조합을 통해 조정된 사전 훈련 된 언어 모델입니다. ChatGPT의 훈련 프로세스는 모델로 대량의 텍스트 데이터를 입력하고 매개 변수를 조정하여 훈련 코퍼스의 텍스트와 유사한 텍스트를 생성할 수 있도록하는 것을 포함합니다.
이 과정에서는 감독되는 학습 방법이 사용되어 모델이 생성된 텍스트가 올바른지 여부에 대한 명시적인 피드백을받지 않았습니다. 대신 모델은 생성된 텍스트가 교육 코퍼스의 텍스트와 유사한 가능성을 기반으로 매개변수를 조정합니다.
ChatGPT-3의 상위 모델인 GPT-3는 1750 억 개의 매개변수와 2048 토큰 길이의 문맥으로 만들어진 가장 큰 언어 모델 중 하나입니다. English Wikipedia와 CSS, JSX, Python 및 기타 프로그래밍 언어의 코드 예제에서 수천 억 단어를 학습했습니다.
GPT-3에 사용된 훈련 방법은 생성적 사전 훈련입니다. 즉, 입력 문장에서 다음 토큰 또는 단어를 예측하기 위해 훈련됩니다.
지도 학습
ChatGPT 모델은 인간 트레이너들에 의해 감독 학습 과정을 거쳐 세밀하게 조정되었습니다. 이 트레이너들은 AI 어시스턴트와 사용자 모두의 역할을 수행하며 대화를 나누었습니다.
모델에서 제안된 것을 토대로 답변을 작성하도록 가이드받았고, 그들의 답변은 InstructGPT 데이터 세트와 대화 형식으로 변환되어 혼합되었습니다.
강화 학습
이 모델은 Proximal Policy Optimization (PPO)를 사용하여 강화 학습을 통해 더욱 개선되었습니다. 인간 교육자들은 이전 대화에서 모델이 생성한 응답을 평가하고 이 평가를 바탕으로 보상 모델을 개발했습니다. 그 후 모델은 이러한 보상 모델을 기반으로 세밀하게 조정되었습니다.
성능을 더욱 개선하기 위해 조정 작업을 여러 번 수행했습니다. PPO 알고리즘은 다른 알고리즘에 비해 비용 효율적이며 빠른 성능을 보여주어 이 작업에 이상적입니다.
OpenAI는 ChatGPT와 상호작용하는 사용자들로부터 정보를 수집하여 모델을 개선하고 더욱 다듬을 계획입니다.
사용자들은 챗봇 ChatGPT의 응답에 대해 upvote 또는 downvote로 투표할 수 있으며, 추가적인 피드백을 제공할 수도 있습니다. 이 데이터는 모델의 성능을 더욱 개선하고 인간과 유사한 텍스트를 생성할 수 있도록 돕습니다.
모델 훈련에 사용된 데이터
ChatGPT-3는 Azure AI 슈퍼컴퓨팅 인프라를 사용하여 훈련된 GPT-3.5 시리즈에서 세부 조정된 언어 모델입니다. 이는 서적, 채팅 포럼, 기사, 웹 사이트, 학술 논문, 코드 및 기타 소스를 포함한 인터넷에서 스크랩한 대량의 텍스트에서 훈련되었습니다.
ChatGPT-3의 교육을 위해 사용된 텍스트 데이터 코퍼스의 크기는 45테라바이트 이상으로 매우 크며, 이는 모델이 기사 작가가 제작할 수 있는 텍스트와 유사한 텍스트를 생성하는 능력에 기여합니다.