챗 GPT는 어떻게 트레이닝 되었나요?

당신이 ChatGPT를 잘 알고 있다면, 이것은 방대한 데이터 코퍼스로 훈련된다는 것을 들어보았을 것입니다. 그러나 정확히 무슨 뜻인지 알고 계십니까? 이 기사에서는 "ChatGPT는 어떻게 훈련되는가?"의 복잡성에 대해 자세히 살펴볼 것입니다.

ChatGPT는 감독 및 강화 학습 기술의 조합을 통해 조정된 사전 훈련 된 언어 모델입니다. ChatGPT의 훈련 프로세스는 모델로 대량의 텍스트 데이터를 입력하고 매개 변수를 조정하여 훈련 코퍼스의 텍스트와 유사한 텍스트를 생성할 수 있도록하는 것을 포함합니다.

이 과정에서는 감독되는 학습 방법이 사용되어 모델이 생성된 텍스트가 올바른지 여부에 대한 명시적인 피드백을받지 않았습니다. 대신 모델은 생성된 텍스트가 교육 코퍼스의 텍스트와 유사한 가능성을 기반으로 매개변수를 조정합니다.

ChatGPT-3의 상위 모델인 GPT-3는 1750 억 개의 매개변수와 2048 토큰 길이의 문맥으로 만들어진 가장 큰 언어 모델 중 하나입니다. English Wikipedia와 CSS, JSX, Python 및 기타 프로그래밍 언어의 코드 예제에서 수천 억 단어를 학습했습니다.

GPT-3에 사용된 훈련 방법은 생성적 사전 훈련입니다. 즉, 입력 문장에서 다음 토큰 또는 단어를 예측하기 위해 훈련됩니다.

최고의 Chat GPT 대안

지도 학습

ChatGPT 모델은 인간 트레이너들에 의해 감독 학습 과정을 거쳐 세밀하게 조정되었습니다. 이 트레이너들은 AI 어시스턴트와 사용자 모두의 역할을 수행하며 대화를 나누었습니다.

모델에서 제안된 것을 토대로 답변을 작성하도록 가이드받았고, 그들의 답변은 InstructGPT 데이터 세트와 대화 형식으로 변환되어 혼합되었습니다.

강화 학습

이 모델은 Proximal Policy Optimization (PPO)를 사용하여 강화 학습을 통해 더욱 개선되었습니다. 인간 교육자들은 이전 대화에서 모델이 생성한 응답을 평가하고 이 평가를 바탕으로 보상 모델을 개발했습니다. 그 후 모델은 이러한 보상 모델을 기반으로 세밀하게 조정되었습니다.

성능을 더욱 개선하기 위해 조정 작업을 여러 번 수행했습니다. PPO 알고리즘은 다른 알고리즘에 비해 비용 효율적이며 빠른 성능을 보여주어 이 작업에 이상적입니다.

OpenAI는 ChatGPT와 상호작용하는 사용자들로부터 정보를 수집하여 모델을 개선하고 더욱 다듬을 계획입니다.

사용자들은 챗봇 ChatGPT의 응답에 대해 upvote 또는 downvote로 투표할 수 있으며, 추가적인 피드백을 제공할 수도 있습니다. 이 데이터는 모델의 성능을 더욱 개선하고 인간과 유사한 텍스트를 생성할 수 있도록 돕습니다.

모델 훈련에 사용된 데이터

ChatGPT-3는 Azure AI 슈퍼컴퓨팅 인프라를 사용하여 훈련된 GPT-3.5 시리즈에서 세부 조정된 언어 모델입니다. 이는 서적, 채팅 포럼, 기사, 웹 사이트, 학술 논문, 코드 및 기타 소스를 포함한 인터넷에서 스크랩한 대량의 텍스트에서 훈련되었습니다.

ChatGPT-3의 교육을 위해 사용된 텍스트 데이터 코퍼스의 크기는 45테라바이트 이상으로 매우 크며, 이는 모델이 기사 작가가 제작할 수 있는 텍스트와 유사한 텍스트를 생성하는 능력에 기여합니다.

챗 GPT는 어떻게 훈련되었나요?

지도 학습

강화 학습

모델 훈련에 사용된 데이터

관련 기사