OpenAI, 강화학습 기반 파인튜닝 제공
오늘 새벽 OpenAI에서 강화학습 기반의 파인튜닝 기능을 공개했습니다. 더 적은 데이터로 더 전문적이고 수준 높게 모델을 파인튜닝(미세 조정) 수 있습니다. 이번 뉴스레터에서는 OpenAI의 새로운 기능을 소개하는 것과 동시에, 강화학습으로 파인튜닝하는 것이 무엇이며 무엇을 할 수 있을지를 추가적으로 알려드리고자 합니다.
강화학습이란 무엇인가요?
강화학습을 모르시는 분들도 계실 것 같아 강화학습이 무엇인지 설명드리고자 합니다.
- 강화학습의 모델 훈련 원리
- 문제 해결 공간 제공: 모델에 문제(데이터)를 제공하고, 그 문제를 스스로 해결하도록 합니다.
- 결과 평가(Grading): 모델이 생성한 답변을 실제 정답과 비교해 점수를 매깁니다.
- 강화와 억제: 올바른 추론 경로는 강화하고(보상), 잘못된 경로는 억제합니다(패널티).
- 반복 학습: 이 과정을 반복하면서 모델이 특정 작업에서 더 효과적으로 사고하도록 만듭니다.
위의 원리로 강화학습이 수행됩니다. 일반적인 모델 파인튜닝(Supervised Fine-Tuning; SFT)은 정답과의 차이를 줄여나가는 방식으로 학습되기 때문에, 그저 정답을 모방하는 것에 그치게 됩니다. 하지만, Reinforcement Fine-Tuning(RFT)으로 불리는 이 기술은 보상과 페널티를 기반으로 모델이 정답의 방향으로 움직이도록 하는 것으로 일반화 능력이 뛰어납니다.
강화학습 파인튜닝 제공으로 얻어지는 효과는 무엇인가요?
OpenAI는 오늘 발표에서 기존의 파인튜닝 방식과 다른 강화학습 기반의 파인튜닝인 RFT를 전문가를 대상으로 제공하겠다고 밝혔습니다. 내년에는 일반을 대상으로 공개할 것임을 밝혔습니다.
기존에 파인튜닝은 단순히 지도학습 기반의 SFT로 수행된 반면, 이제는 OpenAI 내부에서 모델을 훈련할 때 사용하는 방식인 RFT를 사용할 수 있도록 오픈하는 것입니다. 이를 통해 다음과 같은 효과를 얻을 수 있을 것으로 기대합니다.
- 향상된 전문성: 금융, 법률, 의료, 과학 연구 등 전문 분야에서 모델이 단순히 텍스트를 예측하는 것을 넘어 심층적이고 독창적인 추론을 수행하도록 만들 수 있습니다.
- 적은 학습 데이터 필요: 기존에 수천, 수만 개 샘플이 필요했던 문제들을 이제 수십 개만으로도 충분히 고품질 성능 개선이 가능합니다.
더 적은 데이터?
기존 SFT는 높은 품질을 보장하기 위해 데이터의 양을 보장해주어야 했습니다. 사실 전문 분야에서 많은 양의 데이터를 구하는 것은 매우 어렵습니다. 그 이유는 다양하지만, 대표적인 이유는 전문분야의 데이터를 만드는 사람들(의료, 생명, 금융 분야 전문가)의 인건비가 높기 때문이죠. 하지만 이들이 만드는 데이터의 품질은 매우 좋습니다.
RFT는 데이터의 양보다는 품질이 중요합니다. 기존 방식과 같이 단순히 모방을 한다면 적은 양의 데이터 외의 내용에는 취약해질 수 밖에 없습니다. 하지만, RFT는 모델이 추론하는 방향을 학습하기 때문에, 많은 양의 데이터가 없더라도 일반화가 가능합니다. 다만, 높은 품질의 데이터가 있어야, 방향 설정을 올바로 할 수 있기 때문에 품질 높은 데이터가 필요한 것입니다.
높은 품질의 전문 데이터가 많은 전문 연구 분야에서 강화학습 기반의 파인튜닝 방식은 높은 품질의 추론 결과를 보여줄 것으로 기대할 수 있습니다.
실제 활용 예시
Justin Rees 박사팀은 고작 1,100개 데이터셋을 활용해 O1 Mini 모델에 RFT를 적용한 결과, 희귀 질환 진단에 관련된 유전자를 예측하는 정확도가 크게 향상되었습니다. 특히 RFT를 거친 O1 Mini 모델이 오히려 더 큰 모델인 O1 수준 이상의 성능을 보이는 결과가 나왔습니다. 이는 모델 규모가 작아도 강화학습을 통해 추론 능력을 크게 끌어올릴 수 있음을 보여줬습니다.
OpenAI에서 RFT를 사용하려면?
아래와 같은 데이터를 준비해야 합니다.
데이터셋 (JSON-L 파일)
각 줄에 아래의 내용이 포함되도록 JSON 데이터 파일을 구성합니다.
- 문제 상황: 모델이 학습해야 할 구체적인 상황, 질문 또는 설명.
- 명령: 모델이 수행해야 할 작업을 명확히 정의.
- 정답: 평가용으로 사용될 정답. 학습 중에는 모델에게 직접 제공하지 않습니다.

그레이더(Grader)
모델의 출력물을 정답과 비교해 평가하는 간단한 알고리즘입니다. OpenAI에서 제공하는 기본 그레이더를 사용할 수도 있고, 맞춤형으로 제작 가능합니다.

Grader를 정의하기 위해 시연에서는 아래와 같은 간단한 Schema를 정의하는 것으로 Grader를 설정해주었습니다.
{
"type": "object-grader",
"property_graders": {
"genes": {
"types": "inverse-rank-grader",
},
},
"calculate_output": "genes"
}
이런 방식 뿐만 아니라 파이썬 등으로 자신만의 grader를 개발할 수도 있다고 밝혔습니다.
OpenAI 훈련 인프라 활용
OpenAI는 사용자가 데이터셋과 그레이더만 제공하면, 강화학습 알고리즘과 분산 처리 인프라를 통해 모델 학습을 완료합니다.

결과 확인
학습 후 성능은 검증 데이터셋(validation dataset)을 통해 측정하며, 학습 중 과적합(Overfitting)을 방지하기 위해 학습 데이터와 검증 데이터 간의 중복은 허용되지 않습니다.
결론
현재 RFT는 일부 연구기관과 기업 파트너를 대상으로 한 Alpha 프로그램으로 제공 중입니다. 복잡한 문제를 다루는 전문가 팀이 있는 조직이라면 이 프로그램에 참여하여 RFT의 가능성에 도전해볼 수 있습니다.
더 적고 고품질의 데이터로도 높은 성과를 낼 수 있는 기술이 공개됨에 따라, 이제 더 다양한 테스크와 복잡한 테스크를 인공지능이 대체할 수 있게 될 것 같습니다. 이 기능을 통해 개발될 다양한 성과가 기대됩니다.
아직 2일차인데, 앞으로 공개될 기술들이 기대가 됩니다. 오늘처럼 어려운 내용은 쉽게 풀어가며 설명드리겠습니다. 구독하고 뉴스레터를 기대해주세요 🚀