Sky-T1, 현존 최고 성능 OpenAI의 o1에 필적하는 오픈소스 모델
최근, 미국 버클리 대학교 SKY연구실에서 공개한 SKY-T1모델이 기존 최고 성능의 모델인 OpenAI의 o1에 필적하는 성능으로 공개되었습니다. 훈련에 사용한 모든 데이터와 모델 파라미터, 훈련 기법 등을 모두 공개하겠다고 밝혔습니다.
현재 모델과 데이터가 허깅페이스에 공개되어 있습니다.
🚀 Sky-T1: 단돈 $450로 고성능 AI 모델을 직접 만들어 보세요!
이 프로젝트는 최고 수준의 시스템(o1-preview)과 견줄 수 있는 모델을 단 $450 이하의 비용으로 만들 수 있다고 이야기 합니다.
이 450$라는 비용은 Lambda Cloud Computing을 사용할 때의 비용을 기준으로 계산되었다고 하며, 19시간만에 DeepSpeed라는 딥러닝 훈련 프레임워크를 사용하여 8대의 H100 GPU로 훈련을 완료할 수 있다고 합니다.
훈련에 사용한 데이터는 허깅페이스에 공개되어 있으며, 총 17K개의 파인튜닝 데이터를 사용했다고 합니다.
Sky-T1-32B-Preview란?
Sky-T1-32B-Preview는 수학과 코딩 분야에서 복잡한 문제를 해결하도록 설계된 AI 추론 모델입니다. 오픈소스 기반으로 저렴하면서도 뛰어난 성능을 자랑합니다.

Sky-T1-32B-Preview는 다른 모델들과 비교해도 놀라운 성과를 보여줍니다. QwQ, O1-preview와 비교해서도 높은 성능을 보이는 것을 알 수 있습니다. 다만, OpenAI에서 최근 이야기하는 바로는, o1은 채팅을 위한 모델이 아니라, 보고서 작성과 같은 업무에 최적화되어 있다고 밝혔습니다. 현재 공개된 성능의 경우 글의 자연스러운 생성에 대한 평가는 이뤄지지 않았기에 이런 점을 확인해볼 필요가 있습니다.
어떻게 가능했을까요?
SKY연구팀은 데이터를 만들기 위해, 특이한 방법을 사용했는데, QwQ를 통해 학습에 사용할 데이터를 만들고, gpt-4o-mini를 통해 포멧팅을 수행했다고 합니다. 이를 통해 '사고'하는 것이 불가능한 모델을 생각하여 답변할 수 있도록 O1 방식이 적용될 수 있도록 하여 성능을 향상시켰다고 밝혔습니다.

- Rejection Sampling: QwQ를 통해 생성된 데이터 중 부정확한 데이터를 걸러내 데이터 품질을 향상.
- 파인튜닝: 수학, 코딩, 퍼즐 등 고품질 데이터 17,000개로 모델 파인튜닝
- 효율적인 학습: 8개의 H100 GPU로 19시간 만에 학습 완료. DeepSpeed와 Llama-Factory 같은 도구를 활용
왜 중요할까요?
AI 커뮤니티는 종종 폐쇄적인 모델로 인해 혁신이 제한됩니다. Sky-T1은 투명성, 협업, 그리고 비용 효율성을 통해 이런 장벽을 허물고 있습니다. 올바른 접근 방식을 통해 누구나 고급 AI를 접할 수 있다는 것을 증명해 주는 모델입니다.
특히나, 외부 API, 솔루션을 사용할 수 없는 극도의 보안이 필요한 업체에서 이런 오픈소스를 기반으로 내부적인 솔루션을 만들어냄으로서 보안과 생산성 두마리의 토끼를 잡을 수 있게 됩니다.
그럼에도, 아직 벤치마크 성능은 자체는 QwQ와 비슷한 수준이며 o1의 성능에 실제 필적할 수 있을지는 의문으로 남아있는 상태입니다.