Gemini 3.1 Pro
Gemini 3.1 Pro 출시: Agentic에 집중한 모델 업데이트
Google은 2026년 2월 19일(UTC) Gemini 3.1 Pro를 발표하고, API·앱·엔터프라이즈 채널에 프리뷰 배포를 시작했습니다. 공식 발표에 따르면, Google은 전작 Gemini 3 Pro 대비 추론 성능이 2배 이상이라고 설명합니다. 가격은 기존 Pro 프리뷰 구조를 유지해 성능 업그레이드 대비 비용 급등은 피했지만, 아직 프리뷰 단계라 실사용 검증이 핵심입니다.

출시 배경
2026년 2월 12일, Google은 먼저 Gemini 3 Deep Think 업데이트를 발표했습니다. 이 업데이트는 과학·연구·엔지니어링처럼 정답이 불분명한 문제에서 추론 깊이를 높이는 데 초점을 맞췄습니다.
그로부터 일주일 뒤인 2026년 2월 19일, Google은 같은 흐름을 "일반 사용 가능한 기본 모델" 쪽으로 확장한 형태로 Gemini 3.1 Pro를 공개했습니다. 즉, Deep Think 계열에서 확인한 개선을 앱·API·기업 채널로 넓히겠다는 발표입니다.
그리고 2026년 2월 20일 Google Cloud 후속 글이 올라오면서, Vertex AI·Gemini Enterprise 관점의 기업 적용 메시지가 보강됐습니다. 이 순서를 보면 이번 업데이트는 단일 모델 공개보다 "성능 개선 + 배포 채널 확장"이 결합된 이벤트에 가깝습니다.
얼마나 개선됐나
공식 발표의 대표 지표는 ARC-AGI-2 77.1% 입니다. ARC-AGI-2는 AI가 얼마나 잘 주어진 일에 대해 행동하는지를 나타내는 지표로, 다른 모델 대비 월등히 뛰어난 성능을 보입니다. Google은 이를 전작 대비 2배 이상 향상으로 설명하며, 3.1 Pro를 복잡한 문제 해결용 기본 모델로 포지셔닝 했습니다.

외부 지표를 보면 결이 조금 더 선명해집니다. Artificial Analysis에 따르면, 3.1 Pro Preview를 고지능 구간으로 분류하면서도 가격은 "저가"가 아닌 중고가 축으로 놓고, 속도는 107 tokens/s로 제시합니다. 즉, 이번 버전은 "무조건 저렴"보다 "성능을 유지하면서 속도와 실전 사용성을 끌어올린 타입"에 가깝습니다.
어디서 성능 차이가 나는가
Google 데모가 강조하는 영역은 코드 기반 산출물입니다. 텍스트 프롬프트로 SVG 애니메이션을 생성하거나, 복잡한 API/데이터를 연결해 대시보드를 만드는 식의 작업이 대표 사례로 제시됐습니다. 복합 추론, 코드 생성, 에이전트형 워크플로 맥락에서 개선이 뚜렸할 것으로 보입니다. 하지만, 벤치마크가 모든걸 설명해주지 못하기 때문에, 곧바로 모든 업무 시나리오 우위로 이어지지는 않을 것으로 보입니다.
The Decoder 같은 지점을 짚습니다. 일부 벤치에서는 절대 우위가 아닌 구간이 있고, 결국 실제 팀의 프롬프트·데이터·툴 체인에서 재측정해야 의미가 생긴다는 것입니다.
누가 지금 쓸 수 있나
아직 preview 모델이긴 하지만, 구글의 모든 제품군에서 사용해볼 수 있습니다.
- 소비자: Gemini 앱, NotebookLM
- 개발자: Gemini API, Google AI Studio, Gemini CLI, Android Studio, Antigravity
- 기업: Vertex AI, Gemini Enterprise
가격도 같이 확인해야 합니다. Gemini Developer API 가격표 기준, 3.1 Pro Preview의 가격은 이렇습니다.
- 입력: $2.00 (<=200k 토큰), $4.00 (>200k 토큰)
- 출력(사고 토큰 포함): $12.00 / $18.00
- 컨텍스트 캐싱: $0.20 / $0.40 + 스토리지 $4.50(1M 토큰/시간)
한계점
첫째, 상태가 아직 preview입니다. Google도 후속 개선(특히 agentic workflow)을 예고했기 때문에, 지금 수치는 "완제품 고정 성능"이 아니라 "진행 중인 상향선"으로 보는 편이 안전합니다.
둘째, 접근권이 채널별로 나뉘어 있습니다. 소비자 플랜, API 과금, 기업 채널(보안/컴플라이언스) 조건이 다르므로, 팀마다 실제 진입비용이 달라집니다.
셋째, 벤치마크와 현업 품질은 분리해서 봐야 합니다. 여러 매체에서 지적하듯, 점수보다 중요한 것은 여러분의 실제 업무 프롬프트에서 오류율·재시도율·토큰 비용이 어떻게 변하는지입니다.
결론
과거 얼마나 더 좋은 답변을 내놓느냐에서 주어진 일을 컴퓨터가 스스로 잘 할 수 있는지를 나타내는 지표가 발표의 메인이 되면서, 점점 Agentic Workflow에 집중을 하고 있습니다. GPT-codex, Claude Code 등 Agentic하게 동작하도록 하는 제품군이 개발자를 넘어서 일반 사무직 업무를 보조할 수 있게 됨에 따라, 구글 제품군에 이를 붙여서 시너지 효과를 내고자 하는 목적도 있는 것으로 보입니다.
Sources
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
- https://cloud.google.com/blog/products/ai-machine-learning/gemini-3-1-pro-on-gemini-cli-gemini-enterprise-and-vertex-ai
- https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-pro-preview
- https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/
- https://the-decoder.com/google-releases-gemini-3-1-pro-with-improved-reasoning-capabilities/
- https://venturebeat.com/technology/google-launches-gemini-3-1-pro-retaking-ai-crown-with-2x-reasoning
- https://artificialanalysis.ai/models/gemini-3-1-pro-preview