Agent의 시대로 | ChatGPT Agent 공개
현지 시간 17일, OpenAI에서 에이전트 기능을 출시하였습니다. 기존 대화형에서 한 걸음 더 나아가, AI Agent는 스스로 어떤 동작을 해야 주어진 과업을 수행할 수 있는지 정의하고 실제로 동작을 수행할 수 있는 말 그대로 나만의 "요원"이 생기는 샘입니다.
오랜만에 찾아온 어아인 AI 뉴스레터에서는 OpenAI가 새로 출시한 Agent기능에 대해 보다 자세하고 심도깊게 설명드리겠습니다.

AI Agent가 나오기까지...
ChatGPT는 이제 너무 많은 분들이 사용해보셨을 것 같습니다. LLM(대형 언어모델)로 불리는 인공지능 모델을 사용하여 사용자의 입력에 대해 학습한 정보를 바탕으로 답변을 제공하는 서비스 입니다.
시간이 지남에 따라, 이제 ChatGPT에서도 사진이나 파일을 보낼 수 있게 되신 것을 아실 것입니다. 과거에는 사진을 이해하기 위해 사진으로부터 설명을 추출하고 이 설명을 바탕으로 언어모델로부터 답변을 구했습니다. 이런 방식은 언어모델과 상관없이 설명을 생성하는 능력에 따라 답변 품질이 결정되었기 때문에 오래가지 못했습니다. 그래서 언어 모델에 직접 사진을 입력할 수 있는 VLM(Vision Language model, 시각언어모델)이 등장하였습니다. 이를 통해 사용자가 입력한 사진을 바탕으로 큰 인공지능 모델이 고품질의 답변을 내놓을 수 있게 되었습니다.
여러 모달리티(텍스트, 사진, 영상 등)를 처리하도록 인공지능이 발전하는 동시에, 답변의 품질을 올리기 위한 연구도 계속되었습니다. 모델이 답변을 생성할 때, 인간이 사고하는 것과 비슷하게 답변의 이유를 같이 생성하도록 하고, 생성된 답변을 한번더 검토하여 더 좋은 답변이 나오도록 하는 방법이 제안되었습니다. 이를 Reasoning 기법으로 부릅니다. o1, o3와 같은 모델들이 이런 Reasoning 기법으로 만들어진 모델들입니다. 최근 나오는 높은 성능의 모델은 다 이 기법을 바탕으로 만들어지고 있습니다.
그리고 ChatGPT를 좋아하시는 분들이라면 'Web'이라든지 'Deep Research' 같은 기능도 써보셨을 것 같습니다. 이 기능은 웹에서 정보를 가져와서 이를 바탕으로 답변을 생성하는 기술입니다. 이는 RAG(Retrieval Augmented Generation)에서 영감을 받아 만들어졌습니다. 여기서 한발짝 더 나아가 언어모델을 한번만 쓰는게 아니라, 여러 단계를 통해 사용할 수 있도록 한다거나(플래닝), 언어모델이 어떤 도구를 선택할지 결정하도록 하는(tool call) 등의 방법이 제시되었습니다. 그리고 이 모든 것을 결합해서 등장한 기술이 Agent 기술입니다.
Agent는 사용자의 요청이 들어오면 크게 다음과 같은 과정을 거치게 됩니다.
- 사용자의 요청을 처리하기 위해 어떻게 해야할지 계획을 세우고 순차적으로 수행합니다. (planning)
- 계획 중 웹을 검색해야하거나, 더 고차원의 도구를 사용해야한다면, 이를 직접 사용합니다. (tool)
- 모델이 학습한적 없는 데이터여도, 검색결과를 바탕으로 사용자의 요청에 필요한 답변을 생성합니다. (RAG)
- 만약 검색 결과 혹은 웹을 직접 봐야한다면, 사진이나 영상과 같은 모달리티를 처리할 수 있도록 합니다. (VLM)
- 최종적으로 결과를 종합하고, 제대로 결과가 생성되었는지 LLM이 스스로 평가합니다. (Multi-stage, Reasoning)
실제로는 더 복잡하고 많은 연구들과 기술이 있지만 쉽게 이 정도의 대표적인 기술이 사용됩니다. Agent는 직접 신경쓰지 않더라도 '알아서' 뭐든지 해주기를 기대합니다. 그래서 자료조사, 예약 등 귀찮은 작업을 대신해주길 기대합니다. 그러기 위해서는 우리가 복잡하게 명령하지 않더라도 스스로 계획을 세우고, 필요하다면 여러 도구를 직접 사용하는 기술이 필요합니다. 앞서 설명한 LLM의 역사는 결국 이 Agent 기술을 위해서 발전해왔다고 볼 수 있습니다.
OpenAI가 특별한 이유는?
사실 OpenAI의 ChatGPT Agent외에도 많은 Agent 관련 기술과 오픈소스가 등장했습니다. browser use는 대표적인 Agent 오픈소스입니다. 스스로 브라우저를 탐색하며, 다음에 어떤 과정을 수행해야할지 LLM에게 브라우저의 현재 정보를 주고 LLM으로부터 다음 동작을 안내받아 스스로 사용자의 과업을 수행할 수 있습니다.

이 외에도 여러 다른 오픈소스가 존재합니다. 그리고 이런 오픈소스는 잘 개발되었고, 개발자라면 손쉽게 사용해볼 수 있습니다. 또한, API Key를 통해 여러 LLM을 사용해볼 수 있고, Llama와 같은 오픈소스 LLM을 사용할 수도 있습니다. OpenAI에서 만든 Agent가 그럼 특별한 이유가 있는걸까요?
'개발자'라면 손쉽게 사용해볼 수 있는 것, 그리고 LLM API Key가 필요한 것이 이런 오픈소스 에이전트를 사용하는 데에 큰 어려움 중 하나입니다. 이런 Agent가 동작하도록 하기 위해, 여러 소프트웨어와 라이브러리를 설치해야하고, 그 과정에서 발생하는 버그를 고쳐야 합니다. 또한, 앞서 설명드린 바와 같이 Agent 자체가 하나의 모델이 아니라, LLM을 여러 도구와 함께 반복적으로 사용하여 하나의 과업을 알아서 마무리 하는 것이 핵심입니다. 그 과정에서 여러번 LLM을 호출하게 되고, 높은 비용이 나오게 됩니다. 100% 완벽하지도 않은 에이전트 기능에 일반인이 소모하기는 다소 큰 비용입니다.
오픈AI의 이런 에이전트 기능은 별도의 설치도 필요없고, API Key를 발급받는다던지, 추가비용이 필요하지 않습니다. 누구나 원하는 것을 말하면 '알아서' 잘 수행하는 Agent가 나오게 된 것 입니다. Agent가 대중화되면 여러 서비스에서 이 Agent에 맞도록 지원하게 될 것이고, 더 다양한 과업을 수행할 수 있게 될 것입니다. 이러한 변화는 Google, Naver와 같이 컴퓨터로 해야하는 모든 과업의 시발점이 될 수 있습니다.
어떤 기능이 발표되었나요?
ChatGPT 에이전트는 다음과 같은 작업을 수행할 수 있습니다.
- 웹 탐색 및 정보 수집: 웹사이트를 탐색하고 필요한 정보를 수집합니다.
- 코드 실행 및 분석: 코드 실행을 통해 데이터 분석이나 보고서를 생성합니다.
- 문서 및 슬라이드 생성: 수집한 정보를 바탕으로 문서나 프레젠테이션 슬라이드를 작성합니다.
- 일정 관리 및 예약: 캘린더를 확인하고 회의 일정을 조율하거나 예약을 진행합니다.
- 개인화된 추천: 사용자의 선호도를 반영하여 맞춤형 추천을 제공합니다.

Agent는 이 기능을 통합하고 스스로 계획하여 사용자 요청을 달성할 수 있게 됩니다. 이로 인해, 별도로 존재하던 Deep Research (딥리서치)와 Operator(오퍼레이터) 기능이 결합되어 사용됩니다. 그 외에도, 터미널 명령어를 수행하거나 시각, 텍스트 기반의 브라우저, 구글 캘린더나 드라이브와 같은 API를 사용하여 사용자의 정보를 확인하고 기록할 수 있게 됩니다.
사실 앞서 설명드린 바와 같이, 발표된 모든 내용이 기존에도 ChatGPT가 어느 정도 수행하던 것이었습니다. 앞서 들려드린 LLM의 발전해온 역사를 보시면, 완전히 새로운 기술은 아니라는 것을 아실 수 있으실 것 입니다. 다만, 이런 기능을 잘 결합하여 크게 신경쓰지 않고도 이를 유기적으로 결합했다는 점, 그리고 일반 대중도 Agent기술을 접할 수 있도록 대중화에 기여한다는 점이 긍정적인 포인트가 되겠습니다.
중요한 작업은 처리할 수 없습니다.
AI를 소재로한 영화를 보면 인공지능이 항상 인간의 통제를 벗어나서 인간을 위협하는 것이 클리세처럼 널리 알려져 있습니다. Agent는 스스로 인공지능이 판단하고 처리할 수 있기 때문에, 중요한 작업 혹은 민감한 정보가 처리되면 위험할 수 있습니다. 그렇기 때문에, OpenAI는 사전 조치로 다음의 세가지를 제공하고 있습니다.
- 명시적 승인 요청: 이메일 전송, 예약, 결제 등 중요한 작업을 수행하기 전에 사용자의 승인을 요청합니다.
- 작업 중단 및 제어: 사용자는 언제든지 작업을 중단하거나 직접 제어할 수 있습니다.
- 보안 조치: 민감한 작업에 대해서는 추가적인 보안 조치를 적용하여 안전성을 확보합니다.
사실 이 정도만 되더라도 큰 위험은 어느정도 막을 수 있습니다. 그러나, 어디에나 허점은 있을 수 있습니다. 특히 Agent는 가짜 정보와 진짜 정보를 구분하기 어려울 수 있고, 사용자의 디테일한 선호를 알지 못합니다. 그렇기 때문에, 교묘하게 Agent를 속여서 더 비싼 본인의 상품을 구매하도록 한다거나 가짜 정보를 사용해서 Agent에게 혼란을 주려는 시도는 계속 될 것입니다. 챗지피티도 초창기에는 핵무기 제조법을 알려주거나, 제품키 등을 알려주는 허점이 많았습니다. Agent도 시간이 지나며 이런 취약점이 발견되고, 충분히 개선될 수 있습니다.
Agent를 사용하려면?
사실 이 글을 쓰고 있는 저도 아직 Agent 기능을 사용해보지 못했습니다. Agent 기능은 Pro(월 $200 요금제) 사용자부터 순차적으로 배포되고, 이후 Plus, Team 그리고 이번달까지 Enterprise 유저에게 차례로 배포된다고 합니다. Pro 사용자의 경우 월 400회, plus, team 사용자는 월 40회의 사용 크래딧이 주어진다고 합니다. 기능이 출시되면 유튜브 영상과 함께 돌아오겠습니다.
Agent의 미래
GPT2부터 직접 모델을 훈련하고 사용해온 입장으로서, 지금의 Agent 기술은 사실 완전히 새로운 기술은 아닙니다. 여러 사람들이 Agent라는 공동의 목표를 가지고 여러 기술을 개발해왔고, 이것을 유기적으로 결합한 것이 오늘의 Agent 기술입니다.
아마 하드웨어나 여러 기술이 추가로 개발된다면 더 복잡하고 난이도 있는 작업을 사람 대신에 이 에이전트가 수행하는 날이 올 것입니다. 많은 연구자들이 현재의 Agent 기술은 Agent Zero(0)라고 부릅니다. 그만큼 초기의 기술이며, 모든 것이 자동화되지 못할 것이고 Agent는 작동하다가 한계를 마주하는 순간들이 많을 것입니다. 그러나, 사용자가 많아지고 기술이 발전함에 따라 에이전트의 능력과 범위는 빠른 속도로 발전할 것입니다.
인간으로서 이 Agent를 어떻게 바라봐야 할까요? 나 대신 일을 하게 되니, 내 일자리를 뺏을 악당일까요? 아니면 나의 귀찮은 일을 대신 해주는 비서가 될까요?
이는 사람이 어떻게 쓰고 기술을 받아드리냐에 따라 다른 것 같습니다. 여러 언론과 정치권에서도 AI의 발전을 위협으로만 조망하고 있습니다. 그렇게 바라봐야, 사람들을 더 불안에 빠뜨리고 높은 조회수와 지지를 챙길 수 있기 때문입니다. 그렇게 우려하던 인공지능이 지금은 없어서는 안되는 필수 업무 도구로 자리잡고 있다는 점에서, 과도한 불안감은 좋지 않다고 생각합니다.
이런 과도한 불안에서 한발짝 멀어져서, 기술을 기술로 바라보고 이를 충분히 활용할 수 있어야 한다고 생각합니다. 감사합니다.