GPT-4o 이미지 생성을 입다.
오늘 OpenAI에서 GPT-4o기반의 이미지 생성모델을 공개했습니다. OpenAI는 Ideogram이나 Google 등 다양한 이미지 생성 AI에 비해 상대적으로 더 낮은 성능을 보인다고 알려져 있습니다. 그 이유는 OpenAI는 이미지 생성에 Dall-e라는 과거의 모델을 사용하고 있기 때문입니다. 오늘 공개된 GPT-4o 이미지 생성모델은 이 인식을 완벽하게 뒤집어버렸습니다. 이번 뉴스레터에서는 이 내용에 대해서 설명드리고자 합니다.
기술 소개
GPT-4o는 텍스트와 이미지를 동시에 다룰 수 있는 멀티모달 모델로, 현실적이고 정확한 이미지 생성이 가능합니다.
- 정확한 이미지 생성: 프롬프트에 따라 텍스트, 로고, 다이어그램 등 정확한 의미를 전달하는 이미지 생성에 강점이 있습니다.
- 자연스러운 소통으로 이미지 수정: 사용자는 GPT-4o와 자연스러운 대화를 통해 이미지 생성을 세부적으로 조정하거나 여러 차례 수정할 수 있습니다. 특히 멀티턴 대화가 가능해지면서 여러번 질문으로 수정을 할 수 있습니다.
- 뛰어난 객체 표현력: 최대 10~20개의 서로 다른 객체를 동시에 정교하게 표현할 수 있습니다.
- 세계 지식 활용: GPT-4o는 모델에 내재된 풍부한 지식을 이미지 생성에 활용하여 효율성과 정확성을 높입니다.
- 안전성 강화: 민감한 콘텐츠의 생성을 차단하고, 이미지 출처를 명확하게 하기 위해 메타데이터(C2PA)를 제공합니다.
GPT-4o 이미지 생성 기능은 ChatGPT와 Sora에서 현재 이용 가능하며, 곧 API를 통해 개발자에게도 공개될 예정입니다. Plus를 사용하는 사용자분들께서는 지금 바로 텍스트 질문을 하듯이 질문을 하여 생성하실 수 있습니다.
이미지 생성하기

이미지 생성의 품질이 기본적으로 많이 향상되었습니다. 기본적인 생성의 품질이 향상되었으며, 기존보다 자연스러운 이미지를 만들어냅니다. 한국어도 매우 잘 이해하는 것을 볼 수 있습니다.

생성한 이미지에서 수정을 부탁할 수도 있습니다. 다른 사람, 배경, 자세는 동일하면서 맥북만 완벽하게 변경한 것을 알 수 있습니다. 즉, 기존 컨텍스트를 유지하면서 이미지를 수정하는 능력이 많이 발전한 것을 알 수 있습니다.
내 이미지 수정하기

제가 깜짝 놀란 기능은 이것이었습니다. 제가 아침에 요리해먹은 볶음우동 사진을 올리고, 여기서 젓가락만을 지워달라고 요청해보았습니다. 포토샵을 한 것처럼 완벽하게 수정되지는 않았지만, 일반인이 사용하기에 충분한 수준으로 수정이 가능한 것을 알 수 있습니다.

조금 더 넓은 범위의 수정을 요청해보았습니다. 고양이의 색을 변경해보도록 했습니다. 이 역시도 매우 잘 변경된 것을 알 수 있습니다.
결론
이번에 출시된 기술은 매우 놀라운 수준입니다. 특히, 기존 컨텍스트(문맥)이 유지되면서 변경된 이미지를 생성하는 것은 놀라운 수준입니다.
곧 디자이너, 사진 편집자 등 다양한 직종의 사람들이 대체되거나 혹은 그들이 이를 활용하여 더 창의적이고 효과적인 작업을 할 수 있을 것으로 기대됩니다. 저도 이를 활용하여 다양한 서비스를 만들어볼 수 있도록 고민해보고 있습니다.