한 걸음 더 나아간 비디오 트래킹 (SAMurai)
최근 SAMurai라는 인공지능 모델의 등장으로 비디오 트래킹이 보다 정확해졌습니다. 이제, 영상에서 특정 인물, 객체를 손쉽게 인지할 수 있습니다. 범죄 현장에서 특정 인물을 추적하거나, 스포츠 경기에서 특정 선수의 움직임을 추적할 수 있는 등 다양한 방면으로 활용이 가능합니다. 이번 뉴스레터에서는 SAMurai가 어떤 기술인지 간단하게 살펴보고자 합니다.
SAM2.1을 먼저 알아볼까요?

SAM은 Meta(Facebook)에서 공개한 Segment Anything Model의 약자로, 사진/영상에서 사람이나 객체를 분리해내는 인공지능 모델입니다. 사진에서 볼 수 있듯이 모든 사물과 사람을 분리해낼 수 있습니다. 기존 객체 분리 기술은 단일 사진에 대한 기술이었기 때문에, 영상처럼 사람이나 객체가 움직일 때, 같은 객체를 일정하게 트래킹하기 어려웠습니다. 즉 다음 장면이 되면 객체 분리는 되나, 분리된 객체간의 관계를 파악하기 어려웠었습니다.
SAM은 이런 기존의 문제를 해결하였습니다. 움직이는 영상 속에서 객체간의 관계를 파악할 수 있도록 여러 기술을 활용해주었습니다. 그리고 해당 기술은 발전을 거듭하여 SAM1.0, SAM2.0, SAM 2.1의 여러 버전을 통해 성능이 향상되었습니다.
SAM의 한계
가장 최신 모델인 SAM2.1은 이미지와 비디오의 객체를 세분화(마스크화)하는 데 탁월한 능력을 보여왔지만, 실제 비디오 추적에서는 몇 가지 약점을 보였습니다
- 빠르게 움직이는 객체나 가려지는 객체 에서의 위치 추적 오류
- 혼잡한 장면에서 비슷한 물체 간 혼동
그래서 오늘 소개드리는 SAMurai가 등장하게 된 것입니다.
SAMurai는 뭐가 다른가요?
SAMURAI는 이러한 문제를 해결하기 위해 움직임을 인식하는 기술과 이를 바탕으로 하는 효율적인 메모리 선택이라는 두 가지 주요 아이디어를 도입했습니다
모션 트래킹은 이전 동작들의 움직임을 바탕으로 객체의 다음 움직임을 예측하거나, 객체가 사라졌을 때의 위치 정보를 예상하고 보정하는 기술입니다. 이를 통해 객체의 위치를 알게되었다면, 객체가 나오는 중요한 장면만을 선정하고, 해당 장면만을 사용하여 효율적으로 메모리를 선택할 수 있도록 해주었습니다.

비유해보자면, SAM은 모든 것을 기억하고자 하는 학생이고, SAMurai는 중요한 것만 선별하여 기억하는 학생입니다. 아무래도 중요한 것만 기억하면 더 잘 할 수 있겟죠?
결론적으로
SAMurai는 다른 영상과 특정 물체를 잘 분리하고, 분리한 물체를 잘 트래킹할 수 있는 기술입니다. 무엇보다 깃허브에 오픈소스로 공개되어 있기 때문에, 누구나 사용해볼 수 있습니다. 축구 경기에서 이 기술과 LLM을 사용하여 자동 해설하는 기술을 개발하거나, 범죄현장에서 특정 범인을 추적하는 기술에도 사용해볼 수 있을 것입니다.
앞으로 어아인 AI뉴스레터에서는 더 흥미롭고 전문적인 인공지능 기술을 누구나 이해할 수 있게 풀어 설명할 예정입니다. 많은 기대 부탁드려요🚀