본문 바로가기

기술 가이드/컴퓨터 비전 & AI

Multi‑Object Tracking (MOT) 최신 알고리즘 총정리

 

Multi‑Object Tracking (MOT) 최신 알고리즘 총정리

MOT란 무엇인가?

MOT(Multi‑Object Tracking)는 영상 속 여러 개의 객체를 프레임 단위로 식별하고, 각 객체의 이동 경로를 시간에 따라 추적하는 컴퓨터 비전 기술입니다. 자율주행차, CCTV 기반 보안 시스템, 스포츠 분석, 군사 감시, 스마트 시티 등 다양한 분야에서 핵심적인 역할을 수행합니다.

이 기술은 단일 객체를 추적하는 ‘Single Object Tracking(SOT)’보다 훨씬 더 복잡한 문제를 다룹니다. 왜냐하면 객체 간의 겹침(occlusion), 빠른 움직임, 객체의 출현 및 소멸, 유사한 외형 등이 존재하기 때문입니다.

최근에는 딥러닝 기반의 기술 발전으로 MOT 알고리즘이 비약적으로 발전하고 있으며, 특히 MOTChallenge와 같은 벤치마크 데이터셋의 등장으로 연구와 실용화가 빠르게 진화하고 있습니다.


MOT의 핵심 구성 요소

1. 객체 탐지(Object Detection)

MOT의 첫 번째 단계는 프레임마다 객체를 정확하게 탐지하는 것입니다. 대부분의 최신 MOT 알고리즘은 YOLO, Faster R-CNN, CenterNet 등 사전 훈련된 객체 탐지기와 함께 작동합니다.

2. 데이터 연관(Data Association)

각 프레임에서 탐지된 객체가 이전 프레임의 어떤 객체와 동일한지를 매칭하는 과정입니다. 이 단계에서는 객체의 위치, 크기, 외형(feature), 이동 속도 등이 기준으로 사용됩니다.

3. ID 유지 및 재할당(Re-identification)

겹침(occlusion)이나 프레임 손실 등으로 인해 일시적으로 객체를 추적하지 못하는 경우, 해당 객체가 다시 등장했을 때 동일 객체임을 식별하는 기술입니다. 딥러닝 기반 feature embedding 기법이 자주 활용됩니다.


최신 MOT 알고리즘 분류

1. 온라인 기반 vs 오프라인 기반

  • 온라인 기반 MOT는 실시간 추적에 초점을 맞추며, 과거 프레임까지만 참조해 추적합니다. 속도는 빠르지만 정확도는 다소 낮을 수 있습니다. (예: SORT, Deep SORT)
  • 오프라인 기반 MOT는 전체 영상 데이터를 미리 확보한 후 후처리 기반으로 높은 정확도를 추구합니다. 실시간성은 떨어지지만 복잡한 장면에 강합니다. (예: MHT, NOMT)

주목할 만한 최신 알고리즘

1. SORT (Simple Online and Realtime Tracking)

SORT는 Kalman Filter와 Hungarian Algorithm을 조합해 단순하지만 빠른 속도의 온라인 MOT 알고리즘입니다. 딥러닝을 사용하지 않고도 괜찮은 성능을 보입니다. 그러나 유사 객체 구분에 취약하다는 단점이 있습니다.

2. Deep SORT

SORT의 한계를 극복하기 위해 appearance descriptor를 추가한 방식입니다. Re-identification 기능을 갖추면서 객체 간의 혼동을 줄였습니다. 실시간 적용 가능성과 안정성을 두루 갖춘 대표적인 방법입니다.

3. FairMOT

FairMOT는 탐지와 추적을 동시에 처리하는 one-shot 모델입니다. 기존 방법이 탐지기와 추적기 분리 설계였다면, FairMOT는 백본 CNN을 공유함으로써 속도와 정확도를 동시에 확보했습니다.

4. ByteTrack

2021년 공개된 ByteTrack은 low-score detection을 버리지 않고 추적에 활용해 매우 높은 정확도를 기록한 최신 기술입니다. MOT17과 MOT20에서 최고 성능을 기록하며 많은 관심을 받았습니다.

5. TransTrack

Transformer 기반의 MOT 알고리즘으로, object-query 기반의 디코더 구조를 도입하여 탐지와 추적을 함께 수행합니다. Vision Transformer의 활용 가능성을 넓힌 연구입니다.


MOT의 도전 과제

1. Occlusion(가림 현상)

두 객체가 겹쳐 보이거나 하나가 다른 객체 뒤에 숨어 있을 경우, 추적 정확도에 큰 영향을 미칩니다. 이 문제를 해결하기 위한 다양한 CNN 구조와 attention 기반 모델이 등장하고 있습니다.

2. 실시간성 vs 정확도

실시간 시스템에서는 고속 처리가 요구되지만, 이는 종종 정확도의 저하로 이어집니다. 고성능 GPU 기반 연산과 경량화 모델의 개발이 필요한 이유입니다.

3. 도메인 일반화

하나의 MOT 알고리즘이 다른 환경(조명, 날씨, 배경, 해상도 등)에서도 잘 작동하는 일반화 능력은 여전히 도전 과제입니다.


미래 전망: MOT와 AI의 융합

MOT는 단순히 객체를 추적하는 데 그치지 않고, 객체의 행동 분석, 이상 행동 감지, 상황 인식 등으로 발전하고 있습니다. 특히 다음과 같은 분야에서 융합이 강화되고 있습니다:

  • 자율주행: 차량, 보행자, 신호 인식과의 통합
  • 스마트 시티: 군중 분석, 공공 안전 모니터링
  • 스포츠 분석: 선수 위치 추적 및 전술 분석
  • 로보틱스: 로봇의 시각 인식 기능 강화

딥러닝과 Transformer 아키텍처, 그리고 3D 데이터 분석의 결합으로 MOT는 더욱 정교하고 지능화된 형태로 발전할 것입니다.


결론

Multi‑Object Tracking은 컴퓨터 비전의 실용화를 이끄는 핵심 기술 중 하나입니다. 단순히 객체를 식별하는 수준을 넘어, 객체의 행동 예측, 그룹 간 상호작용 분석 등 더욱 복잡한 AI 인지 시스템으로 발전하고 있습니다.

빠르게 발전하는 AI 생태계 속에서 MOT는 영상 기반 이해를 위한 필수 기술로 자리매김하고 있으며, 딥러닝 기반 알고리즘의 고도화와 함께 그 응용 가능성은 더욱 확대될 것입니다.