콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv8: 실시간 객체 탐지의 변혁

컴퓨터 비전 분야는 전통적인 컨볼루션 신경망(CNN)에서 트랜스포머를 통합한 하이브리드 아키텍처로 빠르게 진화해 왔습니다. 이러한 전환 과정에서 두드러진 두 모델은 RTDETRv2 (실시간 탐지 트랜스포머 버전 2)와 Ultralytics YOLOv8입니다. 두 모델 모두 실시간 객체 탐지라는 과제를 해결하고자 하지만, 근본적으로 다른 철학과 아키텍처 설계로 접근합니다.

이 가이드는 추론 속도, 정확도, 훈련 효율성 등의 요소를 고려하여 개발자, 연구원 및 엔지니어가 특정 배포 요구사항에 적합한 모델을 선택할 수 있도록 기술적 비교를 제공합니다.

모델 개요

지표 분석에 착수하기 전에 각 모델의 계보와 설계 목표를 이해하는 것이 필수적이다.

RTDETRv2

RTDETRv2는 실시간 시나리오에서 YOLO 진정으로 도전한 최초의 트랜스포머 기반 탐지기인 기존 RT-DETR 성공을 기반으로 합니다. 바이두 연구진이 개발한 이 모델은 순수 CNN에서는 종종 부족한 전역적 맥락을 포착하기 위해 비전 트랜스포머 백본을 활용합니다. 가장 큰 특징은 엔드투엔드 예측 능력으로, 이로 인해 사후 처리 단계에서 비최대 억제(NMS)가 필요하지 않습니다.

Ultralytics YOLOv8

YOLOv8Ultralytics( Ultralytics에서 공개한 YOLOv8은 CNN 기반 객체 탐지 효율성의 정점을 보여줍니다. 앵커 프리 탐지 헤드(anchor-free detection head)와 개선된 CSPDarknet 백본을 도입했습니다. 다용도성을 위해 설계된 YOLOv8 단순한 탐지기가 YOLOv8 . 인스턴스 분할, 자세 추정, 분류와 같은 작업을 기본적으로 지원합니다. 데이터셋 관리부터 배포까지 모든 과정을 간소화하는 강력한 소프트웨어 생태계가 뒷받침됩니다.

  • 작성자: Glenn Jocher, Ayush Chaurasia, Jing Qiu
  • 조직:Ultralytics
  • 날짜 날짜: 2023년 1월 10일
  • 문서:8 문서

8에 대해 자세히 알아보기

기술 아키텍처 비교

핵심적인 차이는 이러한 모델들이 시각 정보를 처리하는 방식에 있습니다.

비전 트랜스포머 대 컨볼루션 신경망

RTDETRv2는 어텐션 메커니즘을 활용해 이미지 특징을 처리하는 하이브리드 인코더를 사용합니다. 이를 통해 모델은 한 번에 전체 이미지를 '보며' 멀리 떨어진 객체 간의 관계를 효과적으로 이해할 수 있습니다. 이러한 전역적 컨텍스트는 복잡한 장면이나 객체가 가려진 상황에서 특히 유용합니다. 그러나 이에 따른 대가가 따릅니다: 트랜스포머는 일반적으로 훈련 과정에서 훨씬 더 많은 GPU (VRAM) GPU 필요로 하며, CNN 기반 모델에 비해 수렴 속도가 느릴 수 있습니다.

반면 YOLOv8 딥 컨볼루션 신경망에 YOLOv8 . CNN은 가장자리나 질감 같은 국소적 특징 추출에 탁월합니다. YOLOv8 'Bag of Freebies'라는 기법으로 이를 YOLOv8 . 이는 추론 비용을 증가시키지 않으면서 정확도를 향상시키는 아키텍처 조정입니다. 그 결과 놀라울 정도로 가벼운 모델이 탄생했으며, 소비자용 하드웨어에서 더 빠르게 훈련되고 라즈베리 파이와 같은 에지 디바이스에 효율적으로 배포됩니다.

NMS 아키텍처

RTDETRv2의 주요 특징 중 하나는 NMS(Non-Maximum Suppression)를 NMS 설계입니다. YOLOv8 같은 기존 탐지기는 중첩된 경계 상자를 다수 YOLOv8 후 이를 필터링하기 위해 NMS 사용합니다. RTDETRv2는 객체의 정확한 집합을 직접 예측합니다.

참고: 최신 YOLO26 역시 NMS 엔드투엔드 설계를 채택하여, 이러한 아키텍처적 장점을 Ultralytics 시그니처 속도와 결합합니다.

성능 지표

다음 표는 다양한 모델 크기의 성능을 비교합니다. RTDETRv2가 인상적인 정확도(mAP)를 보인 반면, YOLOv8 매개변수 수와 연산 부하(FLOPs) 측면에서 우수한 효율성을 YOLOv8 , 이는 제한된 장치에서 속도로 직접 연결됩니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

주요 내용

  1. 저지연 엣지 AI: YOLOv8n 나노)은 극한의 속도 면에서 독보적이며, GPU 약 1.47ms의 속도를 기록하고 CPU에서도 실시간 성능을 유지합니다. RTDETRv2는 극도로 자원이 제한된 환경을 위한 비교 가능한 '나노' 모델이 부족합니다.
  2. 정확도 상한선: RTDETRv2-x는 YOLOv8x 53.9) 대비 약간 높은 mAP 54.3)를 달성하며, 복잡한 검증 환경에서 트랜스포머 어텐션 메커니즘의 성능을 입증합니다. COCO과 같은 복잡한 검증 환경에서 트랜스포머 어텐션 메커니즘의 힘을 입증
  3. 연산 효율성: YOLOv8 유사한 성능 수준에서 더 적은 FLOPs를 필요로 하여 모바일 배포 시 배터리 효율성이 더 우수합니다.

에코시스템 및 사용 편의성

성능 지표는 이야기의 절반만을 말해줍니다. 엔지니어링 팀에게 있어 통합과 유지보수의 용이성은 종종 결정적인 요소입니다.

Ultralytics 장점: YOLOv8 성숙한 Ultralytics YOLOv8 , 원활한 '즉시 사용 가능한' 환경을 제공합니다.

  • 통합 API: YOLOv8, YOLO11, 심지어 RT-DETR 한 줄의 RT-DETR 있습니다.
  • 플랫폼 지원: Ultralytics 반복적인 코드 작성 없이도 학습, 결과 시각화, 데이터셋 관리를 위한 웹 기반 도구를 제공합니다.
  • 광범위한 배포: 내장된 내보내기 모드를 통해 ONNX, TensorRT, CoreML, TFLite 등의 형식으로 즉시 변환할 수 있습니다.

RTDETRv2 독립형 vs. 통합형: 공식 RTDETRv2 저장소는 연구 중심 코드베이스인 반면, Ultralytics RT-DETR 자사 패키지에 직접 Ultralytics . 이는 RTDETRv2의 아키텍처적 이점을 활용하면서도 사용자 친화적인 Ultralytics 이용할 수 있음을 의미합니다.

코드 예시: 훈련 및 예측

아래는 Ultralytics 내에서 두 아키텍처를 모두 활용하는 방법을 보여주는 Python . 이는 라이브러리의 모듈성을 강조합니다.

from ultralytics import RTDETR, YOLO

# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")

# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the results
results[0].show()

실제 응용 분야

RTDETRv2의 탁월한 점

변환기 기반 아키텍처는 정확도가 최우선이며 하드웨어 자원이 풍부한 시나리오(예: 강력한 GPU를 활용한 서버 측 처리)에 RTDETRv2를 이상적으로 만듭니다.

  • 의료 영상: 유사한 조직을 구분하는 데 전역적 맥락이 도움이 되는 X선 영상에서 미세한 이상 징후 탐지
  • 군중 분석: 밀집된 군중 속에서 개인을 추적하는 기술로, 일반적으로 가림 현상이 표준 CNN을 혼란스럽게 합니다.
  • 항공 감시: 지상 지형 간의 관계가 중요한 고해상도 드론 영상에서 소형 물체 식별

YOLOv8 장점

YOLOv8 속도와 신뢰성의 균형이 필요한 다양한 자원 제약 환경의 애플리케이션에 YOLOv8 최적의 솔루션으로 YOLOv8 .

  • 임베디드 IoT: NVIDIA Orin Nano 와 같은 장치에서 실행되어 스마트 시티 교통 모니터링을 수행합니다.
  • 로봇공학: 충돌을 방지하기 위해 지연 시간이 1밀리초 단위로 중요한 실시간 장애물 회피.
  • 제조: 고속 조립 라인 검사에서 모델이 빠른 컨베이어 벨트의 속도를 따라가야 하는 경우.
  • 멀티태스킹: 작업자 안전 모니터링을 위한 회전 물체 또는 자세 추정에 OBB가 필요한 애플리케이션.

미래 전망: YOLO26으로 양쪽의 장점을 모두 누리다

RTDETRv2가 NMS 검출을 전면에 내세웠지만, 해당 분야는 계속 발전해 왔습니다. 최근 출시된 YOLO26 는 이 두 아키텍처 간의 격차를 효과적으로 해소합니다.

YOLO26은 트랜스포머가 개척한 엔드투엔드 NMS 설계를 도입하되, 고도로 최적화된 CPU 아키텍처 내에서 구현합니다. MuSGD 최적화기분포 초점 손실(DFL) 제거와 같은 기능을 통해 YOLO26은 트랜스포머의 훈련 안정성과 글로벌 컨텍스트 인식 능력을 제공하면서도 YOLO 초고속 처리 속도와 낮은 메모리 사용량을 유지합니다. 2026년 이후 시작되는 신규 프로젝트에서 YOLO26을 검토하면 RTDETRv2와 YOLOv8 장점을 결합한 미래 대비형 솔루션을 확보할 수 있습니다.

결론

RTDETRv2와 YOLOv8 모두 컴퓨터 비전 엔지니어의 무기고에서 탁월한 YOLOv8 . RTDETRv2는 VRAM이 제약이 되지 않고 글로벌 컨텍스트가 중요한 연구 및 고성능 서버 배포 환경에서 견고한 선택지입니다. YOLOv8는 비교할 수 없는 다용도성, 생태계 지원 및 효율성을 제공하여 대부분의 상업용 및 엣지 AI 배포에 실용적인 선택입니다.

이러한 철학의 궁극적인 조합—트랜스포머 오버헤드 없이 엔드투엔드 처리 속도—를 추구하는 개발자라면, 차세대 비전 AI가 어떻게 워크플로우를 가속화할 수 있는지 알아보기 위해 YOLO26 문서를 살펴보시길 권장합니다.

추가 자료


댓글