YOLOv10 대 RTDETRv2: 실시간 종단간(End-to-End) 객체 탐지기 평가

컴퓨터 비전 환경은 매우 빠른 속도로 변화하고 있으며, 새로운 아키텍처들이 끊임없이 실시간 객체 탐지의 최첨단 기술을 재정의하고 있습니다. 이러한 진화의 두 가지 중요한 이정표는 YOLOv10과 RTDETRv2입니다. 두 모델 모두 NMS(Non-Maximum Suppression) 후처리의 필요성을 제거하여 기존 탐지 파이프라인의 근본적인 병목 현상을 해결하는 것을 목표로 하지만, 이 과제에 접근하는 아키텍처 패러다임은 완전히 다릅니다.

이 기술 비교에서는 아키텍처, 학습 방법론 및 이상적인 배포 시나리오에 대한 심층 분석을 제공하여 개발자와 연구자가 차세대 비전 AI 프로젝트를 위한 올바른 도구를 선택할 수 있도록 돕습니다.

YOLOv10: NMS 없는 선구자

칭화대학교 연구진이 개발한 YOLOv10은 아키텍처 효율성과 후처리 병목 현상 제거에 중점을 둡니다. NMS 없는 학습을 위한 일관된 이중 할당(consistent dual assignments)을 도입하여, 추론 지연 시간을 크게 낮추면서도 경쟁력 있는 성능을 달성합니다.

기술 사양

아키텍처 및 방법론

YOLOv10의 주요 혁신은 효율성과 정확도를 모두 고려한 전체론적 모델 설계입니다. 두 관점에서 다양한 구성 요소를 최적화하여 컴퓨팅 오버헤드를 크게 줄였습니다. 일관된 이중 할당 전략을 통해 모델은 NMS에 의존하지 않고 학습할 수 있으며, 이는 간소화된 종단간 배포 파이프라인으로 이어집니다. 이는 특히 모델을 ONNX 또는 TensorRT와 같은 엣지 형식으로 내보낼 때, 후처리 작업으로 인해 예상치 못한 지연 시간이 발생할 수 있는 환경에서 매우 유용합니다.

장점 및 단점

이 모델은 특히 소형 변형 모델(N 및 S)에서 탁월한 속도와 정확도 트레이드오프를 자랑합니다. 최소한의 지연 시간 덕분에 고속 엣지 환경에 이상적입니다. 그러나 YOLOv10은 빠른 탐지 속도에는 탁월하지만, 여전히 탐지 전용 모델이라는 한계가 있습니다. 인스턴스 세그멘테이션이나 포즈 추정이 필요한 팀은 더 다재다능한 프레임워크를 고려해야 합니다.

YOLOv10에 대해 더 알아보기

RTDETRv2: Detection Transformer의 개선

기존 Real-Time Detection Transformer를 기반으로 하는 RTDETRv2는 "bag of freebies"를 통합하여 베이스라인을 개선했으며, 실시간 시나리오에서도 Transformer가 CNN과 경쟁할 수 있음을 보여줍니다.

기술 사양

아키텍처 및 방법론

RTDETRv2는 시각적 특징 추출을 위한 CNN(Convolutional Neural Network) 백본과 포괄적인 장면 이해를 위한 Transformer 인코더-디코더를 결합한 하이브리드 아키텍처를 활용합니다. Transformer의 셀프 어텐션 메커니즘을 통해 모델이 이미지를 전역적으로 파악할 수 있으므로, 복잡한 장면, 겹치는 객체, 밀집된 군중을 처리하는 데 매우 효과적입니다.

장점 및 단점

Transformer 아키텍처는 특히 더 큰 파라미터 규모에서 뛰어난 정확도를 제공하며, NMS 없이 최종 탐지 결과를 기본적으로 출력합니다. 하지만 그에 따른 비용이 따릅니다. Transformer 모델은 일반적으로 학습 중에 훨씬 더 많은 CUDA 메모리를 필요로 하며 순수 CNN 아키텍처보다 수렴 속도가 느릴 수 있습니다. RTDETRv2는 추론 속도가 개선되었지만, 일반적으로 경량 YOLO 변형 모델보다 메모리를 더 많이 소비합니다.

RTDETRv2에 대해 더 알아보기

성능 비교

성능 지표를 평가하면 각 모델이 어디에서 뛰어난지 더 명확하게 파악할 수 있습니다. 다음 표는 COCO 데이터셋에서의 각 모델 성능을 보여줍니다:

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

데이터를 분석할 때 YOLOv10은 비슷한 크기에서 파라미터 효율성과 TensorRT 추론 속도 면에서 확실한 우위를 유지합니다. RTDETRv2-x는 정확도 면에서 거대한 YOLOv10x와 대등하지만, 약 2,000만 개의 파라미터가 더 필요하며 FLOPs가 훨씬 높습니다.

사용 사례 및 권장 사항

YOLOv10과 RT-DETR 중에서 선택하는 것은 귀하의 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

YOLOv10을 선택해야 하는 경우

YOLOv10은 다음 경우에 강력한 선택입니다:

  • NMS-free 실시간 탐지: Non-Maximum Suppression 없이 엔드투엔드 탐지 기능을 활용하여 배포 복잡성을 줄여야 하는 애플리케이션.
  • 균형 잡힌 속도-정확도 트레이드오프: 다양한 모델 규모 전반에서 추론 속도와 탐지 정확도 간의 강력한 균형이 필요한 프로젝트.
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

RT-DETR을 선택해야 할 시기

RT-DETR은 다음에 권장됩니다:

  • Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
  • 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며 약간 더 높은 추론 지연 시간이 허용되는 응용 프로그램.
  • 대형 객체 탐지: Transformer의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는, 중대형 객체가 주로 나타나는 장면.

Ultralytics(YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최적의 조합을 제공합니다:

  • NMS-free 엣지 배포: Non-Maximum Suppression 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속기가 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론 속도가 결정적인 이점을 제공합니다.
  • 소형 객체 탐지: 항공 드론 이미지나 IoT 센서 분석과 같은 도전적인 시나리오에서 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 향상시킵니다.

Ultralytics의 강점: 생태계와 혁신

YOLOv10과 RTDETRv2는 강력한 탐지 기능을 제공하지만, 모델 선택은 종종 주변 소프트웨어 생태계에 의해 결정됩니다. Ultralytics Platform은 딥러닝의 복잡성을 추상화하는 원활하고 통합된 인터페이스를 제공합니다.

새로운 표준: Ultralytics YOLO26

최고의 성능을 추구하는 개발자를 위해 Ultralytics YOLO26은 최근 아키텍처 발전의 정점을 보여줍니다. 2026년 초에 출시된 YOLO26은 YOLOv10이 개척한 End-to-End NMS-Free 설계를 계승하여 NMS 후처리를 완전히 제거함으로써 더 빠르고 간단한 배포를 가능하게 합니다.

왜 YOLO26을 선택해야 할까요?

YOLO26은 MuSGD Optimizer(SGD와 Muon의 하이브리드)를 통해 LLM 학습 혁신을 컴퓨터 비전에 도입하여 더 안정적인 학습과 빠른 수렴을 달성합니다. 또한 최대 43% 빠른 CPU 추론을 자랑하며 엣지 컴퓨팅을 위한 최고의 선택이 됩니다.

또한 YOLO26은 ProgLoss + STAL을 도입하여 소형 객체 인식에서 괄목할 만한 개선을 이루었으며, 특수 모델인 YOLOv10과 달리 극도의 범용성을 제공합니다. 객체 탐지, 세그멘테이션, 포즈, 지향성 바운딩 박스(OBB)를 기본적으로 지원하며 시맨틱 세그멘테이션 손실 함수 및 포즈를 위한 RLE(Residual Log-Likelihood Estimation)와 같은 작업별 개선 사항을 포함합니다. 또한 DFL(Distribution Focal Loss)을 제거하여 내보내기가 단순화되고 저전력 장치와의 호환성이 향상되었습니다.

YOLO26에 대해 더 알아보기

사용 편의성 및 학습 효율성

Ultralytics YOLO11과 같은 이전 세대 모델을 사용하든 최첨단 YOLO26을 사용하든, 간소화된 Python API를 통해 학습 중 메모리 사용량을 낮추고 매우 빠른 워크플로를 보장합니다.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

잘 관리된 생태계는 손쉬운 하이퍼파라미터 튜닝을 위한 도구를 제공하며, 광범위한 추적 솔루션 및 모델 배포 옵션과 완벽하게 통합됩니다.

결론

YOLOv10과 RTDETRv2 모두 NMS 없는 객체 탐구를 위한 강력한 이정표입니다. RTDETRv2는 메모리 요구 사항은 높지만 우수한 전역 문맥 이해와 실시간 지연 시간을 달성할 수 있음을 증명합니다. YOLOv10은 리소스 제약이 있는 탐지 작업을 위해 맞춤화된 고효율, 고속 CNN 대안을 제공합니다.

하지만 균형 잡힌 성능, 다중 작업 범용성, 가장 성숙한 생태계를 위해 개발자들은 Ultralytics YOLO26을 활용하는 것을 강력히 권장합니다. 이는 이전 모델의 아키텍처 혁신과 비전 AI 배포를 매끄러운 현실로 만들어주는 강력하고 사용자 친화적인 도구들을 아름답게 결합합니다.

댓글