YOLOv10 RTDETRv2: 실시간 종단간 객체 탐지기 평가
컴퓨터 비전 분야는 실시간 객체 탐지 분야의 최신 기술을 끊임없이 재정의하는 새로운 아키텍처가 등장하며 눈부신 속도로 발전하고 있습니다. 이러한 진화 과정의 두 가지 중요한 이정표는 YOLOv10 RTDETRv2입니다. 두 모델 모두 비최대 억제(NMS) 후처리 과정의 필요성을 제거함으로써 기존 탐지 파이프라인의 근본적인 병목 현상을 해결하고자 합니다. 그러나 이들은 완전히 다른 아키텍처 패러다임으로 이 과제에 접근합니다.
이 기술 비교는 아키텍처, 훈련 방법론 및 이상적인 배포 시나리오에 대한 심층 분석을 제공하여 개발자와 연구원이 차세대 비전 AI 프로젝트에 적합한 도구를 선택할 수 있도록 지원합니다.
YOLOv10: NMS 선구자
칭화대학교 연구진이 개발한 YOLOv10 아키텍처 효율성과 후처리 병목 현상 제거에 중점을 YOLOv10 . NMS네트워크 기반 NMS) 없이도 훈련이 가능하도록 일관된 이중 할당 방식을 도입함으로써, 추론 지연 시간을 크게 줄이면서도 경쟁력 있는 성능을 달성합니다.
기술 사양
- 저자: Ao Wang, Hui Chen, Lihao Liu, et al.
- 기관: 칭화대학교
- 날짜: 2024-05-23
- ArXiv: YOLOv10
- GitHub: THU-MIG/yolov10
- 문서: YOLOv10
아키텍처와 방법론
YOLOv10 주요 혁신은 효율성과 정확도를 동시에 추구하는 통합적 모델 설계에 있습니다. 이 모델은 두 측면 모두에서 다양한 구성 요소를 최적화하여 계산 오버헤드를 크게 줄입니다. 일관된 이중 할당 전략을 통해 NMS(최소화 수렴)에 의존하지 않고도 모델을 훈련할 수 있어, 간소화된 종단 간 배포 파이프라인을 구현합니다. 이는 특히 모델을 ONNX와 같은 에지 형식으로 내보낼 때 매우 유용합니다. ONNX 이나 TensorRT과 같은 에지 형식으로 모델을 내보낼 때 특히 유용합니다. 이러한 형식에서는 후처리 작업으로 인해 예상치 못한 지연이 발생할 수 있습니다.
강점과 약점
이 모델은 특히 소형 변형(N 및 S)에서 탁월한 속도-정확도 균형을 자랑합니다. 최소한의 지연 시간으로 고속 에지 환경에 이상적입니다. 그러나 YOLOv10 원시 탐지 속도에서는 YOLOv10 , 여전히 탐지만을 위한 특수 모델입니다. 인스턴스 분할이나 자세 추정 기능이 필요한 팀은 보다 다목적적인 프레임워크를 찾아야 합니다.
RTDETRv2: 탐지 트랜스포머 개선
기존 실시간 탐지 트랜스포머(RTDETR)를 기반으로, RTDETRv2는 성능 향상을 위해 "다양한 개선 요소들"을 통합하여 트랜스포머가 실시간 시나리오에서 CNN과 경쟁할 수 있음을 입증합니다.
기술 사양
- 저자: 룽원위, 자오이안, 창친야오, 황쿠이, 왕관종, 류이
- 기관: Baidu
- 날짜: 2024-07-24
- ArXiv: RTDETRv2 논문
- GitHub: RT-DETR
- 문서: RTDETRv2 문서
아키텍처와 방법론
RTDETRv2는 시각적 특징 추출을 위한 컨볼루션 신경망(CNN) 백본과 포괄적인 장면 이해를 위한 트랜스포머 인코더-디코더를 결합한 하이브리드 아키텍처를 활용합니다. 트랜스포머의 자기 주의 메커니즘은 모델이 이미지를 전체적으로 바라볼 수 있게 하여 복잡한 장면, 겹치는 물체 및 밀집된 군중을 처리하는 데 매우 효과적입니다.
강점과 약점
트랜스포머 아키텍처는 특히 큰 매개변수 규모에서 뛰어난 정확도를 제공하며, NMS 없이도 최종 탐지 결과를 기본적으로 출력합니다. 그러나 이는 대가를 수반합니다. 트랜스포머 모델은 전통적으로 훈련 중 훨씬 더 많은 CUDA 필요로 하며, 순수 CNN 아키텍처에 비해 수렴 속도가 느릴 수 있습니다. RTDETRv2는 추론 속도를 개선했지만, 일반적으로 경량 YOLO 모델보다 더 많은 메모리를 소비합니다.
성능 비교
성능 지표를 평가하면 각 모델이 어떤 부분에서 뛰어난지 더 명확히 파악할 수 있습니다. 다음 표는 COCO 에서의 각 모델의 성능을 보여줍니다:
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
데이터 분석 시, YOLOv10 동급 크기 모델 대비 매개변수 효율성과 TensorRT 속도에서 확고한 우위를 YOLOv10 . RTDETRv2-x는 정확도 측면에서 거대한 YOLOv10x와 맞먹지만, 약 2천만 개에 달하는 추가 매개변수와 현저히 높은 FLOPs를 요구합니다.
사용 사례 및 권장 사항
YOLOv10 RT-DETR 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .
10 선택해야 할 때
YOLOv10 다음에 대한 강력한 YOLOv10 :
- NMS 실시간 감지: 비최대 억제(NMS) 없이 종단 간 감지의 이점을 제공하는 애플리케이션으로, 배포 복잡성을 줄입니다.
- 균형 잡힌 속도-정확도 절충점: 다양한 모델 규모에 걸쳐 추론 속도와 탐지 정확도 간의 강력한 균형이 요구되는 프로젝트들.
- 일관된 지연 시간 애플리케이션: 로봇 공학 이나 자율 시스템과 같이 예측 가능한 추론 시간이 중요한 배포 시나리오.
RT-DETR 선택해야 할 때
RT-DETR 다음에 권장RT-DETR :
- 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
- 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
Ultralytics : 생태계와 혁신
YOLOv10 RTDETRv2는 강력한 탐지 기능을 제공하지만, 모델 선택은 종종 주변 소프트웨어 생태계에 달려 있습니다. Ultralytics 딥 러닝의 복잡성을 추상화하여 원활하고 통합된 인터페이스를 제공합니다.
새로운 기준: Ultralytics
최고의 성능을 추구하는 개발자들을 위해, Ultralytics 최근 아키텍처 발전의 정점을 보여줍니다. 2026년 초 출시된 YOLO26은 YOLOv10 개척한 엔드투엔드 NMS 설계를 계승하여, NMS 과정을 완전히 제거함으로써 더 빠르고 간편한 배포를 가능하게 합니다.
왜 YOLO26을 선택해야 할까요?
YOLO26은 MuSGD 최적화기 ( SGD Muon의 하이브리드)를 통해 컴퓨터 비전 분야에 대규모 언어 모델(LLM) 훈련 혁신을 가져왔으며, 이로 인해 더 안정적인 훈련과 빠른 수렴을 실현합니다. 또한 최대 43% 빠른 CPU 자랑하여 엣지 컴퓨팅의 최상의 선택입니다.
또한 YOLO26은 소형 객체 인식에서 현저한 개선을 위해 ProgLoss + STAL을 도입했으며, 특수화된 YOLOv10 달리 극도의 다용도성을 제공합니다. 객체 탐지, 분할, 자세, 방향성 바운딩 박스(OBB) 를 기본 지원하며, 세미틱 분할 손실과 자세를 위한 잔차 로그 가능도 추정(RLE)과 같은 작업별 개선 사항을 포함합니다. 또한 분포 초점 손실(DFL)을 제거함으로써 내보내기가 간소화되고 저전력 장치 호환성이 향상되었습니다.
사용 편의성 및 교육 효율성 향상
구형 모델인 Ultralytics YOLO11 과 같은 구형 모델을 실험하든, 최첨단 YOLO26을 사용하든 간에, 간소화된 Python 훈련 중 메모리 사용량을 줄이고 매우 빠른 워크플로를 보장합니다.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
잘 관리된 생태계는 손쉬운 하이퍼파라미터 튜닝을 위한 도구를 제공하며, 광범위한 추적 솔루션 및 모델 배포 옵션과 완벽하게 통합됩니다.
결론
YOLOv10 RTDETRv2는 모두 NMS 객체 탐지 기술 개발에서 중요한 이정표입니다. RTDETRv2는 트랜스포머가 우수한 전역적 맥락 이해력을 유지하면서도 실시간 지연 시간을 달성할 수 있음을 입증했습니다. 다만 메모리 요구량이 더 높다는 단점이 있습니다. YOLOv10 자원이 제한된 탐지 작업에 특화된 매우 효율적이고 빠른 CNN 기반 대안을 YOLOv10 .
그러나 균형 잡힌 성능, 다중 작업 유연성, 그리고 가장 성숙한 생태계를 위해 개발자들은 Ultralytics 적극 활용할 것을 권장합니다. 이 솔루션은 선행 제품들의 아키텍처 혁신과 견고하면서도 사용자 친화적인 툴링을 완벽하게 결합하여 비전 AI 배포를 원활한 현실로 만들어 줍니다.