기술적 대결: 실시간 객체 detect를 위한 DAMO-YOLO 대 RTDETRv2

컴퓨터 비전 분야의 급속한 발전은 속도, 정확도, 계산 효율성 간의 균형을 맞추기 위해 설계된 다양한 아키텍처를 탄생시켰습니다. 이러한 과제 해결에 독창적인 접근법을 제시한 두 가지 주목할 만한 모델은YOLO RTDETRv2입니다. 두 모델 모두 실시간 추론을 위한 최첨단 솔루션을 제공하고자 하지만, 근본적으로 아키텍처 철학에서 차이가 있습니다.

이 포괄적인 가이드는 두 모델의 기술적 사양, 아키텍처 혁신 및 실제 사용 사례를 심층적으로 다루면서, Ultralytics 최첨단 YOLO26과 같은 현대적 솔루션이 배포 및 사용 편의성에 대한 업계 표준을 어떻게 재정의했는지도 탐구합니다.

모델 개요

YOLO 이해하기

Alibaba Group 연구원들이 개발한 DAMO-YOLO는 신경망 아키텍처 검색(NAS)에 크게 의존하는 빠르고 정확한 객체 detect 방법을 도입합니다. 이는 기존의 수동으로 설계된 백본을 낮은 지연 시간을 위해 NAS가 생성한 구조로 대체합니다. 또한, 특징 집계 및 바운딩 박스 예측을 간소화하기 위해 효율적인 RepGFPN(Reparameterized Generalized Feature Pyramid Network)과 ZeroHead 설계를 통합합니다.

주요 모델 세부 사항:

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직:조직: 알리바바 그룹
날짜:23
Arxiv:2211.15444v2
GitHub:YOLO
문서:DAMO-YOLO 문서

DAMO-YOLO에 대해 자세히 알아보세요.

RTDETRv2 이해하기

Baidu의 RTDETRv2는 실시간 탐지 트랜스포머(Real-Time Detection Transformers) 분야에서 중요한 도약을 의미합니다. 앵커 박스와 NMS(Non-Maximum Suppression)에 의존하는 기존 CNN(Convolutional Neural Networks)과 달리, RTDETRv2는 셀프 어텐션(self-attention) 메커니즘을 활용하여 전체 이미지 컨텍스트를 파악합니다. 이 모델은 바운딩 박스를 직접 출력하여 NMS 후처리 단계를 완전히 우회합니다. 또한, 추론 지연 시간을 늘리지 않고 기준 정확도를 향상시키기 위한 'bag of freebies' 학습 전략을 도입합니다.

주요 모델 세부 사항:

작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직조직: Baidu
날짜:24
Arxiv:2407.17140
GitHub:RT-DETR 리포지토리
Docs:RTDETRv2 문서

RTDETRv2에 대해 자세히 알아보세요.

비전 AI에서 트랜스포머 기술의 활용

변환기는 더 높은 계산 자원을 필요로 하지만, 전역 컨텍스트 처리 능력 덕분에 복잡한 장면 이해에 매우 효과적이며, 이는 RTDETRv2의 주요 강점이다.

성능 비교

이러한 모델을 실제 환경에 배포할 때 평균 정밀도(mAP), 추론 속도, 메모리 사용량 등의 매개변수가 매우 중요합니다. RTDETRv2와 같은 트랜스포머 기반 모델은 일반적으로YOLO 같은 경량 CNN에 비해 훈련 및 추론 과정에서 더 많은 CUDA 요구합니다.

아래는 이들의 성능 지표에 대한 자세한 비교입니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

이상적인 사용 사례

DAMO-YOLO의 강점: NAS 최적화 백본과 더 작은 변형(예: DAMO-YOLOt)에서 매우 낮은 파라미터 수 덕분에, 매우 제한적인 하드웨어에 배포하기에 매우 적합합니다. ONNX와 같은 런타임 또는 엣지 컴퓨팅을 위한 특수 TensorRT 엔진을 사용하여 임베디드 장치용 솔루션을 구축하는 경우, DAMO-YOLO는 매우 반응성이 뛰어난 프레임워크를 제공합니다.

RTDETRv2의 강점: RTDETRv2는 서버급 GPU를 사용할 수 있고 전역 이미지 컨텍스트가 가장 중요한 시나리오에서 빛을 발합니다. 트랜스포머 아키텍처는 NMS 없이 겹치는 바운딩 박스를 자연스럽게 해결할 수 있게 하여, 밀집된 군중 관리 또는 멀리 떨어진 객체 간의 공간 관계가 중요한 복잡한 object tracking에 강력한 선택이 됩니다.

Ultralytics : YOLO26 소개

YOLO RTDETRv2는 중요한 학술적 성과를 나타내지만, 이러한 모델들을 확장 가능하고 생산 환경에 바로 적용 가능한 애플리케이션으로 전환하는 것은 어려울 수 있습니다. 개발자들은 종종 파편화된 코드베이스, 다중 작업 학습에 대한 지원 부족, 복잡한 배포 파이프라인과 같은 문제에 직면합니다.

이것이 바로 Ultralytics 진정으로 차별화되는 지점입니다. 사용 편의성, 잘 관리된 Python , 그리고 타의 추종을 불허하는 다용도성을 최우선으로 삼음으로써 Ultralytics 개발자들이 디버깅에 소요되는 시간을 줄이고 구축에 더 많은 시간을 할애할 수 있도록 Ultralytics .

최근 출시된 Ultralytics 모델은 이러한 장점을 한 단계 더 발전시켜YOLO RTDETRv2를 모두 능가하는 획기적인 성과를 제공합니다:

종단 간 NMS-Free 설계: YOLOv10에서 처음 개척된 YOLO26은 기본적으로 종단 간(end-to-end)입니다. 이는 NMS 후처리를 완전히 제거하여 기존 CNN보다 배포를 더 빠르고 훨씬 간단하게 만들고, RTDETRv2의 직접 출력 이점과도 일치합니다.
최대 43% 더 빠른 CPU 추론: 개별 GPU가 없는 엣지 AI 장치에 고도로 최적화되어 메모리 사용량이 많은 트랜스포머에 비해 IoT 애플리케이션에 훨씬 우수한 선택입니다.
MuSGD Optimizer: Moonshot AI의 Kimi K2에서 영감을 받은 SGD와 Muon의 이 하이브리드는 대규모 언어 모델(LLM) 훈련 혁신을 컴퓨터 비전에 도입하여 현저히 안정적인 훈련과 더 빠른 수렴을 가능하게 합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 모델이 전통적으로 어려움을 겪는 영역인 작은 객체 인식에서 주목할 만한 개선을 제공합니다. 이는 항공 이미지 및 드론 애플리케이션에 필수적입니다.
DFL 제거: Distribution Focal Loss가 제거되어 내보내기 형식이 간소화되고 저전력 엣지 장치와의 호환성이 향상되었습니다.
타의 추종을 불허하는 다재다능함: 순수한 detect에만 국한된 경쟁 모델과 달리, YOLO26은 지향성 바운딩 박스(OBB)를 위한 특수 각도 손실, 픽셀 단위 정확도를 위한 의미론적 segment 손실, 그리고 자세 추정을 위한 잔차 로그-우도 추정(RLE)과 같은 전반적인 작업별 개선 사항을 포함합니다.

YOLO26에 대해 더 알아보기

메모리 효율성이 중요합니다

RTDETRv2와 같은 트랜스포머 기반 모델 훈련에는 막대한 CUDA 할당이 필요하며, 이는 종종 고비용의 다중GPU 요구합니다. Ultralytics YOLO 훈련과 추론 모두에서 현저히 낮은 메모리 요구 사항을 유지하여 연구자와 취미 개발자 모두에게 AI 개발의 민주화를 실현합니다.

코드 예시: 통합 Ultralytics API

Ultralytics 가장 큰 장점 중 하나는 통합 API입니다. 워크플로를 변경하지 않고도 RTDETR의 PyTorch 최신 YOLO 포함한 다양한 모델을 원활하게 로드, 훈련 및 검증할 수 있습니다.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

이러한 단순성은 맞춤형 데이터셋 훈련 및 내보내기에도 적용됩니다. Ultralytics Python 활용하면 개발자는 훈련된 가중치를 CoreML 이나 OpenVINO 과 같은 배포 플랫폼에 단일 명령어로 쉽게 푸시할 수 있습니다.

결론 및 추가 탐색

DAMO-YOLO와 RTDETRv2 모두 실시간 객체 detect 분야에서 가능한 것의 한계를 분명히 확장했습니다. DAMO-YOLO는 순수한 효율성을 위해 고도로 최적화되고 자동 검색된 네트워크 구조를 제공하는 반면, RTDETRv2는 NMS와 같은 전통적인 병목 현상을 제거하여 트랜스포머가 실시간 분야에서 경쟁할 수 있음을 입증합니다.

그러나 성능, 포괄적인 문서화, 생산 환경 적용 가능성의 궁극적인 균형을 추구하는 개발자들에게는 Ultralytics YOLO 여전히 최고의 기준으로 자리 잡고 있습니다. YOLO26의 도입으로 사용자는 트랜스포머 기반의 엔드투엔드 탐지, 대규모 언어 모델(LLM)에서 영감을 받은 훈련 효율성, 그리고 비교할 수 없는 CPU 직관적이고 견고한 생태계 안에서 모두 활용할 수 있게 되었습니다.

다음 프로젝트를 위한 모델을 평가 중이라면, EfficientDet와 RTDETR의 비교 분석을 읽어보거나 이전 세대 모델을 살펴보는 것도 도움이 될 수 있습니다. YOLO11을 살펴보거나 YOLOX와 같은 학술적 기준 모델을 검토하는 것도 도움이 될 수 있습니다. Ultralytics 가이드를 통해 오늘 바로 구축을 시작해 보세요.