Link to this sectionRTDETRv2 vs DAMO-YOLO#
컴퓨터 비전 분야는 끊임없이 발전하고 있으며, 연구원과 엔지니어들은 속도, 정확도, 효율성의 완벽한 균형을 갖춘 모델을 구축하기 위해 노력하고 있습니다. 이 분야에서 상당한 주목을 받은 두 가지 주요 아키텍처는 Baidu에서 개발한 RTDETRv2와 Alibaba Group에서 제작한 DAMO-YOLO입니다. 두 모델 모두 실시간 객체 탐지의 한계를 넓히고 있지만, 인상적인 결과를 달성하기 위해 근본적으로 다른 아키텍처 철학을 채택하고 있습니다.
본 기술 비교에서는 두 모델의 아키텍처, 학습 방법론 및 실제 배포 역량에 대해 심도 있게 다룰 것입니다. 또한, 이러한 모델들이 더 넓은 생태계, 특히 고도로 최적화된 Ultralytics 플랫폼 및 최첨단 YOLO26 아키텍처와 어떻게 비교되는지도 살펴볼 것입니다.
Link to this section아키텍처 혁신#
이러한 모델의 핵심 메커니즘을 이해하는 것은 프로덕션 환경에 적합한 도구를 선택해야 하는 머신러닝 엔지니어에게 매우 중요합니다.
Link to this sectionRTDETRv2: Transformer 접근 방식#
기존 RT-DETR의 성공을 기반으로 하는 RTDETRv2는 하이브리드 인코더와 transformer 디코더를 활용합니다. 이 설계는 모델이 전역 문맥(global context)을 매우 효과적으로 처리할 수 있게 하여, 밀집된 장면에서 겹치는 객체를 구별하는 데 탁월한 성능을 발휘합니다. 이 아키텍처의 가장 큰 장점은 기본적으로 NMS(Non-Maximum Suppression)를 사용하지 않는 설계입니다. NMS 후처리 단계를 제거함으로써, RTDETRv2는 추론 파이프라인을 간소화하고 다양한 하드웨어 구성에서 더 안정적인 지연 시간을 보장합니다.
Link to this sectionDAMO-YOLO: CNN 효율성 향상#
반면 DAMO-YOLO는 매우 성공적인 CNN 기반 YOLO 계보에 뿌리를 두고 있지만, 몇 가지 획기적인 개선 사항을 도입했습니다. 신경망 구조 검색(NAS)을 활용하여 백본을 최적화함으로써 최대의 특징 추출 효율성을 보장합니다. 또한, 효율적인 RepGFPN(Reparameterized Generalized Feature Pyramid Network)과 ZeroHead 설계를 AlignedOTA 및 증류(distillation) 개선 기술과 함께 통합했습니다. 이러한 혁신을 통해 DAMO-YOLO는 높은 수준의 mAPval 점수를 유지하면서도 빠른 추론 속도를 달성합니다.
RTDETRv2는 NMS 없이 어텐션 메커니즘을 활용하여 전역 특징을 이해하는 데 중점을 두는 반면, DAMO-YOLO는 NAS와 고급 증류 기법을 통해 전통적인 CNN 효율성을 극대화하며 표준 후처리가 필요하지만 특정 하드웨어에서 뚜렷한 속도 이점을 제공합니다.
Link to this section성능 및 지표 비교#
배포용 모델을 평가할 때 mAP(mean Average Precision), 추론 속도, 파라미터 수와 같은 성능 지표는 매우 중요합니다. 다음은 두 모델 제품군에 대한 자세한 비교입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Link to this section결과 분석#
표에서 볼 수 있듯이, RTDETRv2-x는 mAPval 54.3으로 가장 높은 정확도를 달성하며 COCO 데이터셋과 같은 복잡한 검증에서 Transformer 아키텍처의 강력함을 보여줍니다. 하지만 이는 상당히 더 많은 파라미터(76M)와 FLOPs를 사용한다는 비용이 따릅니다.
반대로 DAMO-YOLOt(Tiny)는 매우 가볍고 파라미터가 8.5M에 불과하여, CUDA 메모리가 엄격하게 제한되는 환경에서 매우 빠른 옵션이 됩니다. DAMO-YOLO는 일반적으로 레거시 엣지 장치에 대해 속도와 정확도 사이에서 유리한 균형을 제공합니다.
Link to this section생태계, 사용 편의성 및 Ultralytics의 이점#
공식 RT-DETR GitHub 및 DAMO-YOLO GitHub와 같은 독립 저장소는 이러한 모델을 학습시키기 위한 원시 코드를 제공하지만, 이를 프로덕션 파이프라인에 통합하려면 종종 방대한 보일러플레이트 코드와 수동 최적화가 필요합니다.
이 지점에서 Ultralytics 생태계는 개발자 경험을 획기적으로 간소화합니다. Ultralytics는 RTDETRv2와 같은 모델을 통합된 API에 직접 통합하여 사용자가 단 한 줄의 코드로 모델을 학습, 검증 및 내보낼 수 있도록 합니다. 또한, Ultralytics 모델은 무거운 Transformer 기반 독립형 저장소와 비교하여 학습 중 메모리 요구 사항이 최소화된 것으로 유명합니다.
Link to this section코드 예제: 원활한 통합#
Ultralytics Python 라이브러리를 활용하여 추론을 실행하는 방법은 매우 간단합니다. Transformer 모델을 사용하든 최첨단 CNN을 사용하든 API는 일관되게 유지됩니다.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Using the Ultralytics API, you can seamlessly export your trained models to formats like TensorRT, ONNX, or CoreML with a simple model.export(format="engine") command, drastically reducing deployment friction.
Link to this section이상적인 사용 사례#
이러한 아키텍처 중 무엇을 선택할지는 프로젝트의 구체적인 요구 사항에 전적으로 달려 있습니다.
- RTDETRv2는 VRAM이 충분한 서버 측 처리에 탁월합니다. 전역 문맥 인식 기능은 의료 영상이나 겹침이 빈번한 밀집 군중 분석에 완벽합니다.
- DAMO-YOLO는 임베디드 IoT 애플리케이션과 적은 파라미터 수 및 높은 FPS가 엄격한 요구 사항인 빠른 속도의 산업용 검사 라인에 매우 적합합니다.
Link to this section미래: Ultralytics YOLO26#
RTDETRv2와 DAMO-YOLO 모두 장점이 있지만, 컴퓨터 비전 분야는 빠르게 발전하고 있습니다. 새로운 프로젝트의 경우, 최신 **Ultralytics YOLO26**이 속도, 정확도 및 개발자 경험의 궁극적인 결합을 보여줍니다.
YOLO26은 End-to-End NMS-Free 설계를 채택하여 거대한 계산 오버헤드 없이 Transformer의 주요 이점을 포착합니다. 이 모델은 안정적이고 빠른 수렴을 위해 거대 언어 모델 학습에서 영감을 받은 혁신적인 MuSGD 옵티마이저를 통합했습니다. 또한, DFL 제거(간소화된 내보내기 및 더 나은 엣지/저전력 장치 호환성을 위해 Distribution Focal Loss 제거)를 통해 YOLO26은 최대 43% 더 빠른 CPU 추론을 달성하여 엣지 컴퓨팅 분야의 독보적인 챔피언이 되었습니다. 또한, ProgLoss + STAL은 IoT, 로봇 공학 및 항공 영상에 필수적인 소형 객체 인식 기능을 크게 향상시킨 개선된 손실 함수를 제공합니다.
바운딩 박스에만 국한된 모델과 달리, YOLO26 제품군은 인스턴스 분할, 자세 추정에서 지향성 바운딩 박스(OBB)까지 다양한 작업을 지원하며, 모두 직관적인 Ultralytics 플랫폼을 통해 원활하게 관리됩니다.
Link to this section모델 세부 정보 및 참조#
Link to this sectionRTDETRv2#
- 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
- 조직: Baidu
- 날짜: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR 리포지토리
Link to this sectionDAMO-YOLO#
- 저자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: DAMO-YOLO 저장소
다른 비교에 관심이 있는 사용자는 RTDETRv2 vs. YOLO11 또는 DAMO-YOLO vs. YOLOv8에 대한 가이드를 확인하여 이러한 모델이 이전 세대 Ultralytics 제품군 대비 어떤 성능을 내는지 확인해 보십시오.