DAMO-YOLO vs. RTDETRv2: 기술 비교
정확도, 속도 및 계산 비용 간의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 비교에서는 Alibaba Group의 고속 감지기인 DAMO-YOLO와 Baidu의 고정확도 실시간 트랜스포머 모델인 RTDETRv2라는 두 가지 강력한 아키텍처를 자세히 살펴봅니다. 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 차이점, 성능 벤치마크 및 이상적인 사용 사례를 살펴보겠습니다.
DAMO-YOLO: 빠르고 정확한 감지
DAMO-YOLO는 Alibaba Group에서 개발한 객체 감지 모델로, 속도와 정확도 간의 균형을 개선하도록 설계되었습니다. YOLO 스타일 감지기의 성능을 향상시키기 위해 여러 새로운 기술을 통합했습니다.
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- 문서: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
아키텍처 및 주요 기능
DAMO-YOLO는 몇 가지 주요 혁신을 통해 기존의 원-스테이지 객체 탐지기 패러다임을 기반으로 합니다.
- NAS 기반 백본: NAS(Neural Architecture Search)를 활용하여 최적화된 백본 네트워크를 생성합니다. 이를 통해 모델은 특정 하드웨어 및 성능 목표에 맞게 조정된 고효율 아키텍처를 찾을 수 있습니다.
- Efficient RepGFPN Neck: 이 모델은 특징 융합을 위해 GFPN(Generalized Feature Pyramid Network)의 효율적인 버전을 사용합니다. 이 Neck 구조는 계산적으로 가벼우면서도 다양한 스케일의 특징을 효과적으로 결합합니다.
- ZeroHead: 주요 혁신은 계산 오버헤드를 줄이고 성능을 향상시키기 위해 분류 헤드와 회귀 헤드를 분리하는 ZeroHead입니다. 이 디자인 선택은 정확도를 희생하지 않으면서 헤드 아키텍처를 단순화합니다.
- AlignedOTA 레이블 할당: DAMO-YOLO는 훈련 중에 예측에 레이블을 할당하기 위해 AlignedOTA(Optimal Transport Assignment)를 사용합니다. 이 고급 전략은 각 ground-truth 객체에 대해 가장 적합한 앵커 포인트가 선택되도록 하여 더 나은 훈련 수렴과 더 높은 정확도를 제공합니다.
강점과 약점
강점:
- 탁월한 추론 속도: DAMO-YOLO 모델, 특히 더 작은 변형은 GPU 하드웨어에서 매우 짧은 대기 시간을 제공하므로 실시간 추론에 이상적입니다.
- 높은 효율성: 이 모델은 비교적 적은 수의 파라미터와 FLOPs로 속도와 정확도의 강력한 균형을 이룹니다.
- 확장 가능한 아키텍처: 다양한 크기(Tiny, Small, Medium, Large)로 제공되므로 개발자는 특정 리소스 제약 조건에 맞는 올바른 모델을 선택할 수 있습니다.
약점:
- 정확도 제한 사항: 빠르기는 하지만 최고 정확도는 작거나 가려진 객체가 많은 까다로운 시나리오에서 더 복잡한 트랜스포머 기반 모델의 정확도와 일치하지 않을 수 있습니다.
- 생태계 및 사용성: DAMO-YOLO를 둘러싼 생태계는 주류 프레임워크에 비해 덜 개발되어 통합 및 배포에 더 많은 노력이 필요할 수 있습니다.
RTDETRv2: 고정밀 실시간 감지 트랜스포머
RTDETRv2 (Real-Time Detection Transformer v2)는 Baidu의 최첨단 객체 감지 모델로, transformer의 강력한 성능을 활용하여 실시간 성능을 유지하면서 높은 정확도를 제공합니다. 원래 RT-DETR에서 진화한 모델로, "bag-of-freebies"를 통합하여 기능을 더욱 향상했습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17 (Original RT-DETR), 2024-07-24 (RTDETRv2 개선)
- Arxiv: https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2는 객체 감지를 직접적인 집합 예측 문제로 재해석하는 DETR(DEtection TRansformer) 프레임워크를 기반으로 합니다.
- 하이브리드 CNN-Transformer 디자인: 초기 특징 맵을 추출하기 위해 기존의 CNN 백본(예: ResNet)을 사용하고, 그런 다음 Transformer 인코더-디코더에 공급합니다.
- Global Context Modeling: 트랜스포머의 self-attention 메커니즘을 통해 모델은 이미지의 여러 부분 간의 전반적인 관계를 파악할 수 있습니다. 따라서 복잡하고 어수선한 장면에서 객체를 감지하는 데 매우 효과적입니다.
- End-to-End 감지: 다른 DETR 기반 모델과 마찬가지로 RTDETRv2는 end-to-end이며 Non-Maximum Suppression (NMS)와 같은 수동 설계 구성 요소가 필요 없어 감지 파이프라인을 간소화합니다.
- Anchor-Free Approach: 이 모델은 앵커 프리 방식으로, 앵커 박스 설계 및 튜닝과 관련된 복잡성을 피할 수 있습니다.
강점과 약점
강점:
- 최첨단 정확도: RTDETRv2는 매우 높은 mAP 점수를 달성하며, 특히 밀집된 객체 분포를 가진 시나리오에서 다른 실시간 감지기보다 뛰어난 성능을 보이는 경우가 많습니다.
- 복잡한 장면에서의 견고성: 전역 어텐션 메커니즘 덕분에 겹치는 객체를 구별하고 더 넓은 장면 컨텍스트를 이해하는 데 매우 효과적입니다.
- 단순화된 파이프라인: 엔드 투 엔드 NMS-free 디자인은 후처리 단계를 더 깔끔하고 간단하게 만듭니다.
약점:
- 높은 계산 비용: Transformer 기반 아키텍처는 일반적으로 순수 CNN 모델에 비해 파라미터, FLOPs 및 메모리 사용량 측면에서 더 많은 리소스를 요구합니다.
- 더 느린 추론 속도: 실시간 사용에 최적화되어 있지만, 추론 속도는 일반적으로 가장 빠른 YOLO 기반 모델보다 느립니다.
- 학습 복잡성: 트랜스포머 학습은 CNN보다 더 많은 리소스를 필요로 하고 더 긴 학습 일정과 더 많은 메모리가 필요할 수 있습니다.
성능 및 훈련 비교
성능 벤치마크
다음은 COCO val 데이터 세트에서 DAMO-YOLO와 RTDETRv2 변형 간의 자세한 성능 비교입니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLO-t | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO-s | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLO-m | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLO-l | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
표에서 다음과 같은 몇 가지 결론을 내릴 수 있습니다.
- 정확도: RTDETRv2는 유사한 모델 크기에서 일관되게 더 높은 mAP를 달성하며, 가장 큰 변형 모델은 54.3 mAP라는 인상적인 수치를 기록합니다.
- 속도: DAMO-YOLO는 추론 속도에서 분명한 이점을 가지며, 초소형 모델은 T4 GPU에서 가장 작은 RTDETRv2 모델보다 두 배 이상 빠릅니다.
- 효율성: DAMO-YOLO 모델은 파라미터 및 FLOPs 측면에서 더 효율적입니다. 예를 들어 DAMO-YOLO-m은 28.2M 파라미터로 49.2 mAP를 달성하는 반면, RTDETRv2-s는 유사한 48.1 mAP에 도달하기 위해 20.0M 파라미터가 필요하지만 속도가 더 느립니다.
이상적인 사용 사례
-
DAMO-YOLO는 다음과 같이 속도가 가장 중요한 애플리케이션에 가장 적합합니다.
- 실시간 비디오 감시: 보안 경보 시스템과 같은 애플리케이션을 위해 높은 프레임 속도의 비디오 피드를 처리합니다.
- Edge AI 배포: NVIDIA Jetson 또는 Raspberry Pi와 같이 리소스가 제약된 장치에서 실행됩니다.
- 로보틱스: 빠른 의사 결정을 요구하는 로봇을 위한 신속한 인식을 가능하게 하며, 이는 로보틱스 분야에서 AI의 역할에서 논의됩니다.
-
RTDETRv2는 정확도가 최우선 순위인 시나리오에서 뛰어납니다.
- 자율 주행: 복잡한 도시 환경에서 보행자, 차량 및 장애물을 안정적으로 감지합니다.
- 고위험 보안: 정밀성이 중요한 혼잡한 공공 장소에서 위협을 식별합니다.
- 소매 분석: 선반에 있는 많은 수의 제품 또는 매장 내 고객을 정확하게 계산하고 추적합니다.
Ultralytics의 장점: YOLOv8 및 YOLO11
DAMO-YOLO와 RTDETRv2는 모두 강력한 모델이지만, Ultralytics YOLO 생태계는 YOLOv8 및 최신 Ultralytics YOLO11과 같은 모델을 통해 개발자와 연구자에게 전반적으로 우수한 패키지를 제공하는 매력적인 대안을 제시합니다.
Ultralytics 모델 사용의 주요 이점은 다음과 같습니다.
- 사용 편의성: 간소화된 Python API, 광범위한 문서 및 간단한 CLI 사용법으로 학습, 검증 및 배포가 매우 간편해집니다.
- 잘 관리되는 에코시스템: Ultralytics는 활발한 개발, GitHub를 통한 강력한 커뮤니티 지원, 잦은 업데이트, 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와의 원활한 통합을 제공합니다.
- 성능 균형: Ultralytics 모델은 속도와 정확성 간의 뛰어난 균형을 위해 고도로 최적화되어 있어 에지 장치에서 클라우드 서버에 이르기까지 광범위한 애플리케이션에 적합합니다.
- 메모리 효율성: Ultralytics YOLO 모델은 메모리 효율적으로 설계되었으며, 일반적으로 리소스 집약적인 것으로 알려진 RTDETRv2와 같은 트랜스포머 기반 모델에 비해 학습 및 추론에 필요한 CUDA 메모리가 더 적습니다.
- 다재다능함: YOLOv8 및 YOLO11과 같은 모델은 객체 탐지, 인스턴스 분할, 이미지 분류, 자세 추정 및 방향이 지정된 경계 상자(OBB)를 기본적으로 지원하는 멀티태스킹 프레임워크로, DAMO-YOLO 및 RTDETRv2에는 없는 통합 솔루션을 제공합니다.
- 학습 효율성: 빠른 학습 시간, 효율적인 수렴, COCO와 같은 인기 있는 데이터 세트에서 즉시 사용 가능한 사전 학습된 가중치의 이점을 누리십시오.
결론
DAMO-YOLO와 RTDETRv2는 모두 속도와 정확도의 경계를 넓히는 뛰어난 객체 탐지 모델입니다. DAMO-YOLO는 GPU 하드웨어에서 가능한 가장 낮은 지연 시간을 요구하는 애플리케이션에 적합한 선택입니다. 반대로, RTDETRv2는 특히 복잡한 시각적 환경에서 최고의 정확도를 달성하는 것이 필수적인 경우에 선호되는 모델입니다.
그러나 대부분의 개발자와 연구자에게 YOLO11과 같은 Ultralytics 모델이 가장 실용적이고 효과적인 솔루션을 제공합니다. 속도와 정확성의 뛰어난 균형, 타의 추종을 불허하는 사용 편의성, 다중 작업 다재다능성을 제공하며 강력하고 적극적으로 유지 관리되는 생태계에서 지원됩니다. 이러한 조합은 Ultralytics YOLO 모델을 고성능의 실제 컴퓨터 비전 애플리케이션을 구축하기 위한 권장 선택으로 만듭니다.
다른 모델 살펴보기
DAMO-YOLO 및 RTDETRv2에 관심 있는 사용자는 다음 비교 자료도 관련이 있을 수 있습니다.
- YOLOv8 vs. DAMO-YOLO
- YOLO11 대 DAMO-YOLO
- YOLOv8 vs. RT-DETR
- YOLO11 vs. RT-DETR
- EfficientDet vs. DAMO-YOLO
- YOLOX vs. DAMO-YOLO
- YOLOv7 vs. RT-DETR