RTDETRv2 vs. DAMO-YOLO: 객체 탐지를 위한 기술 비교
정확도, 속도 및 계산 비용 간의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 페이지에서는 높은 정확도로 알려진 트랜스포머 기반 모델인 RTDETRv2와 속도 및 효율성에 최적화된 CNN 기반 모델인 DAMO-YOLO라는 두 가지 강력한 모델 간의 자세한 기술 비교를 제공합니다. 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택하는 데 도움이 되도록 아키텍처 차이점, 성능 지표 및 이상적인 사용 사례를 살펴보겠습니다.
RTDETRv2: 고정밀 실시간 감지 트랜스포머
RTDETRv2(Real-Time Detection Transformer v2)는 높은 정확도를 우선시하면서 실시간 성능을 유지하는 Baidu의 최첨단 객체 감지 모델입니다. DETR 프레임워크를 기반으로 트랜스포머의 강력한 기능을 활용하여 인상적인 결과를 얻습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- Organization: Baidu
- 날짜: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- 문서: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
아키텍처 및 주요 기능
RTDETRv2의 아키텍처는 Vision Transformer (ViT)를 중심으로 구축되어 전역적인 관점에서 이미지를 처리할 수 있습니다. 슬라이딩 윈도우를 사용하는 기존 CNN과 달리, Transformer의 self-attention 메커니즘은 모든 이미지 영역의 중요도를 동시에 평가할 수 있습니다.
- Transformer 기반 설계: RTDETRv2의 핵심은 Transformer 인코더-디코더 구조이며, 장면 내 객체 간의 장거리 종속성 및 복잡한 관계를 캡처하는 데 탁월합니다.
- 하이브리드 백본: CNN 백본을 사용하여 초기 특징을 추출한 다음 특징을 Transformer 레이어에 공급하는 하이브리드 방식을 사용합니다. 이는 CNN의 로컬 특징 강점과 Transformer의 글로벌 컨텍스트 모델링을 결합합니다.
- Anchor-Free 감지: 앵커 프리 검출기인 RTDETRv2는 사전 정의된 앵커 박스에 의존하지 않고 객체 위치를 직접 예측하여 감지 파이프라인을 간소화하여 복잡성과 잠재적인 튜닝 문제를 줄입니다.
강점과 약점
강점:
- 높은 정확도: 트랜스포머 아키텍처는 뛰어난 컨텍스트 이해를 가능하게 하여, 특히 가려지거나 작은 객체가 있는 복잡한 장면에서 최첨단 mAP 점수를 제공합니다.
- 강력한 특징 추출: 전역 컨텍스트를 효과적으로 캡처하여 객체 스케일 및 모양의 변화에 탄력적으로 대응합니다.
- 실시간 지원: RTDETRv2는 계산 집약적이지만 실시간 추론에 최적화되어 있으며, 특히 NVIDIA GPU에서 TensorRT와 같은 도구로 가속화할 때 더욱 그렇습니다.
약점:
- 높은 연산 비용: Transformer는 CNN 기반 모델에 비해 더 큰 모델 크기, 더 많은 FLOPs 및 더 높은 메모리 사용량을 유발합니다.
- 더 느린 학습 속도: Transformer 모델을 학습하려면 일반적으로 더 많은 계산 리소스와 시간이 필요합니다. 종종 Ultralytics YOLOv8과 같은 모델보다 훨씬 더 많은 CUDA 메모리가 필요합니다.
DAMO-YOLO: 효율적인 고성능 감지
DAMO-YOLO는 Alibaba Group에서 개발한 빠르고 정확한 객체 감지 모델입니다. 고급 아키텍처 설계를 통해 속도와 정확도 간의 최적 균형을 달성하는 데 중점을 두고 YOLO 제품군에 여러 새로운 기술을 도입했습니다.
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- 문서: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
아키텍처 및 주요 기능
DAMO-YOLO는 CNN 기반으로 구축되었지만 최신 기술을 통합하여 성능 한계를 뛰어넘습니다.
- NAS 기반 백본: NAS(Neural Architecture Search)에 의해 생성된 백본을 활용하여 특징 추출을 위한 최적의 네트워크 구조를 자동으로 찾습니다.
- Efficient RepGFPN Neck: 이 모델은 낮은 계산 오버헤드를 유지하면서 다양한 스케일의 특징을 효과적으로 융합하는 RepGFPN이라는 효율적인 Neck 디자인을 특징으로 합니다.
- ZeroHead 및 AlignedOTA: DAMO-YOLO는 분류 및 회귀를 위한 단일 선형 레이어가 있는 ZeroHead를 도입하여 복잡성을 줄입니다. 또한 고급 레이블 할당 전략인 AlignedOTA를 사용하여 학습 안정성과 정확도를 향상시킵니다.
강점과 약점
강점:
- 탁월한 속도: DAMO-YOLO는 빠른 추론에 매우 최적화되어 있어 GPU 하드웨어에서 실시간 애플리케이션을 위한 최고의 성능을 제공합니다.
- 높은 효율성: 이 모델은 특히 소형 버전에서 비교적 적은 수의 파라미터와 FLOPs로 속도와 정확도의 균형을 잘 이룹니다.
- 혁신적인 구성 요소: NAS, RepGFPN 및 ZeroHead의 사용은 탐지기 설계에 대한 미래 지향적인 접근 방식을 보여줍니다.
약점:
- 낮은 최고 정확도: 매우 효율적이지만, 가장 큰 모델은 매우 복잡한 시나리오에서 RTDETRv2-x와 같은 가장 큰 트랜스포머 기반 모델과 동일한 최고 정확도에 도달하지 못할 수 있습니다.
- 생태계 및 사용성: 연구 중심 모델이므로 Ultralytics와 같은 프레임워크에서 볼 수 있는 간소화된 사용자 경험, 광범위한 문서 및 통합된 생태계가 부족할 수 있습니다.
성능 비교: 정확도 및 속도
RTDETRv2와 DAMO-YOLO 간의 주요 절충점은 정확도와 속도입니다. RTDETRv2 모델은 일관되게 더 높은 mAP 값을 달성하며, RTDETRv2-x 모델은 54.3 mAP에 도달합니다. 따라서 정밀도가 필수적인 애플리케이션에 강력한 선택이 됩니다.
반면, DAMO-YOLO는 추론 지연 시간에서 뛰어난 성능을 보입니다. DAMO-YOLO-t 모델은 모든 RTDETRv2 변형보다 훨씬 빨라서 엣지 장치에서 매우 낮은 지연 시간이 필요한 애플리케이션에 이상적입니다. 속도 향상을 위해 정확도를 약간 낮추는 것을 감수할 수 있는지에 따라 선택이 달라집니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Ultralytics의 장점: Ultralytics YOLO를 선택해야 하는 이유
RTDETRv2 및 DAMO-YOLO는 강력하지만, 최신 YOLO11과 같은 Ultralytics YOLO 생태계의 모델은 종종 개발자 및 연구원에게 더 강력한 전체 패키지를 제공합니다.
- 사용 편의성: Ultralytics 모델은 간단한 Python API, 광범위한 문서 및 간단한 CLI 명령어를 통해 간소화된 사용자 경험을 제공하도록 설계되었습니다.
- 잘 관리되는 에코시스템: 통합된 Ultralytics HUB 플랫폼은 활발한 개발과 강력한 커뮤니티 지원을 바탕으로 데이터 세트 관리, 학습 및 배포를 간소화합니다.
- 성능 균형: Ultralytics 모델은 속도와 정확성 간의 뛰어난 균형을 위해 고도로 최적화되어 있어 광범위한 실제 배포 시나리오에 적합합니다.
- 메모리 및 훈련 효율성: Ultralytics YOLO 모델은 효율적인 메모리 사용을 위해 설계되었으며, 일반적으로 트랜스포머 기반 모델에 비해 더 적은 CUDA 메모리와 훈련 시간이 필요합니다. 또한 COCO와 같은 데이터 세트에 대해 즉시 사용 가능한 사전 훈련된 가중치가 함께 제공됩니다.
- 다재다능함: YOLO11과 같은 모델은 탐지를 넘어 인스턴스 분할, 이미지 분류, 자세 추정 및 방향이 지정된 경계 상자(OBB) 감지를 포함한 다양한 비전 작업을 지원하여 통합 솔루션을 제공합니다.
결론: 어떤 모델이 적합할까요?
RTDETRv2와 DAMO-YOLO 중에서 선택하는 것은 프로젝트의 특정 요구 사항에 크게 좌우됩니다.
-
응용 분야에서 가능한 최고의 정확도를 요구하고 의료 영상 분석 또는 고정밀 산업 검사와 같이 더 큰 크기와 느린 추론을 처리할 수 있는 컴퓨팅 리소스가 있는 경우 RTDETRv2를 선택하십시오.
-
DAMO-YOLO 선택의 우선순위가 비디오 감시 또는 로봇 공학과 같은 실시간 애플리케이션을 위해 GPU 하드웨어에서 최대 추론 속도를 확보하는 것이고 정확도에서 약간의 절충을 감수할 수 있다면 DAMO-YOLO를 선택하세요.
그러나 강력하고 사용하기 쉽고 고성능 솔루션을 찾는 대부분의 개발자에게 YOLO11과 같은 Ultralytics YOLO 모델은 최고의 올라운드 선택입니다. 속도와 정확성의 뛰어난 균형, 탁월한 다재다능성을 제공하며 연구에서 생산에 이르기까지 개발을 가속화하는 포괄적인 생태계에서 지원됩니다.
다른 모델 비교 살펴보기
이러한 모델이 다른 아키텍처와 어떻게 비교되는지 궁금하다면 다른 비교 페이지를 확인해 보세요.
- YOLOv8 vs. DAMO-YOLO
- YOLO11 대 DAMO-YOLO
- YOLOv8 vs. RTDETR
- YOLO11 vs. RTDETR
- EfficientDet vs. DAMO-YOLO
- EfficientDet vs. RTDETR
- YOLOX vs. DAMO-YOLO