YOLOv5 대 RTDETRv2: 객체 탐지를 위한 CNN 및 Transformer 아키텍처 평가
컴퓨터 비전 환경은 지난 몇 년간 크게 확장되어 개발자들에게 복잡한 시각적 작업을 해결하기 위한 광범위한 아키텍처를 제공하고 있습니다. 가장 대중적인 패러다임 중에는 합성곱 신경망(CNN)과 탐지 Transformer(DETR)가 있습니다.
본 가이드는 이러한 범주의 중추적인 두 모델인 Ultralytics YOLOv5(매우 효율적이고 널리 채택된 CNN 기반 모델)와 RTDETRv2(최첨단 Transformer 기반 실시간 객체 탐지기)에 대한 심층적인 기술 비교를 제공합니다.
Ultralytics YOLOv5: 효율성의 업계 표준
출시 이후, Ultralytics YOLOv5는 전 세계 수천 개의 상용 애플리케이션과 연구 프로젝트를 뒷받침하며 AI 커뮤니티의 초석이 되었습니다. 완전히 PyTorch 프레임워크를 기반으로 구축되어 실시간 성능을 저하시키지 않으면서 직관적인 개발자 경험을 우선시했습니다.
주요 특징:
- 저자: Glenn Jocher
- 조직: Ultralytics
- 날짜: 2020-06-26
- 링크: GitHub 저장소
아키텍처 및 강점
YOLOv5는 매우 낮은 메모리 점유율을 유지하면서 특징 추출 효율성을 극대화하도록 설계된 간소화된 CNN 아키텍처를 활용합니다. CSPDarknet 백본과 PANet 넥을 사용하여 멀티 스케일 특징 융합을 위한 강력한 조합을 생성합니다.
One of the primary advantages of YOLOv5 is its Performance Balance. It strikes an exceptional trade-off between speed and accuracy, making it an ideal choice for model deployment on resource-constrained hardware like NVIDIA Jetson devices and smartphones.
또한 YOLOv5는 독보적인 범용성을 자랑합니다. 경계 상자 예측에만 국한된 모델과 달리 YOLOv5는 이미지 분류와 인스턴스 분할을 기본적으로 지원하여 다양한 시각적 작업을 위한 통합 프레임워크를 제공합니다. 또한 학습 효율성이 뛰어나 Transformer 기반 아키텍처에 비해 학습 중 CUDA 메모리 사용량이 훨씬 적습니다.
단점
이전 CNN 프레임워크에 의존하기 때문에 YOLOv5는 중복된 경계 상자를 제거하기 위해 사후 처리 과정에서 본질적으로 NMS(Non-Maximum Suppression)에 의존합니다. Ultralytics 프레임워크 내에서 매우 최적화되어 있지만, NMS는 가끔 특수 엣지 NPU에서 지연 시간 병목 현상을 유발할 수 있습니다.
RTDETRv2: Baidu의 실시간 Transformer
RTDETRv2(Real-Time Detection Transformer v2)는 실시간 객체 탐지에 Transformer 아키텍처를 적용하는 데 있어 상당한 도약을 이뤄냈으며, 기존 DETR 모델을 괴롭혔던 계산 비효율성 문제를 해결했습니다.
주요 특징:
- 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
- 조직: Baidu
- 날짜: 2024-07-24
- 링크: Arxiv 논문, GitHub 저장소
아키텍처 및 강점
RTDETRv2는 하이브리드 인코더와 유연한 디코더 설계를 활용하여 이미지를 처리함으로써 이전 버전을 개선했습니다. Transformer의 셀프 어텐션 메커니즘은 모델에 이미지 컨텍스트에 대한 전역적인 이해를 제공하여 심각한 객체 가림이 있는 복잡한 장면에서도 뛰어난 성능을 발휘합니다.
A defining feature of RTDETRv2 is its end-to-end, NMS-free design. By predicting object queries directly without requiring anchor boxes or NMS post-processing, it simplifies the inference pipeline. This architecture achieves an impressive mAP (mean Average Precision) on benchmark datasets like COCO.
단점
실시간 성능에도 불구하고 RTDETRv2는 YOLO 모델에 비해 메모리 요구 사항이 현저히 높습니다. Transformer의 어텐션 메커니즘은 시퀀스 길이에 따라 이차적으로 확장되므로, 거대한 GPU 클러스터를 사용하지 않으면 고해상도 학습 중에 메모리 부족 오류가 발생할 수 있습니다. 또한 주로 2D 객체 탐지에만 집중하여 분할이나 자세 추정에 대한 기본 지원이 부족하므로 Ultralytics 생태계와 같은 즉각적인 범용성은 없습니다.
성능 비교표
이러한 아키텍처를 객관적으로 평가하기 위해 성능 지표를 정리했습니다. 굵게 표시된 값은 테스트된 스케일 전반에서 가장 효율적이거나 높은 성능을 나타내는 지표입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2-x는 절대적인 mAP 수치는 가장 높지만, YOLOv5n 파라미터의 약 30배를 필요로 합니다. 제한된 하드웨어에서 실행되는 고속 애플리케이션의 경우, Ultralytics 모델이 일관되게 최상의 계산 효율성을 제공합니다.
Ultralytics 생태계의 이점
모델을 연구용 노트북에서 프로덕션 환경으로 옮길 때 모델을 둘러싼 소프트웨어는 신경망 아키텍처만큼이나 중요합니다. Ultralytics가 제공하는 잘 관리된 생태계는 개발 수명 주기를 획기적으로 가속화합니다.
타의 추종을 불허하는 사용 편의성
Ultralytics 모델은 매우 간소화된 사용자 경험을 우선시합니다. 커뮤니티 모델 학습, 검증 실행, 또는 TensorRT나 ONNX와 같은 하드웨어별 형식으로의 내보내기 등 Ultralytics Python API를 사용하면 몇 줄의 코드만으로 이를 달성할 수 있습니다.
다음은 Ultralytics 모델을 통해 학습하고 추론을 실행하는 것이 얼마나 간단한지 보여주는 실용적인 코드 예제입니다:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()This simple, unified API natively supports experiment tracking integrations with tools like Weights & Biases and Comet, allowing developers to log metrics seamlessly without writing complex boilerplate code.
사용 사례 및 권장 사항
YOLOv5와 RT-DETR 중 선택하는 것은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
YOLOv5를 선택해야 할 때
YOLOv5는 다음과 같은 경우에 강력한 선택입니다:
- 검증된 프로덕션 시스템: YOLOv5의 오랜 안정성 기록, 광범위한 문서화 및 방대한 커뮤니티 지원이 가치 있게 평가되는 기존 배포 환경.
- 자원 제약이 있는 학습 환경: GPU 자원이 제한적인 환경에서 YOLOv5의 효율적인 학습 파이프라인과 낮은 메모리 요구사항이 유리한 경우.
- 광범위한 내보내기 형식 지원: ONNX, TensorRT, CoreML, TFLite를 포함한 다양한 형식으로 배포해야 하는 프로젝트.
RT-DETR을 선택해야 할 시기
RT-DETR은 다음에 권장됩니다:
- Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
- 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며 약간 더 높은 추론 지연 시간이 허용되는 응용 프로그램.
- 대형 객체 탐지: Transformer의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는, 중대형 객체가 주로 나타나는 장면.
Ultralytics(YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최적의 조합을 제공합니다:
- NMS-free 엣지 배포: Non-Maximum Suppression 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속기가 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론 속도가 결정적인 이점을 제공합니다.
- 소형 객체 탐지: 항공 드론 이미지나 IoT 센서 분석과 같은 도전적인 시나리오에서 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 향상시킵니다.
향후 전망: YOLO11 및 YOLO26
오늘 새로운 비전 프로젝트를 시작하신다면 최신 세대의 Ultralytics 모델을 살펴보시는 것을 강력히 추천합니다.
YOLOv5는 여전히 매우 신뢰할 수 있지만, YOLO11은 향상된 정확도와 회전된 경계 상자(OBB) 탐지를 포함한 확장된 작업 세트를 제공합니다.
더욱 중요한 것은 최첨단 YOLO26이 양쪽의 장점을 모두 결합했다는 점입니다. YOLOv10에서 처음 개척된 종단간(End-to-End) NMS-free 설계를 구현하여 CNN의 효율성을 유지하면서 사후 처리 오버헤드를 제거합니다. 또한 YOLO26은 LLM 학습 혁신에서 영감을 받은 MuSGD 옵티마이저를 도입하여 더 빠른 수렴을 제공합니다. DFL 제거(간소화된 내보내기 및 더 나은 엣지/저전력 장치 호환성을 위해 분포 초점 손실 제거)를 통해 YOLO26은 최대 43% 더 빠른 CPU 추론을 제공하며, 엣지 AI를 위한 최고의 선택이 됩니다. 또한 ProgLoss + STAL은 IoT, 로봇 공학 및 항공 이미지에 중요한 소형 객체 인식 개선과 함께 향상된 손실 함수를 제공합니다.
결론
YOLOv5와 RTDETRv2 중 선택하는 것은 배포 제약 조건에 크게 의존합니다. RTDETRv2는 강력한 Transformer 어텐션 메커니즘을 활용하여 mAP의 한계를 넓히지만 메모리 및 계산 오버헤드라는 큰 비용이 따릅니다.
반면 Ultralytics YOLOv5는 클라우드 서버에서 마이크로컨트롤러에 이르기까지 어디서나 원활하게 실행되는 검증되고 최적화된 범용 솔루션을 제공합니다. 가능한 최고의 정확도와 원활한 배포 도구를 찾는 팀에게는 Ultralytics 생태계 내에서 YOLO26으로 업그레이드하는 것이 현대적인 비전 AI 애플리케이션을 위한 확실한 최첨단 솔루션을 제공합니다.