YOLOv5 RTDETRv2: 객체 탐지를 위한 CNN 대 트랜스포머 아키텍처 평가
컴퓨터 비전 분야는 지난 몇 년간 크게 확장되어 개발자들에게 복잡한 시각적 작업을 해결할 수 있는 다양한 아키텍처를 제공하고 있습니다. 가장 널리 사용되는 패러다임으로는 컨볼루션 신경망(CNN)과 탐지 트랜스포머(DETR)가 있습니다.
이 가이드는 해당 범주에서 핵심적인 두 모델 간의 심층적인 기술적 비교를 제공합니다: Ultralytics YOLOv5, 고효율이며 널리 채택된 CNN 기반 모델과 RTDETRv2, 최첨단 트랜스포머 기반 실시간 객체 탐지기를 비교합니다.
Ultralytics YOLOv5: 효율성의 업계 표준
출시 이후, Ultralytics YOLOv5 전 세계 수천 개의 상업적 애플리케이션과 연구 프로젝트를 지원하는 AI 커뮤니티의 핵심 기술로YOLOv5 . 완전히 PyTorch 프레임워크로 구축되었으며, 실시간 성능을 저하시키지 않으면서 직관적인 개발자 경험을 최우선으로 고려했습니다.
주요 특징:
- 작성자: Glenn Jocher
- 조직:Ultralytics
- 날짜:26
- 링크:GitHub 저장소
아키텍처 및 강점
YOLOv5 극히 낮은 메모리 사용량을 유지하면서 특징 추출 효율을 극대화하도록 설계된 간소화된 CNN 아키텍처를 YOLOv5 . CSPDarknet 백본과 PANet 목 구조를 채택하여 다중 스케일 특징 융합을 위한 강력한 조합을 구현합니다.
YOLOv5 주요 장점 중 하나는 성능 균형입니다. 속도와 정확도 사이에서 탁월한 절충점을 제공하여 NVIDIA 장치나 스마트폰과 같은 리소스가 제한된 하드웨어에 모델을 배포하기에 이상적인 선택입니다.
또한 YOLOv5 타의 추종을 불허하는 다용도성을 YOLOv5 . 경계 상자 예측에만 국한된 모델과 달리, YOLOv5 이미지 분류 및 인스턴스 분할을 YOLOv5 지원하여 다양한 시각적 작업을 위한 통합 프레임워크를 제공합니다. 훈련 효율성도 뛰어나며, 트랜스포머 기반 아키텍처에 비해 훈련 중 필요한 CUDA 현저히 적습니다.
약점
YOLOv5는 이전 CNN 프레임워크에 의존하기 때문에, 후처리 과정에서 중복 바운딩 박스를 제거하기 위해 NMS(Non-Maximum Suppression)에 본질적으로 의존합니다. Ultralytics 프레임워크 내에서 고도로 최적화되어 있지만, NMS는 특수 엣지 NPU에서 때때로 지연 시간 병목 현상을 유발할 수 있습니다.
RTDETRv2: 바이두의 실시간 트랜스포머
RTDETRv2(실시간 탐지 트랜스포머 v2)는 트랜스포머 아키텍처를 실시간 객체 탐지에 적용하는 데 있어 획기적인 발전을 이루었으며, 기존 DETR을 괴롭혀 온 계산 효율성 문제를 해결합니다.
주요 특징:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜:24
- 링크:Arxiv 논문, GitHub 저장소
아키텍처 및 강점
RTDETRv2는 하이브리드 인코더와 유연한 디코더 설계를 활용하여 이미지를 처리함으로써 전작을 발전시켰습니다. 트랜스포머의 자기 주의 메커니즘은 모델에 이미지 컨텍스트에 대한 전역적 이해를 제공하여, 심한 객체 가림 현상이 발생하는 복잡한 장면에서도 탁월한 성능을 발휘할 수 있게 합니다.
RTDETRv2의 특징은 종단 간 NMS-free 설계입니다. 앵커 박스나 NMS 후처리 없이 객체 쿼리를 직접 예측하여 추론 파이프라인을 단순화합니다. 이 아키텍처는 COCO와 같은 벤치마크 데이터셋에서 인상적인 mAP(mean Average Precision)를 달성합니다.
약점
실시간 기능에도 불구하고 RTDETRv2는 YOLO 모델에 비해 현저히 높은 메모리 요구 사항을 가집니다. 트랜스포머의 어텐션 메커니즘은 시퀀스 길이에 따라 제곱으로 증가하며, 이는 대규모 GPU 클러스터를 사용하지 않는 한 고해상도 학습 중 메모리 부족 오류를 유발할 수 있습니다. 또한, Ultralytics 생태계의 즉시 사용 가능한 다용성이 부족하며, segment 또는 자세 추정에 대한 기본 지원 없이 주로 2D 객체 detect에만 중점을 둡니다.
성능 비교표
이러한 아키텍처를 객관적으로 평가하기 위해, 우리는 그들의 성능 지표를 종합했습니다. 굵게 표시된 값들은 테스트된 규모 전반에 걸쳐 가장 효율적이거나 최고 성능을 보인 지표를 나타냅니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
성능 컨텍스트
RTDETRv2-x는 가장 높은 절대 mAP 달성하지만, YOLOv5n 대비 약 30배에 달하는 매개변수를 필요로 합니다. 제한된 하드웨어에서 실행되는 고속 애플리케이션의 경우, Ultralytics 지속적으로 최고의 계산 효율성을 제공합니다.
Ultralytics 에코시스템의 이점
연구 노트에서 모델을 생산 환경으로 이전할 때, 모델을 둘러싼 소프트웨어는 신경망 아키텍처만큼 중요합니다. Ultralytics 제공하는 잘 관리된 생태계 는 개발 라이프사이클을 Ultralytics 가속화합니다.
타의 추종을 불허하는 사용 편의성
Ultralytics 매우 간소화된 사용자 경험을 최우선으로 합니다. 사용자 정의 모델을 훈련하거나, 검증을 실행하거나, TensorRT와 같은 하드웨어 특정 형식으로 내보내기를 원하든 상관없이 TensorRT 이나 ONNX과 같은 하드웨어 전용 형식으로 내보내는 등 어떤 작업을 수행하든 Ultralytics Python 사용하면 단 몇 줄의 코드로 가능합니다.
다음은 Ultralytics 모델로 훈련 및 추론을 실행하는 것이 얼마나 간단한지 보여주는 실용적인 코드 예시입니다:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
이 단순하고 통합된 API는 다음과 같은 도구와의 실험 추적 통합을 기본적으로 지원합니다. Weights & Biases 및 Comet과 같은 도구와의 실험 추적 통합을 원활하게 지원하여 개발자가 복잡한 보일러플레이트 코드를 작성하지 않고도 메트릭을 손쉽게 기록할 수 있도록 합니다.
사용 사례 및 권장 사항
YOLOv5와 RT-DETR 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
5 선택해야 할 때
YOLOv5 다음과 같은 경우에 강력한 YOLOv5 :
- 검증된 프로덕션 시스템: YOLOv5의 오랜 안정성 기록, 광범위한 문서 및 대규모 커뮤니티 지원이 중요하게 평가되는 기존 배포 환경.
- 리소스 제약이 있는 훈련: YOLOv5의 효율적인 훈련 파이프라인과 낮은 메모리 요구 사항이 유리한 제한된 GPU 리소스 환경.
- 광범위한 내보내기 형식 지원: ONNX, TensorRT, CoreML 및 TFLite를 포함한 다양한 형식으로 배포해야 하는 프로젝트.
RT-DETR 선택해야 할 때
RT-DETR 다음에 권장RT-DETR :
- 트랜스포머 기반 detect 연구: NMS 없이 종단 간 객체 detect를 위한 어텐션 메커니즘 및 트랜스포머 아키텍처를 탐구하는 프로젝트.
- 유연한 지연 시간을 가진 고정확도 시나리오: 감지 정확도가 최우선 순위이며 약간 더 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 detect: 트랜스포머의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는 주로 중대형 객체가 있는 장면.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
- 작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.
앞으로의 전망: YOLO11 YOLO26
오늘 새로운 비전 프로젝트를 시작하신다면, 최신 세대의 Ultralytics 검토해 보시기를 적극 권장합니다.
YOLOv5 믿을 수 없을 정도로 신뢰할 수 있지만, YOLO11 는 향상된 정확도와 방향성 경계 상자(OBB) 탐지를 포함한 확장된 작업 세트를 제공합니다.
더욱 중요한 것은 최첨단 YOLOv26이 두 가지 장점을 모두 결합했다는 점이다. 이 모델은 엔드투엔드 NMS 설계 (최초로 도입된 모델은 YOLOv10에서 최초로 도입됨)을 구현하여 CNN의 효율성을 유지하면서도 후처리 오버헤드를 제거합니다. 또한 YOLO26은 LLM 훈련 혁신에서 영감을 받은 MuSGD 최적화기를 도입하여 더 빠른 수렴을 실현합니다. DFL 제거 (간소화된 내보내기와 에지/저전력 장치 호환성 향상을 위해 분포 초점 손실 제거)를 통해 YOLO26은 최대 43% 빠른 CPU 제공하여 에지 AI에 대한 절대적인 최상의 선택이 됩니다. 또한 ProgLoss + STAL은 손실 함수를 개선하여 IoT, 로봇공학, 항공 이미징에 중요한 소형 물체 인식 성능을 현저히 향상시킵니다.
결론
YOLOv5와 RTDETRv2 중 선택은 배포 제약 조건에 크게 좌우됩니다. RTDETRv2는 강력한 트랜스포머 어텐션 메커니즘을 활용하여 mAP의 한계를 뛰어넘지만, 메모리 및 계산 오버헤드 측면에서 상당한 비용이 발생합니다.
반대로, Ultralytics YOLOv5는 클라우드 서버에서 마이크로컨트롤러에 이르기까지 모든 곳에서 원활하게 실행되는 검증되고 고도로 최적화된 다목적 솔루션을 제공합니다. 원활한 배포 도구와 함께 가능한 최고의 정확도를 찾는 팀에게는 Ultralytics 생태계 내에서 YOLO26으로 업그레이드하는 것이 최신 비전 AI 애플리케이션을 위한 결정적인 최첨단 솔루션을 제공합니다.