YOLOv5 RTDETRv2: 객체 탐지를 위한 CNN 대 트랜스포머 아키텍처 평가
컴퓨터 비전 분야는 지난 몇 년간 크게 확장되어 개발자들에게 복잡한 시각적 작업을 해결할 수 있는 다양한 아키텍처를 제공하고 있습니다. 가장 널리 사용되는 패러다임으로는 컨볼루션 신경망(CNN)과 탐지 트랜스포머(DETR)가 있습니다.
이 가이드는 해당 범주에서 핵심적인 두 모델 간의 심층적인 기술적 비교를 제공합니다: Ultralytics YOLOv5, 고효율이며 널리 채택된 CNN 기반 모델과 RTDETRv2, 최첨단 트랜스포머 기반 실시간 객체 탐지기를 비교합니다.
Ultralytics YOLOv5: 효율성의 업계 표준
출시 이후, Ultralytics YOLOv5 전 세계 수천 개의 상업적 애플리케이션과 연구 프로젝트를 지원하는 AI 커뮤니티의 핵심 기술로YOLOv5 . 완전히 PyTorch 프레임워크로 구축되었으며, 실시간 성능을 저하시키지 않으면서 직관적인 개발자 경험을 최우선으로 고려했습니다.
주요 특징:
- 작성자: Glenn Jocher
- 조직:Ultralytics
- 날짜:26
- 링크:GitHub 저장소
아키텍처 및 강점
YOLOv5 극히 낮은 메모리 사용량을 유지하면서 특징 추출 효율을 극대화하도록 설계된 간소화된 CNN 아키텍처를 YOLOv5 . CSPDarknet 백본과 PANet 목 구조를 채택하여 다중 스케일 특징 융합을 위한 강력한 조합을 구현합니다.
YOLOv5 주요 장점 중 하나는 성능 균형입니다. 속도와 정확도 사이에서 탁월한 절충점을 제공하여 NVIDIA 장치나 스마트폰과 같은 리소스가 제한된 하드웨어에 모델을 배포하기에 이상적인 선택입니다.
또한 YOLOv5 타의 추종을 불허하는 다용도성을 YOLOv5 . 경계 상자 예측에만 국한된 모델과 달리, YOLOv5 이미지 분류 및 인스턴스 분할을 YOLOv5 지원하여 다양한 시각적 작업을 위한 통합 프레임워크를 제공합니다. 훈련 효율성도 뛰어나며, 트랜스포머 기반 아키텍처에 비해 훈련 중 필요한 CUDA 현저히 적습니다.
약점
YOLOv5 구형 CNN 프레임워크에 의존하기 때문에, 중복 경계 상자를 제거하기 위한 후처리 과정에서 YOLOv5 비최대 억제(NMS) 에 의존합니다. Ultralytics 내에서 고도로 최적화되었음에도 불구하고, NMS 특수화된 에지 NPU에서 가끔 지연 병목 현상을 유발할 NMS .
RTDETRv2: 바이두의 실시간 트랜스포머
RTDETRv2(실시간 탐지 트랜스포머 v2)는 트랜스포머 아키텍처를 실시간 객체 탐지에 적용하는 데 있어 획기적인 발전을 이루었으며, 기존 DETR을 괴롭혀 온 계산 효율성 문제를 해결합니다.
주요 특징:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜:24
- 링크:Arxiv 논문, GitHub 저장소
아키텍처 및 강점
RTDETRv2는 하이브리드 인코더와 유연한 디코더 설계를 활용하여 이미지를 처리함으로써 전작을 발전시켰습니다. 트랜스포머의 자기 주의 메커니즘은 모델에 이미지 컨텍스트에 대한 전역적 이해를 제공하여, 심한 객체 가림 현상이 발생하는 복잡한 장면에서도 탁월한 성능을 발휘할 수 있게 합니다.
RTDETRv2의 핵심 특징은 엔드투엔드 방식의 NMS 없는 설계입니다. 앵커 박스나 NMS 요구하지 않고 객체 쿼리를 직접 예측함으로써 추론 파이프라인을 단순화합니다. 이 아키텍처는 다음과 같은 벤치마크 데이터셋에서 인상적인 mAP 평균 정밀도) 를 달성합니다. COCO.
약점
실시간 처리 능력에도 불구하고, RTDETRv2는 YOLO 비해 현저히 높은 메모리 요구 사항을 가집니다. 트랜스포머의 어텐션 메커니즘은 시퀀스 길이에 따라 이차적으로 확장되므로, 대규모 GPU 사용하지 않는 한 고해상도 훈련 중 메모리 부족 오류가 발생할 수 있습니다. 또한 Ultralytics 기본 제공되는 다용도성을 갖추지 못해, 세그멘테이션이나 포즈 추정 기능에 대한 네이티브 지원 없이 주로 2D 객체 탐지에만 집중합니다.
성능 비교표
이러한 아키텍처를 객관적으로 평가하기 위해, 우리는 그들의 성능 지표를 종합했습니다. 굵게 표시된 값들은 테스트된 규모 전반에 걸쳐 가장 효율적이거나 최고 성능을 보인 지표를 나타냅니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
성능 컨텍스트
RTDETRv2-x는 가장 높은 절대 mAP 달성하지만, YOLOv5n 대비 약 30배에 달하는 매개변수를 필요로 합니다. 제한된 하드웨어에서 실행되는 고속 애플리케이션의 경우, Ultralytics 지속적으로 최고의 계산 효율성을 제공합니다.
Ultralytics 에코시스템의 이점
연구 노트에서 모델을 생산 환경으로 이전할 때, 모델을 둘러싼 소프트웨어는 신경망 아키텍처만큼 중요합니다. Ultralytics 제공하는 잘 관리된 생태계 는 개발 라이프사이클을 Ultralytics 가속화합니다.
타의 추종을 불허하는 사용 편의성
Ultralytics 매우 간소화된 사용자 경험을 최우선으로 합니다. 사용자 정의 모델을 훈련하거나, 검증을 실행하거나, TensorRT와 같은 하드웨어 특정 형식으로 내보내기를 원하든 상관없이 TensorRT 이나 ONNX과 같은 하드웨어 전용 형식으로 내보내는 등 어떤 작업을 수행하든 Ultralytics Python 사용하면 단 몇 줄의 코드로 가능합니다.
다음은 Ultralytics 모델로 훈련 및 추론을 실행하는 것이 얼마나 간단한지 보여주는 실용적인 코드 예시입니다:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
이 단순하고 통합된 API는 다음과 같은 도구와의 실험 추적 통합을 기본적으로 지원합니다. Weights & Biases 및 Comet과 같은 도구와의 실험 추적 통합을 원활하게 지원하여 개발자가 복잡한 보일러플레이트 코드를 작성하지 않고도 메트릭을 손쉽게 기록할 수 있도록 합니다.
사용 사례 및 권장 사항
YOLOv5 RT-DETR 중 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .
5 선택해야 할 때
YOLOv5 다음과 같은 경우에 강력한 YOLOv5 :
- 검증된 생산 시스템: YOLOv5 오랜 안정성 track , 방대한 문서화, 그리고 대규모 커뮤니티 지원이 가치 있게 여겨지는 기존 배포 환경.
- 자원 제약 훈련: GPU 제한된 환경에서 YOLOv5 효율적인 훈련 파이프라인과 낮은 메모리 요구사항이 유리합니다.
- 다양한 내보내기 형식 지원: ONNX, TensorRT, CoreML, 그리고 TFLite.
RT-DETR 선택해야 할 때
RT-DETR 다음에 권장RT-DETR :
- 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
- 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
앞으로의 전망: YOLO11 YOLO26
오늘 새로운 비전 프로젝트를 시작하신다면, 최신 세대의 Ultralytics 검토해 보시기를 적극 권장합니다.
YOLOv5 믿을 수 없을 정도로 신뢰할 수 있지만, YOLO11 는 향상된 정확도와 방향성 경계 상자(OBB) 탐지를 포함한 확장된 작업 세트를 제공합니다.
더욱 중요한 것은 최첨단 YOLOv26이 두 가지 장점을 모두 결합했다는 점이다. 이 모델은 엔드투엔드 NMS 설계 (최초로 도입된 모델은 YOLOv10에서 최초로 도입됨)을 구현하여 CNN의 효율성을 유지하면서도 후처리 오버헤드를 제거합니다. 또한 YOLO26은 LLM 훈련 혁신에서 영감을 받은 MuSGD 최적화기를 도입하여 더 빠른 수렴을 실현합니다. DFL 제거 (간소화된 내보내기와 에지/저전력 장치 호환성 향상을 위해 분포 초점 손실 제거)를 통해 YOLO26은 최대 43% 빠른 CPU 제공하여 에지 AI에 대한 절대적인 최상의 선택이 됩니다. 또한 ProgLoss + STAL은 손실 함수를 개선하여 IoT, 로봇공학, 항공 이미징에 중요한 소형 물체 인식 성능을 현저히 향상시킵니다.
결론
YOLOv5 RTDETRv2 사이의 선택은 배포 제약 조건에 크게 좌우됩니다. RTDETRv2는 강력한 트랜스포머 어텐션 메커니즘을 mAP 한계를 넓히지만, 메모리 및 계산 오버헤드 측면에서 상당한 비용이 발생합니다.
반대로, Ultralytics YOLOv5 클라우드 서버부터 마이크로컨트롤러까지 어디서나 원활하게 실행되는 검증된 고도로 최적화된 다목적 솔루션을YOLOv5 . 최고의 정확도와 원활한 배포 도구를 동시에 추구하는 팀을 위해, Ultralytics 내에서 YOLOv5로 업그레이드하는 것은 현대적인 비전 AI 애플리케이션을 위한 결정적인 최첨단 솔루션을 제공합니다.