YOLOv5 RT-DETRv2: 실시간 객체 탐지기의 기술적 비교
실시간 객체 탐지의 진화는 두 가지 주요 아키텍처 패러다임에 의해 정의되어 왔다: 컨볼루션 신경망(CNN) 기반 YOLO 트랜스포머 기반 탐지 모델이다. 본 비교는 두 기술 간의 차이점을 탐구한다. Ultralytics YOLOv5(산업 표준 CNN 기반 탐지기)와 RT-DETRv2(기존 CNN의 우위를 도전하기 위해 설계된 실시간 탐지 트랜스포머의 최신 버전) 간의 기술적 차이점을 살펴봅니다.
두 모델 모두 추론 속도와 높은 정확도 사이의 균형을 맞추는 중대한 과제를 해결하는 것을 목표로 하지만, 근본적으로 다른 방법론을 사용하여 이 목표에 접근합니다.
Ultralytics YOLOv5: 업계 표준
YOLOv5 속도, 정확도, 엔지니어링 실용성 사이의 탁월한 균형 덕분에 전 세계적으로 가장 널리 배포된 컴퓨터 비전 모델 중 하나로 YOLOv5 . 2020년 중반 Ultralytics 출시된 이 모델은 AI 분야의 사용성을 재정의하며, 원활한 Python 통해 엔지니어와 연구자 모두에게 최첨단 물체 탐지 기술을 접근 가능하게 했습니다.
- 작성자: Glenn Jocher
- 조직:Ultralytics
- 날짜:26
- GitHub:https://github.com/ultralytics/yolov5
- 문서:5
아키텍처 및 설계
YOLOv5 CSPDarknet 백본을 YOLOv5 , 이는 Cross Stage Partial 네트워크를 통합하여 기울기 흐름을 개선하고 계산 비용을 절감합니다. 목 부분(neck)은 효과적인 피라미드형 특징 집계를 위해 PANet(Path Aggregation Network)을 사용하며, 이를 통해 서로 다른 규모의 특징들이 효율적으로 융합되도록 보장합니다.
주요 아키텍처 기능은 다음과 같습니다:
- 앵커 기반 탐지: 사전 정의된 앵커 박스를 사용하여 객체 위치를 예측하는, 견고한 위치 추적을 위한 검증된 방법입니다.
- 모자이크 데이터 증강: 네 장의 이미지를 결합하는 훈련 기법으로, 모델이 다양한 맥락과 규모에서 detect 가르칩니다.
- SiLU 활성화: 기존 ReLU에 비해 딥 뉴럴 네트워크 수렴을 개선하는 더 부드러운 활성화 함수.
배치에서의 강점
YOLOv5 사용 편의성에서YOLOv5 . "제로 투 히어로" 워크플로를 통해 개발자는 데이터셋에서 배포된 모델까지 단 몇 분 만에 진행할 수 있습니다. Ultralytics 데이터 주석 작업, 클라우드 훈련, ONNX와 같은 형식으로의 원클릭 내보내기를 위한 통합 도구로 이를 지원합니다. ONNX, TensorRT, CoreML.
트랜스포머 모델과 달리 메모리 집약적이지 않은 YOLOv5 훈련 중 메모리 요구량이 현저히 YOLOv5 . 이러한 효율성 덕분에 소비자용 GPU는 물론 NVIDIA 같은 에지 디바이스에서도 실행 가능하여 야생동물 보존부터 소매 분석에 이르기까지 다양한 실세계 애플리케이션에 폭넓게 활용될 수 있습니다.
RT-DETRv2: 트랜스포머의 도전자
RT-DETRv2 실시간 탐지 트랜스포머 버전 2)는 RT-DETR 성공을 바탕으로, 트랜스포머의 정확도를 실시간 속도로 구현하는 것을 목표로 합니다. 인코더-디코더 구조를 최적화함으로써 비전 트랜스포머(ViTs)에 일반적으로 수반되는 높은 계산 비용 문제를 해결합니다.
- 저자: 룽원위, 자오옌, 외 다수
- Organization: Baidu
- 날짜: 2023-04-17 (v1), 2024-07-24 (v2)
- Arxiv:2304.08069
- GitHub:RT-DETR
아키텍처 및 설계
RT-DETRv2 CNN 백본(일반적으로 ResNet 또는 HGNet)과 효율적인 트랜스포머 인코더-디코더를 결합한 하이브리드 아키텍처를 RT-DETRv2 .
- 하이브리드 인코더: 스케일 내 상호작용과 스케일 간 융합을 분리하여 계산 오버헤드를 줄입니다.
- IoU Query Selection: 높은 신뢰도 특징을 우선시함으로써 객체 쿼리의 초기화를 개선합니다.
- 앵커 프리: 사전 정의된 앵커 없이 바운딩 박스를 직접 예측하여 이론적으로 출력 헤드를 단순화합니다.
- NMS: 주요 판매 포인트는 비최대 억제(NMS)를 제거하여 후처리 단계에서 지연 시간 편차를 줄일 수 있다는 점입니다.
배포 고려 사항
RT-DETRv2 경쟁력 있는 정확도를 RT-DETRv2 , 더 높은 리소스 요구사항을 동반합니다. 트랜스포머 기반 모델의 훈련은 일반적으로 YOLOv5 같은 CNN에 비해 더 GPU 더 긴 훈련 시간을 필요로 합니다. 또한 NMS 제거가 지연 시간 안정성에 NMS , 어텐션 레이어의 복잡한 행렬 연산은 전용 tensor 없는 구형 하드웨어나 에지 디바이스에서 더 느릴 수 있습니다.
성능 지표 비교
다음 표는 COCO RT-DETRv2 성능을 비교합니다. RT-DETRv2 높은 정확도(mAP) RT-DETRv2 반면, YOLOv5 특히 표준 하드웨어에서 우수한 속도-매개변수 비율을 제공하는 YOLOv5 .
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
성능 균형
RT-DETRv2 더 높은 피크 mAP RT-DETRv2 , 모델 크기와 속도의 상당한 차이를 유의해야 합니다. YOLOv5n은 T4 GPU에서 RT-DETRv2 작은 RT-DETRv2 거의 5배 빠르게 실행되어, 극도로 자원이 제한된 에지 애플리케이션에 더 우수한 선택지입니다.
주요 차이점 및 사용 사례
1. 훈련 효율성과 생태계
가장 중요한 장점 중 하나는 Ultralytics YOLOv5 의 가장 큰 장점 중 하나는 훈련 효율성입니다. 성능이 낮은 하드웨어로도 소규모 데이터셋에서 효과적으로 훈련할 수 있는 능력은 AI 접근성을 민주화합니다. 통합된 Ultralytics 통해 사용자는 훈련 지표를 시각화하고, 데이터셋을 관리하며, 모델을 원활하게 배포할 수 있습니다.
반면, RT-DETRv2 훈련은 트랜스포머 어텐션 메커니즘의 특성상 수렴에 도달하기 위해 RT-DETRv2 더 CUDA 연장된 훈련 에포크가 필요합니다. 신속한 반복 작업을 수행하는 개발자에게는 YOLOv5 빠른 훈련 주기가 생산성을 크게 향상시키는 YOLOv5 .
2. 다용도성
YOLOv5 단순한 객체 탐지기가 YOLOv5 . Ultralytics 그 기능을 다음과 같이 확장합니다:
- 인스턴스 세그멘테이션: 픽셀 단위에서 객체를 분할하는 기술.
- 이미지 분류: 전체 이미지를 효율적으로 분류하기.
- Pose Estimation: 사람 몸의 키포인트를 detect합니다.
이러한 다용도성은 단일 라이브러리 하나로 스포츠 분석부터 의료 영상에 이르기까지 전체 애플리케이션 제품군을 구동할 수 있음을 의미하며, 코드 복잡성과 유지보수 부담을 줄여줍니다. RT-DETRv2 주로 탐지에 중점을 두고 RT-DETRv2 , 통합 워크플로우 내에서 이러한 보조 작업에 대한 지원은 상대적으로 덜 성숙한 상태입니다.
3. 에지 및 CPU
CPU(IP 카메라나 클라우드 함수에서 흔히 사용됨) 또는 모바일 기기에 배포하기 위해 YOLOv5 CNN 아키텍처는 고도로 최적화되었습니다. 다음으로 내보내기를 지원합니다: TFLite 및 CoreML 로 내보내기를 지원하며 광범위한 양자화 기능을 제공합니다. RT-DETRv2 같은 트랜스포머 모델은 복잡한 행렬 연산으로 인해 표준 CPU 가속화하기 어려워GPU 없는GPU 지연GPU 문제가 발생할 RT-DETRv2 .
추천: Ultralytics
RT-DETRv2 인상적인 학술적 성과를 RT-DETRv2 반면, Ultralytics YOLO 생산 시스템에 더 포괄적인 솔루션을 제공합니다. 최신 Python , 하드웨어 드라이버 및 내보내기 형식과 호환성을 보장하는 잘 관리된 생태계는 장기 프로젝트에 안심감을 제공합니다.
2026년에 새로운 프로젝트를 시작하는 분들께서는 Ultralytics 검토해 보시기를 강력히 권장합니다.
왜 YOLO26을 선택해야 할까요?
YOLO26은 CNN과 트랜스포머의 장점을 결합하여 효율성의 정점을 구현합니다.
- 네이티브 엔드투엔드: RT-DETRv2와 마찬가지로 YOLO26은 NMS 배포 파이프라인을 단순화합니다.
- MuSGD 최적화기: 더 빠른 수렴성과 안정성을 위한 획기적인 하이브리드 최적화기.
- 에지 최적화: 이전 세대에 비해 최대 43% 더 빠른 CPU 위해 특별히 설계되었습니다.
- DFL 제거: 에지 디바이스로의 향상된 수출성을 위한 단순화된 손실 함수.
코드 예시: YOLOv5 실행
Ultralytics API의 단순성은 광범위한 채택의 주요 이유입니다. 추론을 로드하고 실행하는 것이 얼마나 쉬운지 보여드리겠습니다.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
비교를 위해, Ultralytics 동일한 간단한 인터페이스를 통해 RT-DETR 지원합니다:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
결론
YOLOv5 RT-DETRv2 모두 유능한 RT-DETRv2 . RT-DETRv2 NMS(네트워크 미세 조정)가 필요 없는 아키텍처와 높은 정확도로 트랜스포머 기반 탐지의 미래를 엿볼 수 있게 RT-DETRv2 . 그러나 YOLOv5 는 여전히 실용적인 현장 배포를 위한 강력한 선택지로, 엣지 디바이스에서 타의 추종을 불허하는 속도, 낮은 자원 비용, 그리고 풍부한 도구 생태계를 제공합니다.
CNN의 속도와 트랜스포머의 NMS 편리함을 동시에 원하는 개발자들에게,Ultralytics 2026년 이후를 위한 확실한 선택입니다.