RTDETRv2와 YOLOv7: 자세한 기술 비교
실시간 객체 감지의 환경은 컨볼루션 신경망(CNN)과 새롭게 떠오르는 비전 트랜스포머(ViT) 간의 치열한 경쟁을 목격하고 있습니다. 이러한 진화에서 중요한 두 가지 이정표는 RTDETRv2 (실시간 감지 트랜스포머 v2)와 YOLOv7 (You Only Look Once 버전 7)입니다. YOLOv7 효율적인 CNN 아키텍처 최적화의 정점을 보여주는 반면, RTDETRv2는 트랜스포머의 강력한 성능을 도입하여 비최대 억제NMS와 같은 후처리 단계가 필요 없게 되었습니다.
이 비교에서는 두 모델의 기술 사양, 아키텍처 차이점, 성능 메트릭을 살펴보고 개발자가 컴퓨터 비전 애플리케이션에 적합한 툴을 선택하는 데 도움을 줍니다.
성능 지표: 정확도 대 속도
다음 표는 주요 성능 메트릭을 직접 비교한 것입니다. RTDETRv2-x는 트랜스포머 기반의 글로벌 컨텍스트 이해로 인해 더 높은 mAP 우수한 정확도를 보여줍니다. 그러나 YOLOv7 은 특히 다양한 하드웨어에서 더 가벼운 무게와 균형 잡힌 추론 속도가 요구되는 시나리오에서 여전히 경쟁력이 있습니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: 트랜스포머 접근 방식
RTDETRv2는 실시간 속도에서 YOLO 모델과 진정한 경쟁을 펼친 최초의 트랜스포머 기반 검출기인 오리지널 RT-DETR 성공을 기반으로 개발되었습니다. 바이두의 연구원들이 개발한 이 제품은 표준 DETR 아키텍처의 멀티스케일 상호 작용과 관련된 계산 병목 현상을 해결합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
주요 아키텍처 기능
RTDETRv2는 하이브리드 인코더를 사용하여 스케일 내 상호 작용과 스케일 간 융합을 분리함으로써 멀티스케일 특징을 효율적으로 처리합니다. 이 설계는 표준 트랜스포머에 비해 계산 비용을 크게 줄여줍니다. 눈에 띄는 기능은 개체 쿼리의 초기화를 개선하여 더 빠른 융합과 더 높은 정확도를 이끌어내는 IoU 쿼리 선택입니다. CNN 기반 모델과 달리 RTDETRv2는 NMS 필요하지 않으므로 비최대 억제 후처리가 필요하지 않아 배포 파이프라인이 간소화되고 지연 지터가 줄어듭니다.
트랜스포머 이점
RTDETRv2 아키텍처의 가장 큰 장점은 글로벌 컨텍스트를 캡처할 수 있다는 점입니다. CNN은 국소화된 수신 필드를 살펴보는 반면, 트랜스포머의 자기 주의 메커니즘은 모델이 객체를 감지할 때 전체 이미지 컨텍스트를 고려할 수 있게 해주므로 오클루전이 있는 복잡한 장면의 모호함을 해결하는 데 유용합니다.
YOLOv7: CNN 피크
YOLOv7 컨볼루션 신경망으로 가능한 것의 한계를 뛰어넘습니다. 훈련 과정과 모델 아키텍처를 최적화하여 추론 비용을 늘리지 않고 정확도를 높이는 '공짜 가방'을 달성하는 데 중점을 둡니다.
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 조직: 정보 과학 연구소, 아카데미아 시니카
- 날짜: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
주요 아키텍처 기능
YOLOv7 경사 경로 길이를 제어하여 네트워크의 학습 능력을 향상시키는 E-ELAN (확장된 효율적인 계층 집계 네트워크)을 도입했습니다. 또한 더 나은 학습을 위해 훈련 중에는 모델 구조를 복잡하게 만들지만 추론 중에는 속도를 위해 단순화하는 기술인 모델 재파라미터화를 사용합니다. 이를 통해 YOLOv7 트랜스포머 모델에 비해 파라미터를 상대적으로 낮게 유지하면서 GPU 장치에서 높은 성능을 유지할 수 있습니다.
비교 분석
아키텍처 및 다용도성
근본적인 차이점은 백본과 헤드 설계에 있습니다. YOLOv7 고도로 최적화된 딥 CNN 구조에 의존합니다. CUDA 가속화에 매우 최적화되어 있지만 이미지의 장거리 종속성에는 어려움을 겪을 수 있습니다. RTDETRv2는 주의 메커니즘을 활용하여 멀리 떨어진 픽셀 간의 관계를 이해하므로 복잡한 환경에서도 강력합니다. 하지만 훈련 시 메모리 사용량이 증가한다는 대가가 따릅니다.
다음과 같은 Ultralytics 모델 YOLO11 와 같은 모델은 최신 주의집중 모듈을 통합하는 CNN 기반 아키텍처를 제공하여 일반적으로 트랜스포머에 사용되는 정확도와 함께 CNN의 속도를 제공함으로써 이러한 격차를 해소합니다. 또한 RTDETRv2는 주로 객체 감지기인 반면, 최신 Ultralytics 모델은 기본적으로 인스턴스 분할, 포즈 추정 및 분류를 지원합니다.
교육 및 사용 편의성
RTDETRv2와 같은 트레이닝 트랜스포머 모델은 일반적으로 YOLOv7 같은 CNN에 비해 수렴하는 데 상당한 GPU 메모리와 더 긴 트레이닝 에포크가 필요합니다.
다음을 원하는 개발자를 위한 교육 효율성 및 사용 편의성를 통해 Ultralytics 에코시스템은 뚜렷한 이점을 제공합니다. 울트라 애널리틱스 에코시스템은 ultralytics Python 패키지를 사용하면 몇 줄의 코드만으로 모델을 학습, 검증 및 배포할 수 있으며, 다양한 작업에 대해 미리 학습된 가중치 모음에 액세스할 수 있습니다.
from ultralytics import RTDETR, YOLO
# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt") # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)
# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")
배포 및 에코시스템
YOLOv7 오래된 버전으로 인해 폭넓은 지원을 받고 있지만 최신 MLOps 파이프라인에 통합하는 것은 수동으로 이루어질 수 있습니다. RTDETRv2는 더 새롭고 지원이 늘어나고 있습니다. 이와는 대조적으로 Ultralytics 모델은 잘 관리된 에코시스템의 이점을 누릴 수 있습니다. ONNX로의 원활한 내보내기, 클라우드 교육 및 데이터 세트 관리를 위한 Ultralytics HUB와 같은 도구와의 통합 등 잘 관리된 에코시스템의 이점을 누릴 수 있습니다.
이상적인 사용 사례
- 다음과 같은 경우 RTDETRv2를 선택합니다: GPU 메모리가 충분하고 오클루전이 심하거나 혼잡한 장면에서 높은 정밀도가 필요한 경우, NMS 일반적으로 실패하는 경우. 연구 및 하이엔드 감시 시스템에 적합합니다.
- 다음과 같은 경우 YOLOv7 선택하세요: 범용 탐지 작업을 위해 표준 GPU 하드웨어에서 효율적으로 실행되는 검증된 레거시 CNN 아키텍처가 필요합니다.
- 다음과 같은 경우 Ultralytics YOLO11 선택하세요: 속도와 정확성, 낮은 메모리 요구 사항, 감지, 세분화 및 포즈 추정이 가능한 다목적 모델 등 최상의 성능 균형이 필요한 경우. 간소화된 워크플로와 광범위한 문서화를 중시하는 개발자에게 이상적인 선택입니다.
왜 YOLO11 업그레이드해야 하나요?
YOLOv7 RTDETRv2는 강력하지만, YOLO11 은 비전 AI의 최신 진화를 대표합니다. 트랜스포머보다 적은 CUDA 메모리를 필요로 하고, 더 빠르게 학습하며, 엣지 디바이스에서 클라우드 서버에 이르기까지 광범위한 하드웨어에서 최첨단 정확도를 제공합니다.
결론
RTDETRv2와 YOLOv7 모두 컴퓨터 비전의 방향을 정립했습니다. RTDETRv2는 트랜스포머가 실시간 애플리케이션에 비해 너무 느리다는 개념에 성공적으로 도전했고, YOLOv7 CNN의 지속적인 효율성을 입증했습니다. 그러나 오늘날 대부분의 실제 애플리케이션에서는 Ultralytics YOLO11 모델은 이러한 이전 모델의 장점과 최신 지원 에코시스템을 결합하여 뛰어난 개발자 경험을 제공합니다.
다른 비교 살펴보기
모델 환경을 더 자세히 이해하려면 다음 비교를 살펴보세요: