YOLO 대 RTDETRv2: 속도와 변압기 정확도 균형 맞추기
최적의 객체 감지 아키텍처를 선택하려면 추론 지연 시간과 감지 정밀도 사이의 절충점을 찾아야 하는 경우가 많습니다. 이 기술 비교에서는 알리바바 그룹이 최적화한 고속 검출기인 YOLO 바이두의 2세대 실시간 검출 트랜스포머인 RTDETRv2를 살펴봅니다. 아키텍처 혁신, 성능 벤치마크, 배포 적합성을 분석하여 컴퓨터 비전 애플리케이션에 대한 정보에 입각한 결정을 내릴 수 있도록 도와드립니다.
YOLO: 짧은 지연 시간을 위한 최적화
YOLO 진화하는 과정에서 중요한 단계입니다. YOLO 아키텍처의 중요한 진화 단계로, 정확도를 크게 저하시키지 않으면서 속도를 극대화하는 데 중점을 두고 있습니다. 알리바바 그룹에서 개발한 이 아키텍처는 고급 신경망 아키텍처 검색(NAS) 기술을 사용하여 효율성을 위해 네트워크 구조를 조정합니다.
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직:조직: 알리바바 그룹
- 날짜: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- Docs:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
건축 하이라이트
YOLO 몇 가지 새로운 기술을 통합하여 탐지 파이프라인을 간소화합니다:
- NAS 기반 백본: 이 모델은 신경망 아키텍처 검색(NAS) 을 활용하여 효율적인 백본 구조(MAE-NAS)를 자동으로 검색합니다. 이 접근 방식은 네트워크 깊이와 폭이 특정 하드웨어 제약 조건에 맞게 최적화되도록 합니다.
- RepGFPN 넥: RepGFPN으로 알려진 일반화된 피처 피라미드 네트워크(GFPN)의 효율적인 버전이 특징입니다. 이 구성 요소는 짧은 지연 시간 제어를 유지하면서 다양한 규모에 걸쳐 피처 융합을 향상시킵니다.
- 제로헤드: '제로헤드'라고 불리는 간소화된 헤드 설계는 분류와 회귀 작업을 분리하여 최종 예측 계층의 계산 부담을 줄여줍니다.
- AlignedOTA: 훈련 안정성을 위해 YOLO 분류 및 회귀 목표를 정렬하여 수렴을 개선하는 라벨 할당 전략인 AlignedOTA(최적 전송 할당)를 사용합니다.
RTDETRv2: 실시간 트랜스포머의 진화: 실시간 트랜스포머의 진화
실시간 성능을 달성한 최초의 트랜스포머 기반 객체 검출기인 RT-DETR 성공을 기반으로 구축된 RTDETRv2. 바이두에서 개발한 RTDETRv2는 추가 추론 비용을 들이지 않고도 훈련 안정성과 정확도를 높이기 위해 '공짜 가방'을 도입했습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2023-04-17
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
건축 하이라이트
RTDETRv2는 비전 트랜스포머의 강점을 활용하면서 기존의 속도 병목 현상을 완화합니다:
- 하이브리드 인코더: 이 아키텍처는 멀티스케일 기능을 효율적으로 처리하는 하이브리드 인코더를 사용하여 스케일 내 상호 작용과 스케일 간 융합을 분리하여 계산 비용을 절감합니다.
- IoU 쿼리 선택: 이 메커니즘은IoUIntersection over UnionIoU 점수를 기반으로 고품질의 초기 개체 쿼리를 선택하므로 학습 수렴 속도가 빨라집니다.
- 적응형 구성: RTDETRv2는 디코더 및 쿼리 선택에 대한 유연한 구성을 제공하여 사용자가 특정 속도/정확도 요구 사항에 맞게 모델을 조정할 수 있습니다.
- 앵커 프리 디자인: 이전 버전과 마찬가지로 완전히 앵커가 없어 후처리 과정에서 휴리스틱 앵커 박스 튜닝과 비최대 억제NMS가 필요하지 않습니다.
기술 비교: 성능 및 효율성
이 두 모델의 핵심적인 차이점은 아키텍처의 뿌리인 CNN과 트랜스포머, 그리고 이것이 성능 프로필에 어떤 영향을 미치는지에 있습니다.
메트릭 분석
아래 표는 COCO 데이터 세트의 주요 메트릭을 요약한 것입니다. 평균 평균 정밀도mAP 측면에서 RTDETRv2가 우세한 반면, YOLO 더 작은 변종에서 우수한 처리량(FPS)과 더 적은 매개변수 수를 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
장단점 분석
YOLO 고주파 산업용 분류와 같이 밀리초가 중요한 환경에서 탁월한 성능을 발휘합니다. 'Tiny'(t) 버전은 매우 가볍습니다. 반대로 RTDETRv2는 더 높은 정확도를 제공하므로 자율 주행이나 정밀 감시와 같이 물체를 놓치는 것이 중요한 복잡한 장면에 더 적합합니다.
아키텍처와 실제 애플리케이션 비교
글로벌 컨텍스트 대 로컬 특징: RTDETRv2의 트랜스포머 어텐션 메커니즘은 CNN 기반의 YOLO 글로벌 컨텍스트를 더 잘 이해할 수 있습니다. 따라서 혼잡한 장면이나 물체가 가려진 상황에서 더 나은 성능을 발휘합니다. 그러나 이러한 글로벌 주의는 메모리 소비가 증가하고 학습 시간이 느려지는 대가를 치릅니다.
하드웨어 최적화: YOLO NAS 기반 백본은 GPU 추론에 고도로 최적화되어 지연 시간이 매우 짧습니다. RTDETRv2는 실시간이지만, 일반적으로 YOLO 감지기의 프레임 속도에 맞추려면 더 강력한 하드웨어가 필요합니다.
Ultralytics의 장점: YOLO11을 선택해야 하는 이유
YOLO RTDETRv2는 특화된 혜택을 제공합니다, Ultralytics YOLO11 은 대부분의 실제 애플리케이션에 가장 균형 잡히고 개발자 친화적인 솔루션으로 돋보입니다.
우수한 개발자 경험 및 에코시스템
YOLO 또는 RTDETRv2와 같은 학술 모델에서 가장 중요한 과제 중 하나는 통합입니다. Ultralytics 강력한 에코시스템으로 이 문제를 해결합니다:
- 사용 편의성: 단 몇 줄의 코드만으로 모델을 훈련, 검증, 배포할 수 있는 통합 Python API와 CLI 사용할 수 있습니다.
- 잘 관리된 에코시스템: 활발한 개발, 광범위한 문서, 대규모 커뮤니티를 통해 Ultralytics 모델이 지원됩니다. 따라서 최신 하드웨어 및 소프트웨어 라이브러리와의 호환성을 보장합니다.
- 훈련 효율성: YOLO11 더 빠르게 훈련하도록 설계되었으며, RTDETRv2와 같은 트랜스포머 기반 모델보다 훨씬 적은 GPU 메모리(VRAM)를 필요로 합니다. 따라서 일반 소비자용 하드웨어에서도 고성능 AI를 이용할 수 있습니다.
탁월한 다용도성
주로 바운딩 박스 감지에 초점을 맞춘 YOLO 및 RTDETRv2와 달리, YOLO11 기본적으로 다양한 컴퓨터 비전 작업을 지원합니다:
성능 균형
YOLO11 YOLO 제품군의 특징인 추론 속도와 효율성을 유지하면서 여러 벤치마크에서 RTDETRv2에 필적하거나 이를 능가하는 최첨단 정확도를 달성합니다.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
결론
YOLO RTDETRv2 중 어떤 것을 선택할지는 특정 제약 조건에 따라 달라집니다:
- 주요 제약 조건이 지연 시간 이고 최소한의 매개변수 수가 중요한 엣지 디바이스에 배포하는 경우 YOLO 선택하세요.
- 복잡한 씬에서 최대한 높은 정확도가 필요하고 트랜스포머 아키텍처를 지원할 수 있는 컴퓨팅 예산이 있는 경우 RTDETRv2를 선택하세요.
하지만 고성능, 사용 편의성, 멀티태스킹 기능을 결합한 종합적인 솔루션이 필요합니다, Ultralytics YOLO11 을 여전히 권장합니다. 훈련 중 메모리 사용량이 적고 성숙한 에코시스템과 결합되어 프로토타입에서 프로덕션까지의 여정을 가속화할 수 있습니다.
다른 모델 살펴보기
객체 감지의 환경을 더 자세히 이해하려면 다음 비교를 살펴보세요: