콘텐츠로 건너뛰기

YOLO11 RTDETRv2: 실시간 탐지기의 기술 비교: 실시간 탐지기의 기술 비교

최적의 객체 감지 아키텍처를 선택하려면 추론 속도, 감지 정확도, 계산 리소스 효율성 간의 복잡한 절충점을 찾아야 합니다. 이 분석에서는 다음과 같은 종합적인 기술 비교를 제공합니다. Ultralytics YOLO11와 업계 표준 CNN 기반 탐지기의 최신 버전인 Ultralytics YOLO11, 그리고 고성능 실시간 탐지 트랜스포머인 RTDETRv2를 종합적으로 비교합니다.

RTDETRv2는 고정밀 작업을 위한 트랜스포머 아키텍처의 잠재력을 보여줍니다, YOLO11 은 일반적으로 더 빠른 추론 속도, 현저히 낮은 메모리 사용량, 더 강력한 개발자 에코시스템을 제공함으로써 실제 배포에 있어 뛰어난 균형을 제공합니다.

실시간 컴퓨터 비전의 표준: Ultralytics YOLO11

Ultralytics YOLO11 은 효율적인 컨볼루션 신경망(CNN)에 대한 수년간의 연구의 결정체입니다. 실제 컴퓨터 비전 애플리케이션을 위한 최고의 도구로 설계된 이 제품은 최첨단 정확도를 유지하면서 효율성을 우선시합니다.

저자 저자: Glenn Jocher, Jing Qiu
조직:Ultralytics
날짜: 2024-09-27
GitHubultralytics
Docsyolo11

아키텍처 및 강점

YOLO11 정교한 단일 단계의 앵커 프리 아키텍처를 사용합니다. 최적화된 C3k2 블록과 SPPF(공간 피라미드 풀링 - 고속) 모듈을 포함한 고급 특징 추출 모듈을 통합하여 다양한 규모의 특징을 캡처합니다.

YOLO11에 대해 자세히 알아보세요

RTDETRv2: 트랜스포머 기반 정확도

RTDETRv2는 비전 트랜스포머(ViT) 의 성능을 활용하여 벤치마크 데이터 세트에서 높은 정확도를 달성하는 실시간 감지 트랜스포머RT-DETR입니다. 이 모델은 전통적으로 DETR과 유사한 모델과 관련된 지연 문제를 해결하는 것을 목표로 합니다.

저자 웬위 리우, 이안 자오, 친야오 창, 쿠이 황, 관중 왕, 이 리우
조직: 바이두
날짜: 2023-04-17
아카이브:https://arxiv.org/abs/2304.08069
깃허브RT-DETR
문서RT-DETR

아키텍처 및 특성

RTDETRv2는 CNN 백본과 효율적인 트랜스포머 인코더-디코더를 결합한 하이브리드 아키텍처를 활용합니다. 자체 주의 메커니즘을 통해 모델이 글로벌 컨텍스트를 캡처할 수 있으므로 복잡한 객체 관계가 있는 장면에 유용합니다.

  • 글로벌 컨텍스트: 트랜스포머 아키텍처는 로컬 특징이 모호할 수 있는 혼잡한 환경에서 물체를 구별하는 데 탁월합니다.
  • 리소스 집약도: 속도에 최적화되어 있지만, 트랜스포머 레이어는 본질적으로 더 많은 연산과 메모리를 필요로 하며, 특히 고해상도 입력의 경우 더욱 그렇습니다.
  • Focus: RTDETRv2는 주로 탐지 중심의 아키텍처로, YOLO 제품군에서 볼 수 있는 기본 멀티태스크 지원이 부족합니다.

RTDETRv2에 대해 자세히 알아보세요.

성능 분석: 속도, 정확도 및 효율성

YOLO11 RTDETRv2를 비교할 때, 순수한 정확도 지표와 운영 효율성 간의 아키텍처적 트레이드오프에 차이가 있습니다.

하드웨어 고려 사항

RTDETRv2와 같은 트랜스포머 기반 모델은 효과적인 훈련과 추론을 위해 강력한 GPU가 필요한 경우가 많습니다. 반면, YOLO11 같은 CNN 기반 모델은 CPU와 라즈베리 파이와 같은 엣지 AI 디바이스를 비롯한 다양한 하드웨어에 최적화되어 있습니다.

정량적 비교

아래 표는 COCO 데이터 세트의 성능 메트릭을 보여줍니다. RTDETRv2는 강력한 mAP 점수를 보여주지만, YOLO11 특히 CPU 훨씬 빠른 추론 속도로 경쟁력 있는 정확도를 제공합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

결과 분석

  1. 추론 속도: YOLO11 속도 면에서 우위를 점합니다. 예를 들어, YOLO11x는 T4 GPU 약 25% 더 빠르게 실행(11.3ms 대 15.03ms)하면서도 RTDETRv2-x(54. mAP)보다 더 높은 정확도(54. mAP)를 달성합니다.
  2. 매개변수 효율성: YOLO11 모델은 일반적으로 비슷한 정확도 수준을 달성하기 위해 더 적은 수의 파라미터와 FLOP을 필요로 합니다. YOLO11l은 RTDETRv2-l과 동일한 53. mAP 달성하지만 거의 절반에 가까운 FLOP(86.9B 대 136B)으로 달성합니다.
  3. CPU 퍼포먼스: RTDETRv2의 트랜스포머 연산은 CPU에서 계산 비용이 많이 듭니다. YOLO11 표준 프로세서에서 실행 가능한 프레임 속도를 제공하는 비 GPU 배포에 여전히 선호되는 선택입니다.

워크플로 및 사용성

개발자에게 있어 모델의 '비용'에는 통합 시간, 교육 안정성, 배포 용이성 등이 포함됩니다.

사용 편의성 및 에코시스템

Ultralytics Python API는 복잡한 교육 루프를 몇 줄의 코드로 추상화합니다.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

반면, RTDETRv2는 강력한 연구 도구이지만 사용자 지정 데이터 세트에 적용하거나 다음과 같은 특정 형식으로 내보내려면 더 많은 수동 구성과 기본 코드베이스에 대한 심층적인 지식이 필요한 경우가 많습니다. ONNX 또는 TensorRT.

교육 효율성

트랜스포머 모델을 훈련하려면 일반적으로 훨씬 더 많은 GPU 메모리(VRAM)가 필요합니다. 이로 인해 개발자는 더 작은 배치 크기를 사용하거나 더 비싼 클라우드 하드웨어를 임대해야 할 수 있습니다. YOLO11 CNN 아키텍처는 메모리 효율적이기 때문에 소비자급 GPU에서 더 큰 배치 크기와 더 빠른 컨버전스를 가능하게 합니다.

이상적인 사용 사례

YOLO11 선택해야 할 때

  • 실시간 에지 배포: 컴퓨팅 리소스가 제한된 NVIDIA Jetson, 라즈베리 파이 또는 휴대폰과 같은 디바이스에 배포할 때 유용합니다.
  • 다양한 비전 작업: 프로젝트에 감지 작업과 함께 세분화 또는 포즈 추정이 필요한 경우.
  • 신속한 개발: 출시 기간이 중요한 경우, 광범위한 문서와 커뮤니티 지원으로 수명 주기를 단축할 수 있습니다.
  • 비디오 분석: 트래픽 모니터링 또는 스포츠 분석과 같은 애플리케이션에서 높은 FPS 처리에 적합합니다.

RTDETRv2를 선택해야 하는 경우

  • 학술 연구: 시각 변환기 및 주의 메커니즘의 특성을 연구합니다.
  • 서버 측 처리: 무제한 GPU 성능을 사용할 수 있고 지연 시간에 관계없이 특정 벤치마크에서 절대적으로 가장 높은 정확도가 유일한 지표인 경우입니다.
  • 정적 이미지 분석: 오프라인 의료 영상 분석과 같이 처리 시간이 제약이 없는 시나리오.

결론

RTDETRv2는 트랜스포머 아키텍처의 학문적 진보를 비전으로 보여줍니다, Ultralytics YOLO11 은 여전히 대다수의 실제 애플리케이션에서 실용적인 선택입니다. 뛰어난 속도 대 정확도 비율, 낮은 메모리 요구 사항, 여러 비전 작업을 처리할 수 있는 기능 덕분에 다재다능하고 강력한 툴이 될 수 있습니다. 성숙하고 잘 관리된 에코시스템과 결합된 YOLO11 개발자가 최소한의 마찰로 컨셉에서 프로덕션으로 이동할 수 있도록 지원합니다.

다른 모델 살펴보기

모델을 비교하면 특정 제약 조건에 적합한 도구를 선택하는 데 도움이 됩니다. 더 많은 비교는 Ultralytics 설명서에서 살펴보세요:


댓글