콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv5: 실시간 탐지 트랜스포머와 CNN 평가

컴퓨터 비전의 진화는 정확도와 실시간 추론 속도의 균형을 끊임없이 추구하는 과정에서 크게 정의되어 왔다. RTDETRv2와 Ultralytics YOLOv5 비교할 때 개발자들은 본질적으로 트랜스포머 아키텍처의 정교한 글로벌 컨텍스트 처리 능력과, 극도로 최적화되고 실전에서 검증된 효율성을 지닌 컨볼루션 신경망(CNN) 사이에서 선택을 고민하게 된다.

이 가이드는 두 가지 주요 아키텍처에 대한 심층적인 기술적 분석을 제공하며, 성능 지표, 훈련 방법론, 메모리 요구 사항 및 이상적인 배포 시나리오를 상세히 설명하여 특정 사용 사례에 가장 적합한 객체 탐지 모델을 선택하는 데 도움을 줍니다.

RTDETRv2: 실시간 탐지를 위한 트랜스포머 접근법

기존 실시간 탐지 트랜스포머(RT-DETR)를 기반으로, RTDETRv2는 추론 지연 시간을 희생하지 않으면서도 기본 아키텍처를 개선하기 위한 일련의 "무료 기능 모음"을 도입합니다.

아키텍처 및 기능

RTDETRv2는 하이브리드 CNN-트랜스포머 아키텍처를 활용합니다. CNN은 미세한 시각적 특징을 추출하는 백본 역할을 하는 반면, 트랜스포머 인코더-디코더 레이어는 전체 특징 맵을 처리하여 글로벌 컨텍스트를 이해합니다. RTDETRv2의 주요 특징은 엔드투엔드(end-to-end) 특성으로, 비최대 억제(NMS) 후처리 과정이 완전히 불필요합니다.

RTDETRv2는 특히 물체가 중첩되는 복잡하고 밀집된 장면에서 인상적인 정확도를 달성하지만, 상당한 단점도 동반합니다. 트랜스포머에 내재된 어텐션 메커니즘은 표준 CNN에 비해 훈련 중 훨씬 더 많은 CUDA 요구합니다. 또한 NVIDIA 같은 고성능 GPU에서는 우수한 성능을 보이지만, 표준 CPU나 성능이 크게 제한된 에지 디바이스에서는 아키텍처가 현저히 느려집니다.

RTDETRv2에 대해 자세히 알아보세요.

Ultralytics YOLOv5: 효율성의 업계 표준

Ultralytics YOLOv5 출시 당시 응용 머신러닝의 지형을YOLOv5 바꿔놓았으며, 매우 직관적인 프레임워크를 통해 전 세계 개발자들에게 고성능 컴퓨터 비전을 제공했습니다.

생태계와 성능의 균형

YOLOv5 전적으로 PyTorch 프레임워크를 기반으로 구축되었으며 매우 효율적인 CNN 아키텍처를 활용합니다. 사용 편의성을 최우선으로 설계되어 간결한 API와 AI 업계에서 가장 포괄적인 문서화를 자랑합니다.

YOLOv5 가장 큰 장점은 타의 추종을 불허하는 다용도성과 낮은 메모리 요구사항에 YOLOv5 . YOLOv5 훈련에는 트랜스포머 기반 모델보다 훨씬 적은 VRAM이 필요하므로, 하드웨어 예산이 제한된 연구자와 엔지니어도 접근할 수 있습니다. 또한 RTDETRv2가 경계 상자 탐지에만 집중하는 반면, YOLOv5 인스턴스 분할과 이미지 분류를 지원하는 다재다능한 핵심 기술로 YOLOv5 .

기업 모델 관리

궁극의 간소화된 워크플로를 경험하려면 Ultralytics 사용하여 YOLOv5 훈련, 검증 및 배포할 수 있습니다. 이 플랫폼은 클라우드 훈련 기능과 코드 없이도 가능한 배포 파이프라인을 제공합니다.

5에 대해 자세히 알아보기

성능 및 지표 비교

표준 COCO 원시 성능을 분석할 때, 이들 모델이 자원을 어떻게 우선순위화하는지에 대한 명확한 차이를 확인할 수 있습니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

장단점 분석

데이터에 따르면 RTDETRv2-x는 평균 정밀도(mAP) 최고값 54.3%를 달성하여 YOLOv5x의 50.7%보다 약간 우수한 성능을 보입니다. 그러나 이 미미한 정확도 향상은 막대한 계산 비용을 수반합니다. YOLOv5x는 더 낮은 지연 시간( TensorRT 기준 11.89ms 대 15.03ms)으로 작동하며, 메모리 사용량도 훨씬 적습니다. 초저전력 에지 배포의 경우, YOLOv5n(Nano)이 여전히 독보적입니다. RTDETRv2가 경쟁조차 시도하지 않는 수준인, 260만 개의 미미한 매개변수 풋프린트로 단 1.12ms 만에 추론을 완료합니다.

훈련 효율성과 코드 단순성

Ultralytics 핵심 강점 중 하나는 통합 API입니다. 특정 고성능 연산 RT-DETR 트랜스포머 아키텍처를 활용하기로 결정하더라도, Ultralytics Python 내에서 완전히 수행할 수 있으며 단 한 줄의 코드로 모델을 원활하게 교체할 수 있습니다.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

Ultralytics 활용함으로써 개발자는 자동으로 잘 관리되는 생태계에 접근할 수 있습니다. 여기에는 실험 추적 통합 ( Weights & Biases Comet 등)과 ONNX , OpenVINO.

실제 적용 사례와 이상적인 사용 사례

RTDETRv2가 빛나는 곳

RTDETRv2는 하드웨어 제약이 전혀 없고 가능한 최대 정밀도가 유일한 목표인 환경에 가장 적합합니다.

  • 서버 측 의료 영상 처리: 고해상도 X선 영상에서 미세 이상 징후 탐지
  • 위성 영상: 강력한 클라우드 클러스터에서 항공 감시 작업 시 밀집되고 중첩된 물체를 추적합니다.

YOLOv5 곳

YOLOv5 다양한 하드웨어에서 실용적이고 실제 환경에 적용하기 위한 확실한 YOLOv5 .

  • 엣지 AI 디바이스: 메모리가 엄격히 제한된 라즈베리 파이 또는 NVIDIA 디바이스에 보안 경보 시스템 구축
  • 모바일 애플리케이션: CoreML TFLite 통해 스마트폰에서 직접 실행되는 고속 실시간 바운딩 박스 및 분할 추론.
  • 고속 산업 제조: 밀리초 단위의 지연 시간이 운영 성공에 결정적인 역할을 하는 고속 생산 라인에서 부품 검사.

다른 Ultralytics 탐색

YOLOv5 전설적인 YOLOv5 불구하고, Ultralytics 지속적으로 AI의 한계를 넓혀가고 YOLOv5 . 2026년 신규 프로젝트를 위해 모델을 비교 중이라면, 최첨단 Ultralytics 검토해 보시기 바랍니다. YOLO26은 트랜스포머와 유사하지만 CNN 속도를 지닌 네이티브 엔드투엔드 NMS 설계를 통합하고, 놀라울 정도로 안정적인 훈련을 위한 혁신적인 MuSGD 최적화기를 특징으로 하며, 최대 43% 더 빠른 CPU 제공합니다. 또는 YOLO11포즈 추정OBB 탐지가 필요한 다양한 배포 환경에서 여전히 탁월하고 폭넓게 지원되는 선택지입니다.

궁극적으로 RTDETRv2가 트랜스포머 레이어를 활용해 정확도의 한계를 끌어올리는 반면, Ultralytics YOLO 속도, 경량 메모리 요구사항, 그리고 프로토타입에서 생산까지의 시간을 획기적으로 단축하는 탁월하게 설계된 개발자 경험이라는 세 가지 요소에서 타의 추종을 불허하는 균형을 제공합니다.


댓글