콘텐츠로 건너뛰기

YOLOX와 RTDETRv2: 객체 감지를 위한 기술 비교

빠르게 진화하는 컴퓨터 비전 환경에서 프로젝트에 적합한 아키텍처를 선택하려면 추론 속도, 정확도, 계산 리소스 효율성 사이에서 복잡한 절충점을 찾아야 하는 경우가 많습니다. 이 비교에서는 객체 감지에 대한 두 가지 접근 방식을 살펴봅니다: 고성능 앵커 프리 CNN인 YOLOX와 최첨단 실시간 감지 트랜스포머인 RTDETRv2입니다.

욜로 제품군에서 앵커가 없는 방법론으로의 중요한 변화를 대표했던 YOLO 달리, RTDETRv2는 비전 트랜스포머(ViT)의 성능을 활용하여 글로벌 컨텍스트를 포착함으로써 기존의 컨볼루션 신경망(CNN)에 도전합니다. 이 가이드에서는 아키텍처, 성능 메트릭, 이상적인 사용 사례를 분석하여 정보에 입각한 결정을 내릴 수 있도록 도와드립니다.

성능 분석: 속도 vs. 정확도

아래 성능 메트릭은 이 두 모델의 기본 설계 철학을 보여줍니다. RTDETRv2는 일반적으로 주의 메커니즘을 활용하여 복잡한 장면을 이해함으로써 더 높은 평균 정밀도(mAP) 를 달성합니다. 그러나 이러한 정확도에는 종종 계산 비용이 증가합니다. 특히 더 작은 버전인 YOLOX는 표준 하드웨어에서 짧은 추론 지연 시간과 효율적인 실행을 우선시합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

표에서 볼 수 있듯이, RTDETRv2-x는 54.3의 mAP 가장 높은 정확도를 달성하여 가장 큰 YOLOX 변형보다 성능이 뛰어납니다. 반대로 YOLOX-s는 GPU 하드웨어에서 뛰어난 속도를 보여주기 때문에 지연 시간에 민감한 애플리케이션에 매우 효과적입니다.

욜록스: 앵커 없는 효율성

YOLO 앵커가 없는 메커니즘으로 전환하고 감지 헤드를 분리하여 YOLO 시리즈를 개선했습니다. 사전 정의된 앵커 박스가 필요 없는 YOLOX는 훈련 과정을 간소화하고 다양한 물체 형태에 대한 일반화를 개선합니다.

저자들: 저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
조직:Megvii
날짜: 2021-07-18
Arxiv: YOLO : 2021년의 YOLO 시리즈 초과하기

주요 강점

  • 앵커 프리 디자인: 앵커 하이퍼파라미터를 수동으로 조정할 필요가 없으므로 설계 복잡성이 줄어듭니다.
  • 분리된 헤드: 분류와 회귀 작업을 분리하여 모델이 더 빠르게 수렴하고 더 나은 정확도를 달성할 수 있도록 도와줍니다.
  • SimOTA: 양성 샘플을 동적으로 할당하여 훈련 안정성을 향상시키는 고급 라벨 할당 전략입니다.

약점

  • 노후화된 아키텍처: 2021년에 출시된 이 버전은 다음과 같은 최신 버전에서 볼 수 있는 일부 최신 최적화가 부족합니다. YOLO11.
  • 제한된 작업 지원: 주로 탐지에 중점을 두며, 동일한 프레임워크 내에서 세분화 또는 포즈 추정에 대한 기본 지원이 부족합니다.

YOLOX에 대해 자세히 알아보세요

RTDETRv2: 트랜스포머 강국

RTDETRv2(실시간 감지 트랜스포머 버전 2)는 트랜스포머 아키텍처를 실시간 물체 감지에 적용하는 데 있어 비약적인 발전을 이루었습니다. 효율적인 하이브리드 인코더를 도입하여 일반적으로 트랜스포머와 관련된 높은 계산 비용을 해결합니다.

저자 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직:Baidu
날짜: 2023-04-17 (v1), 2024-07 (v2)
Arxiv:RT-DETRv2: 공짜 가방으로 개선된 기준선

주요 강점

  • 글로벌 컨텍스트: 자체 주의 메커니즘을 통해 모델은 이미지에서 멀리 떨어진 물체 간의 관계를 이해하여 복잡한 장면에서 오탐지를 줄일 수 있습니다.
  • 높은 정확도: 비슷한 규모의 CNN 기반 모델에 비해 일관되게 더 높은 mAP 점수를 달성합니다.
  • NMS 불필요: 트랜스포머 아키텍처는 중복 탐지를 자연스럽게 제거하여 NMS(Non-Maximum Suppression) 후처리가 필요하지 않습니다.

약점

  • 메모리 집약도: CNN에 비해 훈련 중에 훨씬 더 많은 GPU VRAM이 필요하므로 일반 소비자용 하드웨어에서는 훈련하기가 더 어렵습니다.
  • CPU 지연 시간: GPU 최적화되어 있지만, Transformer는 YOLOX-Nano와 같은 경량 CNN에 비해 CPU 에지 디바이스에서 작동 속도가 느려질 수 있습니다.

RTDETRv2에 대해 자세히 알아보세요.

이상적인 사용 사례

이러한 모델 간의 선택은 배포 환경의 특정 제약 조건에 따라 달라지는 경우가 많습니다.

  • 다음과 같은 경우 YOLOX를 선택하세요: 밀리초 단위의 지연 시간이 중요한 라즈베리 파이 또는 휴대폰과 같이 리소스가 제한된 엣지 디바이스에 배포하는 경우. 또한 물체가 단단하고 예측 가능한 산업 검사 라인에도 적합합니다.
  • RTDETRv2를 선택합니다: 강력한 GPU(예: NVIDIA T4 또는 A100)를 사용할 수 있고 정확도가 가장 중요한 경우. 컨텍스트와 객체 관계가 중요한 혼잡한 장면, 자율 주행 또는 항공 감시에서 탁월한 성능을 발휘합니다.

배포 최적화

선택한 모델에 관계없이 다음과 같은 최적화 프레임워크를 활용합니다. TensorRT 또는 OpenVINO 와 같은 최적화 프레임워크를 활용하는 것은 프로덕션 환경에서 실시간 속도를 달성하는 데 필수적입니다. 두 모델 모두 FP16 또는 INT8로 정량화하면 상당한 이점을 얻을 수 있습니다.

Ultralytics YOLO 모델이 탁월한 선택인 이유

YOLOX와 RTDETRv2도 인상적이지만, Ultralytics YOLO 생태계는 다음과 같이 주도하는 YOLO11가 주도하는 YOLO 생태계는 개발자와 연구자를 위한 보다 종합적인 솔루션을 제공합니다. Ultralytics 사용자 경험을 우선시하여 최첨단 AI에 대한 접근성, 효율성, 다용도성을 보장합니다.

1. 독보적인 다목적성 및 에코시스템

주로 탐지 모델인 욜록스와는 다릅니다, Ultralytics YOLO11 은 기본적으로 인스턴스 분할, 포즈 추정, 분류OBB(Oriented Bounding Box) 감지를 포함한 다양한 컴퓨터 비전 작업을 지원합니다. 이를 통해 단일 통합 API로 여러 문제를 해결할 수 있습니다.

2. 사용 및 유지 관리의 용이성

Ultralytics 패키지는 복잡한 MLOps의 세계를 단순화합니다. 잘 관리된 코드베이스, 빈번한 업데이트 및 광범위한 설명서를 통해 사용자는 설치부터 교육까지 몇 분 만에 완료할 수 있습니다.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. 교육 효율성 및 메모리 사용량

Ultralytics YOLO 모델의 중요한 장점 중 하나는 효율성입니다. RTDETRv2와 같은 트랜스포머 기반 모델은 데이터 사용량이 많고 메모리 집약적인 것으로 알려져 있으며, 훈련을 위해 대용량 VRAM을 갖춘 하이엔드 GPU가 필요한 경우가 많습니다. 반면, Ultralytics YOLO 모델은 더 적은 CUDA 메모리를 사용하면서 일반 소비자용 GPU를 포함한 광범위한 하드웨어에서 효과적으로 훈련할 수 있도록 최적화되어 있습니다. 이러한 훈련 효율성은 고성능 AI에 대한 액세스를 대중화합니다.

4. 성능 균형

Ultralytics 모델은 속도와 정확도 사이의 '스위트 스팟'에 도달하도록 설계되었습니다. 리테일 분석부터 안전 YOLO11 이르기까지 대부분의 실제 애플리케이션에 대해 실시간 비디오 피드에 필요한 초고속 추론 속도를 유지하면서 Transformers에 필적하는 정확도를 제공합니다.

결론

YOLOX와 RTDETRv2는 모두 컴퓨터 비전 분야에 크게 기여해 왔습니다. YOLOX는 엄격하게 제한된 레거시 임베디드 시스템을 위한 확실한 선택이며, RTDETRv2는 하이엔드 하드웨어를 위한 정확도의 한계를 뛰어넘습니다.

그러나 대부분의 개발자는 미래에도 사용할 수 있고 다재다능하며 사용하기 쉬운 솔루션을 찾고 있습니다, Ultralytics YOLO11 이 최고의 선택입니다. 낮은 메모리 요구 사항, 광범위한 작업 지원, 활발한 커뮤니티가 결합된 이 솔루션은 안정성과 성능의 토대 위에 프로젝트를 구축할 수 있도록 보장합니다.

다른 비교 살펴보기

모델 선택을 더욱 구체화하려면 다음과 같은 관련 기술 비교를 살펴보세요:


댓글