콘텐츠로 건너뛰기

YOLOX 대 RTDETRv2: 실시간 객체 탐지 모델의 진화 평가

컴퓨터 비전 애플리케이션에 최적의 아키텍처를 선택하려면 정확도, 추론 속도, 배포 가능성 간의 신중한 균형이 필요합니다. 본 포괄적인 기술 분석에서는 매우 성공적인 앵커 프리 CNN 아키텍처인 YOLOX와 최첨단 실시간 탐지 트랜스포머인 RTDETRv2 간의 근본적인 차이점을 탐구합니다.

두 모델 모두 객체 탐지 분야에 상당한 기여를 해왔지만, 실제 운영 환경에 적용 가능한 애플리케이션을 구축하는 개발자들은 종종 Ultralytics 같은 최신 대안들이 더 우수한 훈련 효율성, 낮은 메모리 요구 사항, 그리고 더 견고한 배포 생태계를 제공한다는 점을 발견합니다.

YOLOX: 연구와 산업의 간극을 메우다

YOLOX는 YOLO 앵커 프리(anchor-free) 변형으로 큰 인기를 끌었으며, 출시 당시 인상적인 성능 향상을 가져온 간소화된 설계를 도입했습니다.

아키텍처 혁신

YOLOX는 YOLO 앵커 박스 없는 패러다임으로 전환하며 분리된 헤더와 진보된 SimOTA 레이블 할당 전략을 통합했습니다. 앵커 박스를 제거함으로써 설계 매개변수 수를 크게 줄이고 다양한 벤치마크 데이터셋에서 일반화 성능을 향상시켰습니다. 경량 버전인 YOLOX-Nano와 YOLOX-Tiny는 에지 디바이스에 비전 AI 애플리케이션을 배포하는 데 널리 채택되었습니다.

레거시 고려 사항

YOLOX는 주목할 만한 발전을 가져왔지만, 무거운 증강 파이프라인과 구식 후처리 루틴(전통적인 NMS 등)에 의존하기 때문에 네이티브 엔드투엔드 모델에 비해 더 높은 지연 시간을 초래할 수 있습니다.

YOLOX에 대해 자세히 알아보세요

RTDETRv2: 실시간 비전 트랜스포머의 진화

전작의 기반을 바탕으로, RTDETRv2는 비전 트랜스포머(ViTs)의 성능을 활용하여 실시간 추론 속도를 저하시키지 않으면서도 매우 경쟁력 있는 정확도를 달성합니다.

  • 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
  • 조직조직: Baidu
  • 날짜:24
  • 링크:Arxiv, GitHub

아키텍처 혁신

RTDETRv2는 트랜스포머 기반 아키텍처를 활용하여 비최대 억제(NMS)를 본질적으로 우회함으로써 탐지 파이프라인을 근본적으로 재구상합니다. 이는 하이브리드 인코더와 IoU 인식 쿼리 선택을 통해 달성되며, 이는 객체 쿼리의 초기화를 개선합니다. 이 모델은 다중 스케일 특징을 효과적으로 처리하여 야간 교통 영상 탐지와 같은 복잡한 환경에서 정교한 세부 사항을 포착할 수 있습니다.

그러나 트랜스포머는 본질적으로 자원이 많이 소모됩니다. RTDETRv2 훈련은 일반적으로 CNN 기반 대안보다 훨씬 더 GPU 연산 주기를 요구하며, 이는 엄격한 예산 제약 하에서 운영하거나 빈번한 모델 튜닝이 필요한 팀에게 장애물이 될 수 있습니다.

RTDETR에 대해 자세히 알아보세요.

성능 비교표

이러한 아키텍처를 객관적으로 평가하기 위해 COCO 에서의 성능을 검토합니다. 아래 표는 정확도(mAP), 매개변수 수, 계산 복잡도 간의 상충 관계를 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

RTDETRv2가 인상적인 정확도를 달성하는 반면, YOLOX는 특히 Nano 및 Tiny 변형 모델을 통해 경량 매개변수 프로파일 측면에서 우위를 유지합니다.

사용 사례 및 권장 사항

YOLOX와 RT-DETR 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .

욜록스를 선택해야 할 때

YOLOX는 다음과 같은 경우에 탁월한 선택입니다:

  • 앵커 프리 탐지 연구: 새로운 탐지 헤드나 손실 함수를 실험하기 위한 기준으로 YOLOX의 깔끔한 앵커 프리 아키텍처를 활용한 학술 연구.
  • 초경량 에지 디바이스: 마이크로컨트롤러 또는 레거시 모바일 하드웨어에 배포할 때 YOLOX-Nano 변형의 극히 작은 메모리 사용량(0.91M 매개변수)이 핵심적인 요소입니다.
  • SimOTA 라벨 할당 연구: 최적 수송 기반 라벨 할당 전략과 훈련 수렴에 미치는 영향을 조사하는 연구 프로젝트들.

RT-DETR 선택해야 할 때

RT-DETR 다음에 권장RT-DETR :

  • 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
  • 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

Ultralytics : YOLO26

YOLOX와 RTDETRv2 모두 각기 다른 강점을 지니고 있지만, 새롭게 출시된 Ultralytics 속도, 정확도, 배포 용이성 사이의 역사적인 상충 관계를 해결함으로써 비전 AI 분야의 최신 기술을 재정의합니다.

1. 종단 간 NMS 아키텍처

트랜스포머 모델에서 영감을 얻으면서도 CNN의 효율성을 유지하는 YOLO26은 본질적으로 엔드투엔드 NMS 억제) NMS 설계를 특징으로 합니다. 후처리 단계로서의 최대 억제(NMS)를 제거함으로써 YOLO26은 배포 파이프라인을 획기적으로 단순화하여 복잡한 임계값 조정 작업 없이도 다양한 에지 디바이스 전반에 걸쳐 일관된 추론 지연 시간을 보장합니다.

2. 최대 43% 빠른 CPU

RTDETRv2와 같은 변압기 아키텍처가 고성능 GPU에 크게 의존하는 것과 달리, YOLO26은 에지 컴퓨팅 환경에 특화되어 최적화되었습니다. 분포 초점 손실(DFL)을 제거함으로써 YOLO26은 모델 내보내기를 간소화하고 CPU 속도를 최대 43%까지 향상시켜, 라즈베리 파이 ( Raspberry Pi )나 일반 모바일 기기와 같은 하드웨어에 통합하기에 이상적인 선택입니다.

3. MuSGD를 통한 훈련 효율성

트랜스포머 모델 훈련은 종종 과도한 CUDA 소모와 긴 훈련 시간을 초래합니다. YOLO26은 확률적 경사 하강법(SGD)과 대규모 언어 모델(LLM)에서 영감을 받은 뮤온(Muon) 최적화기를 결합한 새로운 MuSGD 최적화기를도입합니다. 이 혁신은 RTDETRv2 대비 하드웨어 요구 사항을 크게 낮추면서 매우 안정적인 훈련과 더 빠른 수렴을 제공합니다.

4. 독보적인 생태계와 다용도성

Ultralytics 직관적이고 간소화된 개발자 경험을 제공합니다. 방대한 문서, 활발한 커뮤니티 지원, 클라우드 기반 Ultralytics 통해 AI 라이프사이클 전체를 관리하는 것이 그 어느 때보다 쉬워졌습니다. 또한 YOLO26은 매우 다재다능합니다. RTDETRv2가 객체 탐지에 중점을 두는 반면, YOLO26은 인스턴스 세그멘테이션, 자세 추정, 이미지 분류, 방향성 경계 상자(OBB) 작업을 원활하게 기본 지원합니다. 새로운 ProgLoss + STAL 손실 함수로 강화된 YOLO26은 항공 촬영산업용 결함 탐지에 중요한 기능인 소형 객체 인식에서도 탁월한 성능을 발휘합니다.

기타 지원 모델

Ultralytics 이전 세대인 YOLO11YOLOv8을 지원하여 사용자가 기존 파이프라인을 쉽게 벤치마킹하고 전환할 수 있도록 합니다.

Ultralytics와의 원활한 통합

모델 배포 시 복잡하고 파편화된 코드베이스와 씨름할 필요가 없습니다. Ultralytics Python 사용하면 단 몇 줄의 코드로 최첨단 모델을 로드, 훈련 및 내보낼 수 있습니다.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

Ultralytics 활용함으로써 연구 저장소와 일반적으로 연관된 복잡한 환경 구성을 우회하여 시장 출시 시간을 단축할 수 있습니다.

결론

YOLOX와 RTDETRv2는 실시간 객체 탐지 발전의 중요한 이정표입니다. YOLOX는 고효율 앵커 프리 CNN의 실현 가능성을 입증했으며, RTDETRv2는 실시간 제약 조건에 트랜스포머를 성공적으로 적용했습니다.

그러나 스마트 리테일 분석부터 임베디드 로봇 공학에 이르는 현대적 애플리케이션에 있어서는 Ultralytics 결정적인 해결책을 제공합니다. NMS 가능한 추론과 비교할 수 없는 CPU , 축소된 메모리 사용량, 그리고 Ultralytics 강력한 지원을 융합함으로써, YOLO26은 개발자들이 차세대의 신뢰할 수 있고 고성능인 컴퓨터 비전 시스템을 구축할 수 있도록 지원합니다.


댓글