콘텐츠로 건너뛰기

RTDETRv2와 YOLOX: 객체 감지를 위한 기술 비교

컴퓨터 비전 프로젝트에서 올바른 물체 감지 모델을 선택하는 것은 매우 중요합니다. Ultralytics 각각 고유한 강점을 지닌 YOLO 시리즈와 RT-DETR 시리즈 등 다양한 모델을 제공합니다. 이 페이지에서는 프로젝트 요구 사항에 따라 정보에 입각한 결정을 내릴 수 있도록 물체 감지를 위한 두 가지 최신 모델인 RTDETRv2와 YOLOX의 상세한 기술 비교를 제공합니다.

RTDETRv2: 높은 정확도의 실시간 탐지

RTDETRv2(실시간 감지 트랜스포머 v2)는 높은 정확도와 실시간 성능으로 유명한 Baidu에서 개발한 고급 객체 감지 모델입니다. 2023-04-17에 소개되고 Arxiv 논문에서 자세히 설명된 RTDETRv2는 비전 트랜스포머(ViT) 아키텍처를 활용하여 최첨단 결과를 달성합니다. 공식 구현은 GitHub에서 확인할 수 있습니다.

아키텍처 및 주요 기능

RTDETRv2의 아키텍처는 비전 트랜스포머를 기반으로 하며, 자체 주의 메커니즘을 통해 이미지 내에서 글로벌 컨텍스트를 캡처할 수 있습니다. 이 트랜스포머 기반 접근 방식은 특히 복잡한 장면에서 강력한 특징 추출과 정밀한 객체 로컬라이제이션을 가능하게 합니다. 기존의 CNN 기반 모델과 달리 RTDETRv2는 이미지의 여러 부분 간의 관계를 이해하는 데 탁월하여 감지 정확도가 향상됩니다.

성능 지표

RTDETRv2 모델은 인상적인 mAP 점수를 보여주며, RTDETRv2-x와 같은 더 큰 변형은 54.3의 mAPval50-95를 달성합니다. 아래 표에는 자세한 CPU ONNX 속도 메트릭이 제공되지 않지만, TensorRT 속도는 경쟁력이 있어 NVIDIA T4 GPU와 같은 고성능 하드웨어의 실시간 애플리케이션에 적합합니다. 자세한 성능 지표는 아래 모델 비교 표를 참조하세요.

강점 및 약점

강점:

  • 뛰어난 정확도: 트랜스포머 아키텍처는 뛰어난 물체 감지 정확도를 제공합니다.
  • 실시간 지원: 실시간 시스템에 적합한 하드웨어 가속을 통해 경쟁력 있는 추론 속도를 달성합니다.
  • 효과적인 특징 추출: 비전 트랜스포머는 글로벌 컨텍스트와 복잡한 디테일을 효과적으로 캡처합니다.

약점:

  • 더 큰 모델 크기: RTDETRv2 모델, 특히 대형 버전은 매개변수 수와 FLOP이 더 많으므로 더 많은 계산 리소스를 필요로 합니다.
  • 추론 속도 제한: 실시간이지만, 성능이 낮은 기기에서는 YOLOX와 같이 고도로 최적화된 모델만큼 빠르지 않을 수 있습니다.

이상적인 사용 사례

RTDETRv2는 정확성이 가장 중요하고 충분한 계산 리소스를 사용할 수 있는 애플리케이션에 가장 적합합니다. 이상적인 사용 사례는 다음과 같습니다:

RTDETRv2에 대해 자세히 알아보기

YOLOX: 효율적이고 다양한 물체 감지 기능

YOLOX(You Only Look Once X)는 높은 성능과 효율성으로 유명한 Megvii에서 개발한 앵커 없는 객체 감지 모델입니다. 2021-07-18에 소개되고 아카이브 논문에서 자세히 설명된 YOLO 시리즈를 기반으로 하며, 간소화된 설계와 최첨단 결과를 제공합니다. 공식 문서에서 자세한 내용을 확인할 수 있습니다.

아키텍처 및 주요 기능

YOLOX는 앵커가 없는 접근 방식을 채택하여 사전 정의된 앵커 박스가 필요하지 않으므로 모델이 단순해지고 하이퍼파라미터가 줄어듭니다. 분류 및 로컬라이제이션을 위한 분리형 헤드가 특징이며, 훈련 효율성과 정확도를 향상시킵니다. 믹스업과 모자이크와 같은 고급 데이터 증강 기술을 활용해 견고성을 향상시킵니다. YOLOX는 빠른 속도와 효율성을 위해 설계되어 다양한 하드웨어 플랫폼에서 실시간 애플리케이션과 배포에 적합합니다.

성능 지표

YOLOX는 다양한 계산 예산과 정확도 요구 사항을 충족할 수 있도록 나노부터 대형까지 다양한 모델 크기를 제공합니다. YOLOX 모델은 속도와 정확도의 균형이 잘 잡혀 있습니다. 예를 들어, YOLOX-s는 TensorRT 빠른 추론 속도로 40.5의 mAPval50-95를 달성합니다. 다양한 YOLOX 변형에 대한 자세한 성능 메트릭은 아래 모델 비교 표를 참조하세요.

강점 및 약점

강점:

  • 높은 효율성과 속도: 빠른 추론에 최적화되어 있어 실시간 애플리케이션에 이상적입니다.
  • 앵커 프리 디자인: 아키텍처 및 교육 프로세스를 간소화하여 일반화를 개선합니다.
  • 다양한 모델 크기: 다양한 계산 제약 조건에 맞게 다양한 모델 크기를 제공합니다.
  • 강력한 성능: 속도와 정확성 사이의 균형을 잘 유지합니다.

약점:

  • 정확도 트레이드오프: 효율적이지만 복잡한 시나리오에서는 RTDETRv2와 같은 트랜스포머 기반 모델보다 정확도가 약간 낮을 수 있습니다.
  • 복잡한 장면에서의 성능: 단일 단계 감지기로서 일부 2단계 감지기에 비해 극도로 혼잡한 장면에서는 성능이 떨어질 수 있지만, YOLO 이전 YOLO 버전에 비해 이 차이를 크게 완화합니다.

이상적인 사용 사례

YOLOX는 속도와 효율성에 중점을 두고 실시간 물체 감지가 필요한 애플리케이션에 이상적입니다. 여기에는 다음이 포함됩니다:

욜록스에 대해 자세히 알아보기

모델 비교 표

모델 크기(픽셀) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
욜록스나노 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
욜록스 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

결론

RTDETRv2와 YOLOX는 모두 강력한 객체 감지 모델이지만 우선 순위가 다릅니다. 최대 정확도가 필요하고 계산 리소스가 제한적이지 않은 경우 RTDETRv2가 더 나은 선택입니다. 반대로 YOLOX는 실시간 성능, 효율성, 저성능 하드웨어에서의 배포가 중요한 시나리오에서 탁월한 성능을 발휘합니다.

다른 옵션을 탐색하는 사용자를 위해 Ultralytics 다음과 같은 다양한 모델을 제공합니다:

정확도, 속도, 사용 가능한 리소스 간의 균형을 신중하게 고려하여 컴퓨터 비전 프로젝트의 특정 요구 사항에 따라 RTDETRv2, YOLOX 및 기타 Ultralytics 모델 중 하나를 선택해야 합니다. 더 자세한 정보와 구현 세부 사항은 Ultralytics 설명서GitHub 리포지토리를 참조하세요.

📅1 년 전 생성됨 ✏️ 1개월 전 업데이트됨

댓글