RTDETRv2와 YOLOX: 객체 감지를 위한 기술 비교
컴퓨터 비전 프로젝트에서 올바른 물체 감지 모델을 선택하는 것은 매우 중요합니다. Ultralytics 각각 고유한 강점을 지닌 YOLO 시리즈와 RT-DETR 시리즈 등 다양한 모델을 제공합니다. 이 페이지에서는 프로젝트 요구 사항에 따라 정보에 입각한 결정을 내릴 수 있도록 물체 감지를 위한 두 가지 최신 모델인 RTDETRv2와 YOLOX의 상세한 기술 비교를 제공합니다.
RTDETRv2: 높은 정확도의 실시간 탐지
RTDETRv2(실시간 감지 트랜스포머 v2)는 높은 정확도와 실시간 성능으로 유명한 Baidu에서 개발한 고급 객체 감지 모델입니다. 2023-04-17에 소개되고 Arxiv 논문에서 자세히 설명된 RTDETRv2는 비전 트랜스포머(ViT) 아키텍처를 활용하여 최첨단 결과를 달성합니다. 공식 구현은 GitHub에서 확인할 수 있습니다.
아키텍처 및 주요 기능
RTDETRv2의 아키텍처는 비전 트랜스포머를 기반으로 하며, 자체 주의 메커니즘을 통해 이미지 내에서 글로벌 컨텍스트를 캡처할 수 있습니다. 이 트랜스포머 기반 접근 방식은 특히 복잡한 장면에서 강력한 특징 추출과 정밀한 객체 로컬라이제이션을 가능하게 합니다. 기존의 CNN 기반 모델과 달리 RTDETRv2는 이미지의 여러 부분 간의 관계를 이해하는 데 탁월하여 감지 정확도가 향상됩니다.
성능 지표
RTDETRv2 모델은 인상적인 mAP 점수를 보여주며, RTDETRv2-x와 같은 더 큰 변형은 54.3의 mAPval50-95를 달성합니다. 아래 표에는 자세한 CPU ONNX 속도 메트릭이 제공되지 않지만, TensorRT 속도는 경쟁력이 있어 NVIDIA T4 GPU와 같은 고성능 하드웨어의 실시간 애플리케이션에 적합합니다. 자세한 성능 지표는 아래 모델 비교 표를 참조하세요.
강점 및 약점
강점:
- 뛰어난 정확도: 트랜스포머 아키텍처는 뛰어난 물체 감지 정확도를 제공합니다.
- 실시간 지원: 실시간 시스템에 적합한 하드웨어 가속을 통해 경쟁력 있는 추론 속도를 달성합니다.
- 효과적인 특징 추출: 비전 트랜스포머는 글로벌 컨텍스트와 복잡한 디테일을 효과적으로 캡처합니다.
약점:
- 더 큰 모델 크기: RTDETRv2 모델, 특히 대형 버전은 매개변수 수와 FLOP이 더 많으므로 더 많은 계산 리소스를 필요로 합니다.
- 추론 속도 제한: 실시간이지만, 성능이 낮은 기기에서는 YOLOX와 같이 고도로 최적화된 모델만큼 빠르지 않을 수 있습니다.
이상적인 사용 사례
RTDETRv2는 정확성이 가장 중요하고 충분한 계산 리소스를 사용할 수 있는 애플리케이션에 가장 적합합니다. 이상적인 사용 사례는 다음과 같습니다:
- 자율주행 차량: 자율 주행 시스템의 안정적이고 정확한 환경 인식을 위해. 자율 주행 차량의 AI
- 로보틱스: 로봇이 복잡한 환경에서 사물을 정확하게 인식하고 상호 작용할 수 있도록 지원합니다. 알고리즘에서 자동화까지: 로봇 공학에서 AI의 역할
- 의료 영상: 의료 이미지의 이상 징후를 고정밀로 감지하여 진단을 지원합니다. 의료 분야의 AI
- 고해상도 이미지 분석: 위성 또는 항공 이미지와 같은 대형 이미지에 대한 상세한 분석이 필요한 애플리케이션. 컴퓨터 비전으로 위성 이미지 분석하기
YOLOX: 효율적이고 다양한 물체 감지 기능
YOLOX(You Only Look Once X)는 높은 성능과 효율성으로 유명한 Megvii에서 개발한 앵커 없는 객체 감지 모델입니다. 2021-07-18에 소개되고 아카이브 논문에서 자세히 설명된 YOLO 시리즈를 기반으로 하며, 간소화된 설계와 최첨단 결과를 제공합니다. 공식 문서에서 자세한 내용을 확인할 수 있습니다.
아키텍처 및 주요 기능
YOLOX는 앵커가 없는 접근 방식을 채택하여 사전 정의된 앵커 박스가 필요하지 않으므로 모델이 단순해지고 하이퍼파라미터가 줄어듭니다. 분류 및 로컬라이제이션을 위한 분리형 헤드가 특징이며, 훈련 효율성과 정확도를 향상시킵니다. 믹스업과 모자이크와 같은 고급 데이터 증강 기술을 활용해 견고성을 향상시킵니다. YOLOX는 빠른 속도와 효율성을 위해 설계되어 다양한 하드웨어 플랫폼에서 실시간 애플리케이션과 배포에 적합합니다.
성능 지표
YOLOX는 다양한 계산 예산과 정확도 요구 사항을 충족할 수 있도록 나노부터 대형까지 다양한 모델 크기를 제공합니다. YOLOX 모델은 속도와 정확도의 균형이 잘 잡혀 있습니다. 예를 들어, YOLOX-s는 TensorRT 빠른 추론 속도로 40.5의 mAPval50-95를 달성합니다. 다양한 YOLOX 변형에 대한 자세한 성능 메트릭은 아래 모델 비교 표를 참조하세요.
강점 및 약점
강점:
- 높은 효율성과 속도: 빠른 추론에 최적화되어 있어 실시간 애플리케이션에 이상적입니다.
- 앵커 프리 디자인: 아키텍처 및 교육 프로세스를 간소화하여 일반화를 개선합니다.
- 다양한 모델 크기: 다양한 계산 제약 조건에 맞게 다양한 모델 크기를 제공합니다.
- 강력한 성능: 속도와 정확성 사이의 균형을 잘 유지합니다.
약점:
- 정확도 트레이드오프: 효율적이지만 복잡한 시나리오에서는 RTDETRv2와 같은 트랜스포머 기반 모델보다 정확도가 약간 낮을 수 있습니다.
- 복잡한 장면에서의 성능: 단일 단계 감지기로서 일부 2단계 감지기에 비해 극도로 혼잡한 장면에서는 성능이 떨어질 수 있지만, YOLO 이전 YOLO 버전에 비해 이 차이를 크게 완화합니다.
이상적인 사용 사례
YOLOX는 속도와 효율성에 중점을 두고 실시간 물체 감지가 필요한 애플리케이션에 이상적입니다. 여기에는 다음이 포함됩니다:
- 로보틱스: 동적 환경에서의 로봇 탐색 및 상호 작용을 위한 실시간 인식. 로보틱스 분야의 AI
- 감시 시스템: 보안 및 모니터링 애플리케이션을 위한 비디오 스트림의 효율적인 객체 감지. 도난 방지를 위한 컴퓨터 비전: 보안 강화
- 산업 검사: 생산 라인에서 결함 감지 및 품질 관리를 위한 자동화된 육안 검사. 컴퓨터 비전으로 제조 공정 개선
- 에지 디바이스: 컴퓨팅 효율성이 중요한 리소스 제약이 있는 디바이스에 배포. 소니 IMX500 및 Aitrios로 엣지 AI 역량 강화
모델 비교 표
모델 | 크기(픽셀) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
욜록스나노 | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
욜록스 | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
결론
RTDETRv2와 YOLOX는 모두 강력한 객체 감지 모델이지만 우선 순위가 다릅니다. 최대 정확도가 필요하고 계산 리소스가 제한적이지 않은 경우 RTDETRv2가 더 나은 선택입니다. 반대로 YOLOX는 실시간 성능, 효율성, 저성능 하드웨어에서의 배포가 중요한 시나리오에서 탁월한 성능을 발휘합니다.
다른 옵션을 탐색하는 사용자를 위해 Ultralytics 다음과 같은 다양한 모델을 제공합니다:
- YOLOv8 및 YOLOv9: 속도와 정확도 사이에서 다양한 균형을 제공하는 YOLO 시리즈의 후속 제품. Ultralytics YOLOv8 출시 1주년: 획기적인 발전과 혁신의 1년, YOLOv9 설명서
- YOLO: 최적의 성능을 위해 신경망 아키텍처 검색을 사용하여 설계된 모델입니다. 최첨단 객체 감지 모델인 Deci AI YOLO
- FastSAM 및 MobileSAM: 실시간 인스턴스 세분화 작업용. FastSAM 문서, MobileSAM 문서
정확도, 속도, 사용 가능한 리소스 간의 균형을 신중하게 고려하여 컴퓨터 비전 프로젝트의 특정 요구 사항에 따라 RTDETRv2, YOLOX 및 기타 Ultralytics 모델 중 하나를 선택해야 합니다. 더 자세한 정보와 구현 세부 사항은 Ultralytics 설명서 및 GitHub 리포지토리를 참조하세요.