콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv9: 실시간 탐지 트랜스포머와 CNN 비교

컴퓨터 비전 분야는 주로 컨볼루션 신경망(CNN)과 트랜스포머 기반 모델 간에 흥미로운 아키텍처 철학의 분화를 목격해왔다. RTDETRv2와 YOLOv9 비교할 때 개발자들은 본질적으로 전역적 어텐션 메커니즘과 프로그래밍 가능한 기울기 정보 간의 장단점을 평가하고 있다. 두 모델 모두 각자의 패러다임에서 정점을 이루며 실시간 객체 탐지의 한계를 확장하고 있다.

모델 소개

RTDETRv2: 실시간 감지 트랜스포머

바이두 연구진이 개발한 RTDETRv2는 기존 RT-DETR 기반으로 'Bag-of-Freebies' 기법을 RT-DETR 실시간 탐지 트랜스포머의 성능을 향상시켰습니다. 이는 트랜스포머의 전통적인 병목 현상인 추론 속도 문제를 해결하여 실시간 애플리케이션에 적용 가능하게 합니다.

  • 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
  • 조직조직: Baidu
  • 날짜:24
  • 링크:Arxiv, GitHub

RTDETRv2의 핵심 특징은 기본적으로NMSNon-Maximum Suppression)NMS NMS 종단 간 설계입니다. 후처리 단계에서NMS 완전히 제거함으로써 모델은 추론 지연 시간을 안정화하고 배포 파이프라인을 단순화합니다. 전역 어텐션 메커니즘은 이미지 전체 컨텍스트를 동시에 평가하므로 복잡한 장면 이해와 밀집 군중 환경에서 뛰어난 성능을 발휘합니다.

RTDETRv2에 대해 자세히 알아보세요.

YOLOv9: 프로그래밍 가능한 그래디언트 정보

YOLOv9 고효율 CNN 기반 아키텍처로, 딥 뉴럴 네트워크에 내재된 정보 병목 현상 문제를 해결합니다. 프로그래머블 그라디언트 정보(PGI)와 일반화된 효율적 레이어 집계 네트워크(GELAN)를 도입합니다.

YOLOv9 검증된 컨볼루션 신경망 기반을 YOLOv9 매개변수 효율성을 극대화합니다. 전방 전달 과정에서 핵심 정보를 유지함으로써 신뢰할 수 있는 가중치 업데이트를 보장하여, 놀라울 정도로 가벼우면서도 높은 정확도를 지닌 모델을 구현합니다. 그러나 RTDETRv2와 달리 YOLOv9 표준 NMS 단계에 의존합니다.

9에 대해 자세히 알아보기

성능 및 자원 효율성

생산 환경에서 이러한 모델을 평가할 때 평균 정밀도(mAP)와 계산 비용 간의 균형을 맞추는 것이 매우 중요합니다. 아래 표는 MS COCO 성능을 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

메모리 요구 사항 및 교육 효율성

RTDETRv2와 같은 변환기는 훈련 과정에서 메모리 집약적이라는 평판을 얻고 있으며, 완전한 수렴을 위해 상당한 CUDA 더 긴 훈련 일정이 필요한 경우가 많습니다. 반면 YOLOv9 기타 Ultralytics YOLO 같은 CNN 아키텍처는 매우 낮은 메모리 사용량을 제공하여 개발자가 소비자 등급 하드웨어에서 더 큰 배치 크기로 훈련할 수 있게 합니다.

효율적인 훈련

하드웨어 활용도를 극대화하려면 효율적인 클라우드 트레이닝을 위해 Ultralytics 활용을 고려하십시오. 환경 설정과 최적의 배치 크기 조정을 자동으로 처리합니다.

Ultralytics : 생태계와 사용 편의성

공식 RTDETRv2나 YOLOv9 페이지와 같은 독립형 저장소를 연구하는 것은 매우 교육적일 수 있지만, 실제 운영 환경에서는 안정성, 사용 편의성, 그리고 잘 관리된 생태계가 요구됩니다. Ultralytics Python 통해 이러한 모델들을 통합하면 개발자에게 원활한 경험을 제공합니다.

통합 API와 다용도성

Ultralytics 데이터 로딩, 데이터 증강, 분산 훈련의 복잡성을 추상화합니다. 또한, 기존 RTDETRv2가 탐지에만 집중하는 반면, Ultralytics 사용자가 객체 탐지, 인스턴스 분할, 자세 추정 간에 쉽게 전환할 수 있도록 합니다.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

강력한 문서화, 자동 실험 추적, 그리고 다음과 같은 형식으로의 원활한 내보내기 기능을 통해 ONNX, TensorRT, OpenVINO 등의 형식으로의 원활한 내보내기 기능을 통해 Ultralytics 프로토타입에서 생산까지 걸리는 시간을 Ultralytics 단축합니다.

이상적인 사용 사례

RTDETRv2의 탁월한 점

글로벌 어텐션 메커니즘 덕분에 RTDETRv2는 서버 측 처리 및 글로벌 컨텍스트가 최우선인 환경에서 강력한 성능을 발휘합니다. 특히 다음과 같은 분야에서 탁월합니다:

  • 의료 영상: 주변 맥락이 중요한 미세한 이상 징후 식별
  • 항공 감시: 기존 CNN 컨볼루션의 공간적 편향 없이 고해상도 드론 영상에서 소형 물체를 탐지하기.
  • 밀집 군중 분석: 심한 가림 현상이 일반적으로 앵커 기반 모델을 혼란스럽게 하는 환경에서 개인 추적

YOLOv9 점

YOLOv9 자원이 제한된 에지 배포 환경의 YOLOv9 . 그 계산 효율성 덕분에 다음에 이상적입니다:

  • 로봇공학: 최소한의 지연 시간이 요구되는 실시간 내비게이션 및 장애물 회피.
  • 스마트 시티 IoT: NVIDIA 같은 에지 디바이스에 배포하여 교통 모니터링 수행.
  • 산업용 검사: 초당 프레임 수(FPS)가 높은 고속 조립 라인 품질 관리.

미래: Ultralytics 등장

YOLOv9 RTDETRv2가 획기적인 발전을 이루었지만, 기술 환경은 빠르게 진화해 왔습니다. 현대적인 배포를 위해 새로 출시된 Ultralytics 는 두 아키텍처 철학의 궁극적 시너지를 구현합니다.

트랜스포머와 CNN의 장점을 결합함으로써 YOLO26은 새로운 기준을 제시합니다:

  • 엔드투엔드 NMS 설계: RTDETRv2와 마찬가지로 YOLO26은 기본적으로 엔드투엔드 방식으로, NMS 완전히 제거하여 더 빠르고 단순하며 예측 가능한 배포 파이프라인을 구현합니다.
  • MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 기법(예: Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 SGD 의 하이브리드 방식을 활용합니다. 이는 컴퓨터 비전 분야에 비교할 수 없는 훈련 안정성과 빠른 수렴 속도를 제공합니다.
  • 최대 43% 빠른 CPU : 무거운 트랜스포머와 달리, YOLO26은 GPU가 없는 에지 컴퓨팅 및 디바이스에 최적화되어 있습니다.
  • DFL 제거: 분포 초점 손실(DFL) 제거는 모델 그래프를 획기적으로 단순화하여 저전력 에지 장치 및 임베디드 신경망 처리 장치(NPU)로의 완벽한 내보내기를 보장합니다.
  • ProgLoss + STAL: 이러한 개선된 손실 함수는 IoT 및 항공 데이터셋에 필수적인 기능인 소형 물체 인식 성능을 획기적으로 향상시킵니다.

새로운 컴퓨터 비전 프로젝트를 시작하려는 팀에게는 YOLO26을 평가해 볼 것을 강력히 권장합니다. 이 모델은 트랜스포머의 NMS 구현되는 우아함과 고도로 최적화된 YOLO 놀라운 속도 및 훈련 효율성을 동시에 제공합니다.

YOLO26에 대해 더 알아보기

요약

RTDETRv2와 YOLOv9 사이의 선택은 YOLOv9 배포 하드웨어와 특정 정확도 요구 사항에 따라 결정됩니다. RTDETRv2는 서버 기반 애플리케이션에 최첨단 정확도와 컨텍스트 인식을 제공하는 반면, YOLOv9 에지 디바이스에 탁월한 효율성을 YOLOv9 .

그러나 성숙한 Ultralytics 활용함으로써 개발자는 두 가지 모두를 손쉽게 실험할 수 있습니다. 또한 YOLO111과 같은 새로운 모델의 도입으로 YOLO11 과 네이티브 엔드투엔드 방식의 YOLO26과 같은 새로운 모델의 도입으로, 고속 추론, 다양한 작업 지원, 낮은 메모리 소비 사이의 완벽한 균형을 찾는 것이 그 어느 때보다 쉬워졌습니다.


댓글