콘텐츠로 건너뛰기

YOLOv9 RTDETRv2: 현대 객체 탐지 기술에 대한 심층 분석

실시간 객체 탐지 분야는 최근 몇 년간 패러다임 전환을 경험했습니다. 이 분야를 주도하는 두 가지 뚜렷한 아키텍처 철학이 등장했는데, 고도로 최적화된 컨볼루션 신경망(CNN)과 실시간 탐지 트랜스포머(DETR)입니다. 이 두 접근법의 정점을 대표하는 것은 YOLOv9RTDETRv2가 대표합니다.

이 포괄적인 가이드는 두 가지 강력한 모델을 비교하여, 각각의 아키텍처 혁신, 성능 지표 및 이상적인 배포 시나리오를 분석함으로써 컴퓨터 비전 파이프라인에 적합한 모델을 선택하는 데 도움을 드립니다.

경영진 요약

두 모델 모두 최첨단 성능을 달성하지만, 약간 다른 배포 제약 조건과 개발 생태계를 대상으로 합니다.

  • YOLOv9 선택하십시오: 가장 효율적인 매개변수 활용과 에지 디바이스에서의 빠른 추론이 필요합니다. YOLOv9 CNN 효율성의 이론적 한계를 YOLOv9 , 계산 자원이 극도로 제한된 환경에 이상적입니다.
  • 다음과 같은 경우 RTDETRv2를 선택하십시오: 트랜스포머가 제공하는 미묘한 컨텍스트 이해가 필요한 경우, 특히 심한 가림 현상이 발생하거나 복잡한 객체 관계가 존재하는 장면에서, 그리고 약간 더 무거운 아키텍처를 지원할 수 있는 하드웨어를 보유하고 있는 경우.
  • 다음과 같은 경우 YOLO26(권장)을 선택하십시오: 두 가지 장점을 모두 누리고 싶을 때. Ultralytics 제공되는 최신 세대 모델인 YOLO26은 네이티브 엔드투엔드 NMS 설계 (DETR 모델과 유사하지만 훨씬 빠름)를 특징으로 하여 후처리 병목 현상을 제거하고 이전 세대 대비 최대 43% 빠른 CPU 제공합니다.

기술 사양 및 저작권

이러한 모델들의 기원과 설계 의도를 이해하는 것은 그들의 건축적 선택에 대한 중요한 맥락을 제공한다.

9

저자: 왕젠야오(Chien-Yao Wang) 및 리아오홍위안(Hong-Yuan Mark Liao)
소속기관:중앙연구원 정보과학연구원
날짜: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9

9에 대해 자세히 알아보기

RTDETRv2

저자: 룽원위(吕文宇), 자오이안(赵一安), 창친야오(常勤耀), 황쿠이(黄奎), 왕관종(王冠中), 류이(刘毅)
소속:바이두(Baidu) 날짜: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR

RTDETR에 대해 자세히 알아보세요.

아키텍처 혁신

YOLOv9: 정보 병목 현상 해결

Ultralytics YOLOv9 딥 뉴럴 네트워크를 통과하는 데이터의 정보 손실을 해결하기 위해 고안된 두 가지 주요 혁신을 도입합니다:

  1. 프로그래머블 그라디언트 정보(PGI): 이 보조 감독 프레임워크는 네트워크 가중치를 업데이트하기 위해 신뢰할 수 있는 그라디언트가 생성되도록 보장하며, 매우 깊은 네트워크 계층에서도 핵심 특징 정보를 보존합니다.
  2. 일반화된 효율적 레이어 집계 네트워크(GELAN): CSPNet과 ELAN의 장점을 결합한 새로운 아키텍처입니다. GELAN은 매개변수 효율성을 최적화하여 YOLOv9 기존 CNN 대비 더 적은 FLOPs로 더 높은 정확도를 YOLOv9 합니다.

RTDETRv2: 실시간 트랜스포머 강화

RT-DETR 성공을 바탕으로, RTDETRv2는 트랜스포머 기반 아키텍처를 활용하여 본질적으로 비최대 억제(NMS)의 필요성을 제거합니다. 개선된 사항은 다음과 같습니다:

  1. 무료 제공 전략: v2 버전은 추론 지연 시간에 추가 부담 없이 정확도를 크게 향상시키는 고급 훈련 기법과 데이터 증강 기술을 적용합니다.
  2. 효율적인 하이브리드 인코더: 분리된 동일 스케일 및 교차 스케일 어텐션 메커니즘을 통해 다중 스케일 특징을 처리함으로써, RTDETRv2는 비전 트랜스포머의 전통적으로 높은 계산 비용을 효율적으로 관리합니다.

네이티브 종단 간 탐지

RTDETRv2가 NMS 탐지를 수행하기 위해 트랜스포머를 활용하는 반면, 새로운 YOLO26 아키텍처는 고도로 최적화된 CNN 구조 내에서 이를 본질적으로 달성하여 동일한 간소화된 배포를 제공하면서도 훨씬 뛰어난 에지 추론 속도를 구현합니다.

성능 비교

생산용 모델을 평가할 때 정확도와 계산 요구 사항 간의 균형은 매우 중요합니다. 아래 표는 표준 벤치마크에서 다양한 모델 크기의 성능을 요약한 것입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

분석

데이터가 보여주듯이, YOLOv9 매개변수 효율성 측면에서 압도적인 우위를 유지합니다. YOLOv9c 모델은 단 2530만 개의 mAP 인상적인 53.0 mAP 달성하여 놀라울 정도로 가벼운 모델입니다.

반면 RTDETRv2는 중대형 모델 범주에서 강력한 경쟁력을 보여줍니다. 그러나 이는 트랜스포머 모델의 전형적인 특징인 더 높은 매개변수 수와 현저히 큰 FLOPs를 대가로 합니다. 이러한 아키텍처 차이는 메모리 사용량에도 반영됩니다: YOLO 일반적으로 트랜스포머 기반 모델에 비해 훈련 및 추론 과정에서 훨씬 적은 CUDA 요구합니다.

Ultralytics : 생태계와 다용도성

순수한 아키텍처 지표도 중요하지만, 소프트웨어 생태계가 종종 AI 프로젝트의 성공을 좌우합니다. Ultralytics Python 통해 이러한 고급 모델에 접근하는 것은 비교할 수 없는 이점을 제공합니다.

효율화된 훈련 및 배치

탐지 트랜스포머 훈련에는 일반적으로 복잡한 구성 파일과 고성능 GPU가 필요합니다. Ultralytics 활용하면 개발자는 동일한 간단한 구문으로 YOLOv9 RTDETR 모델을 모두 훈련할 수 있으며, 고효율 훈련 파이프라인과 즉시 사용 가능한 사전 훈련된 가중치의 이점을 누릴 수 있습니다.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

타의 추종을 불허하는 작업 다용도성

RTDETRv2와 같은 특화 모델의 주요 한계는 바운딩 박스 탐지에만 집중한다는 점이다. 반면, Ultralytics 더 광범위하여 다음과 같은 모델들을 포괄한다. YOLO11YOLOv8과 같은 모델을 포함하는 더 광범위한 Ultralytics 생태계는 다양한 컴퓨터 비전 작업을 지원합니다. 여기에는 픽셀 단위의 인스턴스 분할, 골격 자세 추정, 전체 이미지 분류, 항공 이미지를 위한 방향성 바운딩 박스(OBB) 탐지가 포함됩니다.

실제 응용 분야

고속 엣지 분석

소매 환경이나 제조 라인에서 에지 디바이스 상의 실시간 제품 인식이 필요한 경우, YOLOv9 이 탁월한 선택입니다. GELAN 아키텍처는 NVIDIA 시리즈와 같은 제한된 하드웨어에서도 높은 처리량을 보장하여, 상당한 지연 없이 자동화된 품질 관리를 가능하게 합니다.

복잡한 장면 분석

밀집 군중 모니터링이나 복잡한 교통 교차로처럼 물체들이 서로를 자주 가리는 시나리오에서 RTDETRv2의 글로벌 어텐션 메커니즘이 빛을 발합니다. 이 모델은 전체 이미지 컨텍스트에 대해 본질적으로 추론할 수 있는 능력을 갖추고 있어, 물체가 부분적으로 가려져 있을 때에도 견고한 추적 및 탐지 성능을 유지합니다.

사용 사례 및 권장 사항

YOLOv9 RT-DETR 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .

9 선택해야 할 때

YOLOv9 다음과 같은 경우에 강력한 YOLOv9 :

  • 정보 병목 연구: 프로그래머블 그라디언트 정보(PGI) 및 일반화된 효율적 레이어 집계 네트워크(GELAN) 아키텍처를 연구하는 학술 프로젝트.
  • 경사 흐름 최적화 연구: 훈련 과정에서 심층 신경망 레이어에서 발생하는 정보 손실을 이해하고 완화하는 데 초점을 맞춘 연구.
  • 고정밀도 탐지 벤치마킹: YOLOv9 강력한 COCO 성능이 아키텍처 비교를 위한 기준점으로 필요한 시나리오들.

RT-DETR 선택해야 할 때

RT-DETR 다음에 권장RT-DETR :

  • 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
  • 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

미래: YOLO26의 등장

YOLOv9 RTDETRv2가 엄청난 성과를 보여주고 있지만, 컴퓨터 비전 분야는 빠르게 진화하고 있습니다. 새로운 프로젝트를 시작하려는 개발자들에게는 YOLO26 가 권장되는 최신 기술 솔루션입니다.

2026년에 출시된 YOLO26은 CNN과 DETR의 장점을 모두 통합합니다. 이 모델은 엔드투엔드 NMS 설계를 특징으로 하여 후처리 지연을 완전히 제거합니다. 이 기술은 최초로 YOLOv10에서 최초로 개발된 기술입니다. 또한 YOLO26은 더 나은 에지 호환성을 위해 분포 초점 손실(DFL)을 제거하고 혁신적인 MuSGD 최적화기를 도입했습니다. 대규모 언어 모델 훈련(특히 Moonshot AI의 Kimi K2)에서 영감을 받은 이 하이브리드 최적화기는 전례 없는 훈련 안정성과 더 빠른 수렴을 보장합니다.

ProgLoss 및 STAL과 같은 향상된 손실 함수를 결합하여 초소형 객체 인식 성능을 극대화한 YOLO26은 CPU 속도를 최대 43%까지 향상시켜 현대 AI 배포를 위한 최상의 모델로서의 입지를 공고히 합니다.


댓글