콘텐츠로 건너뛰기

YOLO RTDETRv2: 실시간 탐지를 위한 아키텍처

최적의 객체 탐지 아키텍처를 선택하는 것은 추론 지연 시간부터 배포 비용에 이르기까지 모든 것에 영향을 미치는 중대한 결정입니다. 현 상태에 도전장을 내민 두 혁신적인 모델은 알리바바의 YOLO 바이두의 RTDETRv2입니다.YOLO 신경망 아키텍처 검색(NAS)과 효율적인 재매개변수에YOLO 반면, RTDETRv2는 DETR 패러다임을 정교화하여 실시간 트랜스포머의 한계를 뛰어넘고 있습니다.

이 가이드는 각 모델의 아키텍처, 성능 지표 및 훈련 방법론에 대한 심층적인 기술 분석을 제공하여 특정 컴퓨터 비전 요구 사항에 적합한 모델을 결정하는 데 도움을 줍니다. 또한 차세대 Ultralytics 이 접근법들의 장점을 통합하여 사용하기 쉬운 단일 프레임워크로 어떻게 구현하는지 살펴봅니다.

DAMO-YOLO 개요

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO)는 알리바바 그룹이 개발한 모델로, 낮은 지연 시간과 높은 정확도가 필수적인 산업용 애플리케이션의 특정 요구사항을 해결하기 위해 고안되었습니다. 성능 저하 없이 모델을 압축하도록 설계된 일련의 기술을 도입합니다.

저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속: 알리바바 그룹(Alibaba Group)
날짜: 2022년 11월 23일
Arxiv:YOLO
GitHub:YOLO

YOLO26에 대해 더 알아보기

주요 아키텍처 혁신

YOLO 효율성을 위해 맞춤화된 여러 "무료 기능 모음"을 통해YOLO :

  • 신경망 구조 탐색(NAS): 수동으로 설계된 백본을 사용하는 모델과 달리,YOLO NAS를YOLO 백본에 대한 가장 효율적인 구조(MAE-NAS)를 자동으로 발견함으로써 부동 소수점 연산(FLOPs) 과 정확도 간의 균형을 최적화합니다.
  • 효율적인 RepGFPN: 재매개변수화를 활용하는 일반화된 피라미드 네트워크 (RepGFPN)를 사용합니다. 이를 통해 훈련 중 사용된 복잡한 구조를 추론 시 더 간단하고 빠른 컨볼루션으로 융합할 수 있습니다.
  • ZeroHead: 최종 예측 레이어와 관련된 전형적인 계산 부담을 최소화하는 경량 탐지 헤드.
  • AlignedOTA: 훈련 중 분류 및 회귀 작업 간의 정렬 불일치 문제를 해결하는 최적화된 레이블 할당 전략.

RTDETRv2 개요

RTDETRv2(실시간 탐지 트랜스포머 v2)는 속도 면에서 YOLO 진정으로 경쟁할 수 있는 최초의 트랜스포머 기반 탐지기인 RT-DETR 성공을 기반으로 합니다. 바이두에서 개발한 이 모델은 수렴 속도와 유연성을 향상시키면서 비최대 억제(NMS) 후처리 작업의 필요성을 없애는 것을 목표로 합니다.

저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속: Baidu
날짜: 2023년 4월 17일 (v1), 2024년 7월 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

RT-DETR에 대해 자세히 알아보세요.

주요 아키텍처 혁신

RTDETRv2는 실용적인 비전 작업을 위해 트랜스포머 아키텍처를 개선합니다:

  • 하이브리드 인코더: CNN 백본과 효율적인 하이브리드 인코더를 결합하여, 스케일 내 상호작용과 스케일 간 융합을 분리함으로써 표준 자기주의 메커니즘의 높은 계산 비용 문제를 해결합니다.
  • IoU 쿼리 선택: 이 메커니즘은 교집합 대비 합집합(IoU) 점수를 기반으로 고품질 초기 객체 쿼리를 선택하여 훈련 수렴 속도를 가속화합니다.
  • 유연한 배포: 이전 버전과 달리 RTDETRv2는 유연한 입력 형식을 지원하며 TensorRT에 대한 최적화가 개선되어 다양한 하드웨어 백엔드에서 더 효과적으로 활용할 수 있습니다.
  • NMS: 객체 집합을 직접 예측함으로써 NMS 인한 지연 시간 변동을 제거하여 실시간 영상 분석에 있어 핵심적인 이점을 제공합니다.

성능 비교

이러한 아키텍처를 비교할 때는 다양한 하드웨어 구성에서 평균 정밀도(mAP) 와 추론 속도 간의 균형을 살펴보는 것이 중요하다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

분석

  • 정확도: RTDETRv2는 일반적으로 더 높은 mAP 달성하며, 특히 중간 및 대형 변종에서 두드러집니다. "X" 모델은 인상적인 54.3% mAP 달성하여 가장 큰YOLO 능가합니다. 이는 의료 영상이나 결함 검출과 같이 고성능 검출이 필요한 응용 분야에 적합합니다.
  • 속도:YOLO TensorRT 최적화 하드웨어에서 뛰어난 성능을 발휘합니다. 재매개변수화된 CNN 아키텍처는 RTDETRv2의 트랜스포머 블록보다 본질적으로 하드웨어 친화적이어서 "Tiny" 및 "Small" 변형의 지연 시간을 낮춥니다.
  • 매개변수 효율성:YOLO 유사한 성능 등급에서 더 적은 매개변수를 가지는YOLO , 저장 공간이 제한된 에지 디바이스에 유리할 수 있습니다.

Ultralytics : 왜 YOLO26을 선택해야 할까요?

YOLO 특화된 강점을 제공하지만, 개발자들은 복잡한 훈련 파이프라인, 제한된 플랫폼 지원, 분산된 문서화로 인해 종종 어려움을 겪습니다. Ultralytics 최첨단 혁신 기술을 사용자 중심의 원활한 생태계에 통합함으로써 이러한 문제점을 해결합니다.

통합적 탁월성

YOLO26은 CNN의 속도와 트랜스포머의 종단간 단순성을 통합하여, 배포를 간소화하는 NMS(노드 간 다중 스코어링)가 필요 없는 설계를 제공하며 CPU GPU 모두에서 기존 모델들을 능가하는 성능을 발휘합니다.

1. 우수한 사용자 경험과 생태계

Ultralytics 의 특징은 사용 편의성연구 저장소는 종종 복잡한 환경 설정을 요구하지만, YOLO26은 ultralytics 패키지. Ultralytics Platform 웹 기반 데이터셋 관리, 원클릭 훈련, 자동화된 배포를 제공함으로써 이를 더욱 강화합니다.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. 종단 간 NMS 아키텍처

YOLO26은 RTDETRv2와 마찬가지로 NMS( Non-Maximum Suppression)가 NMS 네이티브 엔드투엔드 설계를 채택하지만, 고도로 최적화된 CNN 프레임워크 내에서 구현합니다. 이 혁신적인 접근 방식은 배포 파이프라인의 일반적인 병목 현상인 NMS의 필요성을 제거합니다. NMS 제거함으로써 YOLO26은 일관된 추론 시간을 보장하고 OpenVINO와 같은 도구와의 통합을 단순화합니다. OpenVINO , CoreML과 같은 도구와의 통합을 단순화합니다.

3. 훈련 효율성과 안정성

YOLO26은 SGD 뮤온(LLM 훈련에서 영감을 얻음)의 하이브리드인 MuSGD 최적화기를 도입하여 비전 작업에 전례 없는 안정성을 제공합니다. 이는 RTDETRv2와 같은 트랜스포머 기반 모델에서 흔히 요구되는 복잡한 스케줄링에 비해 더 빠른 수렴과 하이퍼파라미터 튜닝 감소가 가능하게 합니다.

4. 에지 우선 최적화

라즈베리 파이(Raspberry Pi)나 NVIDIA ( NVIDIA )과 같은 에지 디바이스에 배포하는 개발자를 위해 YOLO26은 최대 43% 더 빠른 CPU 제공합니다. 분포 초점 손실(DFL)의 제거는 모델 그래프를 내보내기 위해 더욱 단순화하여, 트랜스포머의 계산 집약적인 어텐션 메커니즘에 비해 저전력 가속기와 더 나은 호환성을 보장합니다.

5. 다양한 작업에 걸친 다용도성

많은 특수 목적 탐지기와 달리 YOLO26은 진정한 다중 작업 학습기입니다. 단일 코드베이스 내에서 객체 탐지, 인스턴스 분할, 자세 추정, 분류, 방향성 경계 상자(OBB) 작업을 지원합니다.

사용 사례 권장 사항

  • YOLO 선택하십시오: * 특정 NVIDIA TensorRT 유일한 배포 대상인 산업용 검사 작업에만 집중하고 있으며, * 단순한 탐지 작업에 대해 절대적으로 가장 낮은 지연 시간이 필요한 경우.
  • 다음과 같은 경우 RTDETRv2를 선택하십시오: - 가림 현상이 있는 복잡한 장면에서 고정밀 감지가 필요하며, 트랜스포머의 계산 비용이 허용 가능한 강력한 GPU를 사용할 수 있는 경우 - NMS 추론이 엄격한 요구사항이지만 트랜스포머 아키텍처를 선호하는 경우에도 강력한 후보입니다.
  • 다음과 같은 경우 Ultralytics 선택하십시오: 최첨단 정확도, NMS 속도, CPU, GPU 및 모바일 기기에 걸쳐 손쉽게 배포할 수 있는 기능을 갖춘 최고의 종합 성능을 원할 . 강력한 문서화, 활발한 커뮤니티 지원, Ultralytics 통합으로 인해 생산 시스템에 가장 미래 지향적인 선택입니다.

결론

객체 탐지 분야는 다양한 옵션으로 가득합니다. YOLO 효율성을 위한 신경망 구조 탐색(Neural Architecture Search)의 힘을 보여주며, RTDETRv2는 실시간 트랜스포머의 잠재력을 입증합니다. 그러나 Ultralytics 이러한 진보를 종합하여 차별화됩니다. NMS 추론이 가능하고, 에지 환경에 최적화된 속도를 제공하며, 대규모 언어 모델(LLM)에서 영감을 받은 훈련 안정성을 갖추고 있습니다. 이 모든 것이 업계에서 가장 개발자 친화적인 생태계에 통합되어 있습니다.

다음 프로젝트를 시작할 준비가 된 분들께서는 YOLO26 문서를 살펴보는 것이 마찰을 최소화하면서 최첨단(SOTA) 결과를 달성하기 위한 권장 첫 단계입니다.

추가 자료


댓글