PP-YOLOE+ 대 RTDETRv2: 딥 러닝 객체 탐지 비교
객체 탐지 아키텍처의 발전은 컨볼루션 신경망(CNN)과 트랜스포머 기반 모델 간의 치열한 경쟁으로 특징지어졌다. 이 과정에서 두 가지 중요한 이정표는 PaddlePaddle 정교화된 CNN 기반 탐지기인 PP-YOLOE+와 최첨단 실시간 탐지 트랜스포머인 RTDETRv2이다.
이 기술적 비교는 연구자와 엔지니어가 특정 컴퓨터 비전 애플리케이션에 최적의 모델을 선택할 수 있도록 각 모델의 아키텍처, 성능 지표 및 배포 적합성을 평가합니다.
경영진 요약
PP-YOLOE+는YOLO 정점을 이루며, 순수 CNN 프레임워크 내에서 앵커 프리 메커니즘과 레이블 할당 전략을 정교화하는 데 중점을 둡니다. Baidu의 PaddlePaddle 깊이 통합된 환경에서는 탁월한 성능을 보이지만, 다른 생태계로 이식할 때는 마찰을 겪을 수 있습니다.
RTDETRv2 (실시간 탐지 트랜스포머 v2)는 유연하고 조정 가능한 디코더를 도입하고 하이브리드 인코더를 최적화함으로써 한계를 뛰어넘습니다. 트랜스포머의 글로벌 어텐션 기능을 활용하여 후처리 단계의 일반적인 병목 현상인 비최대 억제(NMS)의 필요성을 성공적으로 제거합니다.
그러나 CNN의 속도와 트랜스포머의 NMS(최소 수렴 시간) NMS 편리함을 결합한 통합 솔루션을 찾는 개발자들에게, 막대한 계산 오버헤드 없이도Ultralytics 탁월한 대안을 제공합니다. 본질적으로 엔드투엔드(end-to-end) 설계와 최대 43% 빠른 CPU 통해 YOLO26은 고성능 서버와 에지 디바이스 간의 격차를 해소합니다.
PP-YOLOE+: 앵커 없는 CNN의 강자
2022년에 출시된 PP-YOLOE+는 PP-YOLOE의 업그레이드 버전으로, 강력한 백본과 동적 레이블 할당을 통합하여 경쟁력 있는 정확도를 달성합니다.
저자: PaddlePaddle
기관:Baidu
날짜: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection
건축 하이라이트
PP-YOLOE+는 CSPNet의 기울기 흐름 이점과 RepVGG에서 볼 수 있는 재매개변수화 기법을 결합한 백본인 CSPRepResStage를 활용합니다. 이를 통해 모델은 복잡한 훈련 역학을 가지면서도 추론 시 단순한 컨볼루션으로 축소되어 배포 속도를 높일 수 있습니다.
이 모델은 앵커 프리 헤드와 작업 정렬 학습(TAL) 전략을 활용합니다. 사전 정의된 박스에 의존하는 기존 앵커 기반 방법과 달리, PP-YOLOE+는 물체의 중심과 경계 박스 가장자리까지의 거리를 예측합니다. 이는 하이퍼파라미터 탐색을 단순화하고 다음과 같은 다양한 데이터셋에서의 일반화 성능을 향상시킵니다. COCO과 같은 다양한 데이터셋에서의 일반화 성능을 향상시킵니다.
레거시 제약 조건
PP-YOLOE+는 강력한 성능을 제공하지만, PaddlePaddle 대한 높은 의존성으로 인해 PyTorch ONNX 표준으로 사용하는 배포 파이프라인을 복잡하게 만들 수 있습니다. 사용자는 모델을 에지 플랫폼으로 이동시키기 위해 종종 특수한 변환기가 필요합니다.
RTDETRv2: 트랜스포머의 진화
RTDETRv2는 RT-DETR 성공을 바탕으로, 실시간 시나리오에서 트랜스포머가 YOLO를 능가할 수 있음을 입증하고자 합니다. 이 모델은 다중 스케일 특징을 효율적으로 처리하는 하이브리드 인코더를 활용하여 표준 비전 트랜스포머(ViT)의 높은 계산 비용 문제를 해결합니다.
저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속: Baidu
날짜: 2023-04-17 (원본), 2024-07-24 (v2 릴리스)
Arxiv:2304.08069
GitHub:RT-DETR
건축 하이라이트
RTDETRv2의 핵심 혁신은 하이브리드 인코더와 IoU 쿼리 선택입니다. 기존 트랜스포머는 고해상도 피처 맵 처리 시 어텐션 메커니즘의 이차적 복잡도로 어려움을 겪습니다. RTDETRv2는 동일 스케일 상호작용과 크로스 스케일 융합을 분리함으로써 이를 완화하여 메모리 사용량을 크게 줄입니다.
RTDETRv2는 무엇보다도 종단간(End-to-End ) 탐지기입니다. 훈련 과정에서 헝가리 매처(Hungarian Matcher)를 활용하여 예측 결과를 진실 YOLO (ground truth)에 일대일로 할당합니다. 이는 모델 출력에 NMS 필요하지 않음을 의미하며, 기존 YOLO 관련된 지연 시간 급증 및 매개변수 조정을 피할 수 있습니다.
성능 비교
다음 표는 두 아키텍처의 성능을 비교합니다. PP-YOLOE+는 낮은 매개변수 수에서 우수한 성능을 보이지만, RTDETRv2는 더 큰 규모에서 뛰어난 확장성을 보여줍니다. 다만 더 높은 계산량(FLOPs)이 요구됩니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Ultralytics : 왜 YOLO26을 선택해야 할까요?
RTDETRv2는 NMS(GPU 객체 추적)가 필요 없는 탐지의 장점을 도입했지만, 훈련 속도가 느리고GPU 배포하기 어려운 무거운 트랜스포머 블록을 사용해야 하는 단점이 있었습니다. Ultralytics 순수 CNN 아키텍처를 활용해 엔드투엔드 NMS 프리 탐지를 구현함으로써 이 분야에 혁신을 가져왔습니다.
훈련 과정에서 일관된 이중 할당(CDA) 전략을 채택함으로써 YOLO26은 내부적으로 중복 박스를 억제하는 법을 학습합니다. 이는 트랜스포머의 지연 시간 손실 NMS 추론 오버헤드를 제거합니다.
YOLO26의 주요 장점
- MuSGD 최적화기: Moonshot AI의 Kimi K2와 같은 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받아 개발된 MuSGD 최적화기는 SGD 뮤온(Muon) SGD 결합하여 더 빠른 수렴과 안정적인 훈련을 실현합니다. 이는 YOLO26 세대에 고유한 기능입니다.
- 가장자리 최적화 효율성: 분포 초점 손실(DFL)과 복잡한 어텐션 레이어를 제거함으로써, YOLO26은 이전 버전 대비 최대 43% 빠른 CPU 달성합니다. 이는 RTDETR이 어려움을 겪는 라즈베리 파이 또는 모바일 기기에서 실행하기에 이상적입니다.
- 작업 다용도성: 주로 탐지기로 사용되는 PP-YOLOE+와 달리, YOLO26은 단일 라이브러리 내에서 자세 추정, 인스턴스 분할, OBB를 기본적으로 지원합니다.
- ProgLoss + STAL: 새로운 손실 함수는 많은 트랜스포머 모델의 치명적 약점인 소형 객체 탐지 성능을 개선하여, 항공 이미지 분석에 YOLO26이 우월함을 입증합니다.
Ultralytics 으로 간소화된 워크플로우
복잡한 설정 파일은 잊으세요. Ultralytics 통해 YOLO26 모델을 직접 훈련, 버전 관리 및 배포할 수 있습니다. 이 생태계는 데이터셋 주석 작업부터 TensorRT, CoreML, TFLite 원클릭 내보내기까지 모든 과정을 처리합니다.
코드 예제: YOLO26 시작하기
Ultralytics Python 사용하면 최신 첨단 모델을 실행하는 것이 매우 간단합니다:
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
이상적인 사용 사례
PP-YOLOE+ 사용 시기
- 레거시 패들 시스템: 기존 인프라가 완전히 바이두의 PaddlePaddle) 기반으로 구축된 경우, PP-YOLOE+는 프레임워크 변경 없이 네이티브 업그레이드 경로를 제공합니다.
- 서버 측 CNN: GPU 풍부하지만 배포 환경에서 트랜스포머 지원(예: 다중 헤드 어텐션용 TensorRT )이 부족한 시나리오를 위한 것입니다.
RTDETRv2 사용 시기
- 복잡한 장면: 트랜스포머의 글로벌 어텐션 메커니즘은 CNN이 겹치는 물체를 분리하는 데 어려움을 겪을 수 있는 중첩이 심한 장면에서 효과적이다.
- 고정형 하드웨어: 정밀도 향상 대비 트랜스포머의 행렬 곱셈 오버헤드가 무시할 수 있을 정도로 작은 고성능 GPU(예: NVIDIA 또는 A100)에 적합합니다.
Ultralytics 사용 시점
- 엣지 및 모바일 AI: 낮은 메모리 사용량과 높은 CPU 인해 YOLO26은 Android 또는 임베디드 시스템에 최적의 선택입니다.
- 실시간 영상 분석: 교통 모니터링이나 생산 라인처럼 높은 FPS가 필요한 애플리케이션의 경우, NMS 설계로 결정론적 지연 시간을 보장합니다.
- 연구 및 신속한 프로토타이핑: 방대한 문서화와 활발한 커뮤니티 지원을 통해 연구자들은 단순한 경계 상자 탐지를 넘어 다양한 작업에 사전 학습된 가중치를 활용하여 신속하게 반복 작업을 수행할 수 있습니다.
결론
PP-YOLOE+와 RTDETRv2는 모두 컴퓨터 비전 분야에 크게 기여했습니다. PP-YOLOE+는 Paddle 생태계 내에서 CNN의 한계를 뛰어넘었으며, RTDETRv2는 실시간 작업에 트랜스포머의 적용 가능성을 입증했습니다. 그러나 Ultralytics 이러한 발전의 종합체라 할 수 있습니다: CNN의 아키텍처적 단순성과 속도, 그리고 트랜스포머의 엔드투엔드 방식과 NMS 우아함을 동시에 제공합니다. Ultralytics 결합되어 현대 AI 개발을 위한 가장 다재다능한 도구로 자리매김하고 있습니다.