Link to this sectionPP-YOLOE+ 대 RTDETRv2#
컴퓨터 비전 분야는 최근 몇 년간, 특히 실시간 객체 탐지 영역에서 급격한 발전을 이루었습니다. 배포를 위해 올바른 아키텍처를 선택하는 것은 성능이 낮고 메모리를 많이 차지하는 애플리케이션과 매우 최적화되고 반응성이 뛰어난 시스템 사이의 차이를 결정할 수 있습니다. 이 기술 비교에서는 Baidu의 두 가지 주요 모델인 CNN 기반 PP-YOLOE+와 Transformer 기반 RTDETRv2를 살펴봅니다. 또한 두 모델의 아키텍처, 성능 지표, 이상적인 사용 사례를 분석하고 최첨단 Ultralytics YOLO26 플랫폼과 어떻게 비교되는지 검토합니다.
Link to this sectionPP-YOLOE+: CNN 패러다임의 발전#
이전 모델의 반복 버전으로 개발된 PP-YOLOE+는 객체 탐지에서 기존 컨볼루션 신경망(CNN)이 달성할 수 있는 한계를 넓혔습니다. 이는 YOLO 시리즈의 기본 메커니즘을 기반으로 하면서 PaddlePaddle 생태계를 위한 특정 최적화 기능을 도입한 매우 유능한 앵커 프리(anchor-free) 탐지기입니다.
모델 세부 정보:
- 저자: PaddlePaddle 저자진
- 조직: Baidu
- 날짜: 2022-04-02
- Arxiv: 2203.16250
- GitHub: PaddleDetection 저장소
- 문서: PP-YOLOE+ 문서
Link to this section아키텍처 및 방법론#
PP-YOLOE+는 다중 스케일 특징을 효과적으로 집계하기 위해 고도로 최적화된 백본과 맞춤형 특징 피라미드 네트워크에 의존합니다. 이 모델은 앵커 프리 설계를 사용하여 일반적으로 앵커 박스 생성에 필요한 휴리스틱 튜닝 과정을 단순화합니다. 또한 학습 방법론에는 학습 단계에서 예측과 정답(ground truth) 박스를 더 잘 일치시키기 위한 고급 레이블 할당 전략이 포함되어 있습니다.
Link to this section강점 및 사용 사례#
PP-YOLOE+의 주된 강점은 표준 서버 하드웨어에서의 강력한 성능과 Baidu 도구와의 긴밀한 통합에 있습니다. 이는 하드웨어 제약이 크게 제한적이지 않은 제조 환경의 정적 결함 탐지와 같은 전통적인 산업 워크플로에 적합합니다.
PP-YOLOE+는 강력한 정확도를 제공하지만, 현대적인 Ultralytics 파이프라인에서 즉시 사용 가능한 네이티브 내보내기 형식과 달리 기본 생태계 외부에서 배포하려면 때때로 추가적인 변환 단계가 필요할 수 있습니다.
Link to this sectionRTDETRv2: 실시간 탐지 트랜스포머#
순수 CNN에서 벗어난 RTDETRv2(Real-Time Detection Transformer version 2)는 컴퓨터 비전 작업을 위한 어텐션 기반 메커니즘으로의 도약을 의미합니다. 이 모델은 Transformer의 전역 문맥 이해 능력과 실제 애플리케이션에 필요한 낮은 지연 시간을 결합하려는 시도입니다.
모델 세부 정보:
- 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
- 소속 기관: Baidu
- 날짜: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2 Repository
- 문서: RTDETRv2 README
Link to this section아키텍처 및 방법론#
RTDETRv2는 특징 추출을 위한 CNN 백본과 간소화된 Transformer 인코더-디코더를 결합한 하이브리드 아키텍처를 활용합니다. RTDETRv2의 결정적인 특징은 기존의 NMS(Non-Maximum Suppression) 후처리를 우회하는 네이티브 엔드투엔드(end-to-end) 설계입니다. 또한 멀티 스케일 탐지와 복잡한 장면 처리와 같은 기능을 도입하여 셀프 어텐션을 활용해 멀리 떨어진 객체 간의 공간적 관계를 이해합니다.
Link to this section강점 및 사용 사례#
Transformer 아키텍처는 전역 문맥 이해가 중요한 시나리오에서 RTDETRv2를 매우 효과적으로 만듭니다. 그러나 Transformer 모델은 일반적으로 가벼운 CNN에 비해 학습 및 추론 과정에서 훨씬 더 많은 CUDA 메모리를 요구합니다. 이 모델은 강력한 GPU 서버에서 실행되는 클라우드 기반 비디오 분석과 같이 제약이 없는 하드웨어 환경에 가장 적합합니다.
Link to this section성능 및 지표 비교#
이러한 모델들을 평가할 때, 평균 정밀도(mAP)와 계산 비용(FLOPs 및 추론 지연 시간으로 측정) 간의 균형이 가장 중요합니다. 아래 표는 PP-YOLOE+와 RTDETRv2의 다양한 스케일에 대한 주요 지표를 요약한 것입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
RTDETRv2는 더 높은 파라미터 수와 FLOPs를 대가로 강력한 mAP를 보여주지만, 제약이 있는 엣지 장치에 배포하려는 개발자들은 종종 Transformer 레이어의 무거운 메모리 요구 사항으로 인해 병목 현상에 직면합니다.
Link to this section활용 사례 및 권장 사항#
PP-YOLOE+와 RT-DETR 중 선택하는 것은 귀하의 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 달려 있습니다.
Link to this sectionPP-YOLOE+를 선택해야 하는 경우#
PP-YOLOE+는 다음과 같은 경우 강력한 선택지입니다:
- PaddlePaddle 생태계 통합: Baidu의 PaddlePaddle 프레임워크 및 도구로 구축된 기존 인프라를 보유한 조직.
- Paddle Lite 엣지 배포: Paddle Lite 또는 Paddle 추론 엔진에 최적화된 추론 커널을 사용하는 하드웨어에 배포하는 경우.
- 고정밀 서버 측 탐지: 프레임워크 종속성이 문제가 되지 않는 강력한 GPU 서버에서 최대 탐지 정확도를 우선시하는 시나리오.
Link to this sectionRT-DETR을 선택해야 할 때#
RT-DETR 권장 대상:
- Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
- 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
- 대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.
Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#
대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:
- NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
- 소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.
Link to this sectionUltralytics의 강점: YOLO26 소개#
PP-YOLOE+와 RTDETRv2 모두 중요한 이정표를 나타내지만, 현대의 개발자는 극강의 성능과 간소화된 사용 편의성을 완벽하게 균형 잡힌 생태계를 필요로 합니다. Ultralytics Platform과 혁신적인 YOLO26 모델은 정확히 이러한 기능을 제공합니다.
2026년 1월에 출시된 YOLO26은 엣지 퍼스트(edge-first) 비전 AI의 새로운 표준을 정립합니다. 이 모델은 이전 아키텍처와 관련된 배포 장애물을 우아하게 해결하면서도 속도와 정확도 면에서 기존 모델들을 능가합니다.
Link to this section아키텍처 혁신#
YOLO26은 전통적인 CNN과 무거운 Transformer 모델들을 압도하는 몇 가지 선구적인 개선 사항을 도입했습니다:
- 엔드투엔드 NMS-Free 설계: RTDETRv2와 마찬가지로, YOLO26은 기본적으로 엔드투엔드 방식입니다. NMS(Non-Maximum Suppression) 후처리를 제거함으로써 더 빠르고 간단한 배포를 제공하며 지연 시간 지터를 줄여 실시간 로보틱스 및 자율 시스템에 이상적입니다.
- 최대 43% 더 빠른 CPU 추론: 깊이 있는 아키텍처 최적화를 통해 YOLO26은 개별 GPU가 없는 엣지 장치에서도 경쟁 모델을 크게 능가하며, IoT 및 스마트 시티 애플리케이션을 위한 최고의 선택이 되었습니다.
- MuSGD 옵티마이저: LLM 학습 혁신에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드 방식을 채택했습니다. 이는 더 안정적인 학습 궤적과 놀라울 정도로 빠른 수렴을 제공하여 GPU 학습 시간을 획기적으로 단축합니다.
- ProgLoss + STAL: 이러한 고급 손실 함수는 과거 PP-YOLOE+와 같은 모델들이 어려움을 겪었던 작은 객체 인식 분야에서 주목할 만한 개선을 제공하며, 항공 이미지 및 드론 애플리케이션에 매우 중요합니다.
- DFL 제거: Distribution Focal Loss를 제거하여 내보내기 프로세스를 단순화하고, 다양한 엣지 및 저전력 장치 간의 원활한 호환성을 보장합니다.
특화된 객체 탐지기와 달리 YOLO26은 인스턴스 세그멘테이션, 포즈 추정, 분류 및 지향성 바운딩 박스(OBB)를 지원하여 매우 다재다능합니다. 이 모델에는 포즈를 위한 RLE 및 OBB를 위한 특수 각도 손실과 같은 맞춤형 개선 사항이 포함되어 있습니다.
Link to this section비할 데 없는 사용 편의성#
RTDETRv2와 같은 복잡한 아키텍처를 채택하는 가장 큰 단점 중 하나는 가파른 학습 곡선과 분절된 통합 프로세스입니다. Ultralytics 생태계는 직관적인 Python API와 포괄적인 웹 기반 플랫폼을 통해 이러한 복잡성을 완전히 추상화합니다.
사용자 정의 데이터셋 학습을 하든 빠른 추론을 실행하든 프로세스는 원활합니다:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", quantize=16)Ultralytics YOLO 모델 특유의 낮은 메모리 요구 사항은 Transformer 기반 모델보다 더 빠르게 학습하고 더 저렴한 하드웨어에 배포할 수 있음을 의미합니다. 또한, 활발한 개발과 세계 최고 수준의 문서는 프로덕션 파이프라인의 안정성을 유지해 줍니다.
대안을 모색하는 팀들을 위해 YOLO11은 생태계 내에서 여전히 강력하게 지원받는 뛰어난 성능의 이전 버전으로, 레거시 하드웨어 통합을 위한 훌륭한 기준점을 제공합니다. YOLO11 대 RTDETR 비교 자료를 읽어보시는 것도 도움이 될 것입니다.
Link to this section요약#
PP-YOLOE+와 RTDETRv2는 각각 고급 CNN 파이프라인과 실시간 Transformer의 타당성을 입증하며 컴퓨터 비전 발전에 상당한 기여를 했습니다. 그러나 2026년에 강력하고 다재다능하며 고도로 최적화된 컴퓨터 비전 애플리케이션을 배포하려는 조직에게 Ultralytics YOLO26은 비교할 수 없는 솔루션을 제공합니다. 이 모델의 네이티브 NMS-free 아키텍처, 상당히 빠른 CPU 추론, 간소화된 생태계는 개발자가 아이디어 구상에서 확장 가능한 프로덕션으로 그 어느 때보다 빠르게 전환할 수 있도록 지원합니다.