콘텐츠로 건너뛰기

PP-YOLOE+ vs RTDETRv2: 실시간 객체 탐지 아키텍처에 대한 종합 가이드

컴퓨터 비전 분야는 최근 몇 년간, 특히 실시간 객체 탐지 영역에서 극적인 발전을 이루었습니다. 배포에 적합한 아키텍처를 선택하는 것은 느리고 메모리 소모가 큰 애플리케이션과 고도로 최적화되어 반응성이 뛰어난 시스템의 차이를 만들 수 있습니다. 본 기술 비교에서는 바이두의 두 가지 주요 모델인 CNN 기반 PP-YOLOE+와 트랜스포머 기반 RTDETRv2를 살펴봅니다. 두 모델의 아키텍처, 성능 지표, 이상적인 사용 사례를 분석하는 동시에 최첨단 Ultralytics 플랫폼과의 비교 평가도 진행할 것입니다.

PP-YOLOE+: CNN 패러다임의 진화

PP-YOLOE+는 기존 모델들을 반복적으로 개선하여 개발되었으며, 객체 탐지에서 전통적인 컨볼루션 신경망(CNN)이 달성할 수 있는 한계를 뛰어넘습니다. 이는 YOLO 기본 메커니즘을 기반으로 하면서 PaddlePaddle 위한 특정 최적화를 도입한, 매우 뛰어난 성능의 앵커 프리 탐지 모델입니다.

모델 상세 정보:

아키텍처와 방법론

PP-YOLOE+는 다중 스케일 특징을 효과적으로 통합하기 위해 고도로 최적화된 백본과 맞춤형 피라미드 특징 네트워크를 기반으로 합니다. 앵커 박스 생성에 일반적으로 필요한 경험적 조정 과정을 단순화하는 앵커 프리 설계를 활용합니다. 또한 학습 단계에서 예측 결과를 실제 박스와 더 잘 일치시키기 위해 고급 레이블 할당 전략을 포함한 훈련 방법론을 적용합니다.

강점 및 사용 사례

PP-YOLOE+의 주요 강점은 표준 서버 하드웨어에서의 견고한 성능과 바이두 도구와의 깊은 통합에 있습니다. 하드웨어 제약이 지나치게 엄격하지 않은 제조 환경에서의 정적 결함 탐지와 같은 전통적인 산업 워크플로우에 적합합니다.

PP-YOLOE+에 대해 자세히 알아보세요.

에코시스템 고려 사항

PP-YOLOE+는 높은 정확도를 제공하지만, 현대적인 Ultralytics 쉽게 이용할 수 있는 네이티브 내보내기 형식과 달리, 네이티브 생태계 외부에서 배포할 경우 추가 변환 단계가 필요할 수 있습니다.

RTDETRv2: 실시간 탐지 트랜스포머

순수한 CNN에서 벗어나, RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 컴퓨터 비전 작업을 위한 어텐션 기반 메커니즘으로의 도약을 의미합니다. 이는 트랜스포머의 글로벌 컨텍스트 이해 능력과 실제 응용에 필요한 낮은 지연 시간을 결합하려는 시도입니다.

모델 상세 정보:

아키텍처와 방법론

RTDETRv2는 하이브리드 아키텍처를 활용하여 특징 추출을 위한 CNN 백본과 간소화된 트랜스포머 인코더-디코더를 결합합니다. RTDETRv2의 핵심 특징은 기존의 비최대 억제(NMS) 후처리 단계를 생략하는 내장형 엔드투엔드 설계입니다. 또한 멀리 떨어진 객체 간의 공간적 관계를 이해하기 위해 셀프 어텐션을 활용하여 다중 스케일 탐지 및 복잡한 장면 처리와 같은 기능을 도입합니다.

강점 및 사용 사례

트랜스포머 아키텍처는 글로벌 컨텍스트 이해가 중요한 시나리오에서 RTDETRv2의 높은 효율성을 보장합니다. 그러나 트랜스포머 모델은 경량 CNN에 비해 훈련 및 추론 단계 모두에서 훨씬 더 많은 CUDA 요구하는 경향이 있습니다. GPU 실행되는 클라우드 기반 영상 분석과 같이 하드웨어 제약이 없는 환경에 가장 적합합니다.

RTDETR에 대해 자세히 알아보세요.

성능 및 지표 비교

이러한 모델을 평가할 때 평균 정밀도(mAP)와 계산 비용(FLOPs 및 추론 지연 시간으로 측정) 간의 균형은 가장 중요합니다. 아래 표는 PP-YOLOE+와 RTDETRv2의 다양한 규모에 대한 주요 지표를 요약합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

RTDETRv2는 높은 매개변수 수와 FLOPs를 mAP 강력한 mAP 보여주지만, 제한된 에지 디바이스에 배포하려는 개발자들은 트랜스포머 레이어의 전형적인 무거운 메모리 요구 사항으로 인해 종종 병목 현상에 직면합니다.

사용 사례 및 권장 사항

PP-YOLOE+와 RT-DETR 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 RT-DETR .

PP-YOLOE+를 선택해야 하는 경우

PP-YOLOE+는 다음에 대한 강력한 선택입니다:

  • PaddlePaddle 통합: 기존 인프라가 바이두의 PaddlePaddle 프레임워크 및 툴링을 기반으로 구축된 조직.
  • 패들 라이트 에지 배포: 패들 라이트 또는 패들 추론 엔진 전용으로 고도로 최적화된 추론 커널을 갖춘 하드웨어에 배포합니다.
  • 고정밀 서버 측 탐지: 프레임워크 의존성이 문제가 되지 않는 강력한 GPU 최대 탐지 정확도를 우선시하는 시나리오.

RT-DETR 선택해야 할 때

RT-DETR 다음에 권장RT-DETR :

  • 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
  • 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

Ultralytics : YOLO26 소개

PP-YOLOE+와 RTDETRv2 모두 중요한 이정표이지만, 현대 개발자에게는 극한의 성능과 간소화된 사용성을 완벽하게 조화시킨 생태계가 필요합니다. Ultralytics 획기적인 YOLO26 모델이 바로 이를 제공합니다.

2026년 1월 출시된 YOLO26은 에지 우선 비전 AI의 새로운 기준을 제시합니다. 기존 아키텍처의 배포 관련 장애물을 우아하게 해결하는 동시에 속도와 정확도 모두에서 이를 뛰어넘습니다.

아키텍처 혁신

YOLO26은 기존 CNN과 무거운 트랜스포머를 능가하는 여러 선구적인 개선 사항을 도입합니다:

  • 엔드투엔드 NMS 설계: RTDETRv2와 마찬가지로 YOLO26은 기본적으로 엔드투엔드 구조입니다. 비최대 억제(NMS) 후처리 단계를 제거함으로써 더 빠르고 단순한 배포가 가능하며 지연 시간 변동성을 줄여 실시간 로봇 공학 및 자율 시스템에 이상적입니다.
  • 최대 43% 빠른 CPU 성능: 심층적인 아키텍처 최적화를 통해 YOLO26은 별도의 GPU가 없는 에지 디바이스에서 경쟁 모델을 크게 능가하며, IoT 및 스마트 시티 애플리케이션을 위한 최고의 선택입니다.
  • MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받아, YOLO26은 SGD 의 하이브리드 방식을 채택합니다. 이를 통해 더 안정적인 훈련 경로와 현저히 빠른 수렴 속도를 제공하여 GPU 시간을 획기적으로 단축합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 PP-YOLOE+와 같은 모델이 역사적으로 어려움을 겪어온 소형 물체 인식 분야에서 주목할 만한 개선을 가져왔으며, 이는 항공 이미지와 드론 응용 분야에서 매우 중요함을 입증합니다.
  • DFL 제거: 분배 초점 손실(DFL) 제거는 내보내기 프로세스를 간소화하여 다양한 에지 및 저전력 장치 간 원활한 호환성을 보장합니다.

YOLO26에 대해 더 알아보기

작업별 다용도성

전문적인 객체 탐지기와 달리 YOLO26은 인스턴스 분할, 자세 추정, 분류, 방향성 바운딩 박스(OBB)를 지원하는 다목적성을 지닙니다. 자세 추정을 위한 RLE(역색상 표현) 및 OBB 전용 각도 손실과 같은 맞춤형 개선 사항을 포함합니다.

타의 추종을 불허하는 사용 편의성

RTDETRv2와 같은 복잡한 아키텍처를 도입할 때 가장 큰 단점 중 하나는 가파른 학습 곡선과 단절된 통합 프로세스입니다. Ultralytics 직관적인 Python 포괄적인 웹 기반 플랫폼을 통해 이러한 복잡성을 완전히 추상화합니다.

사용자 지정 데이터셋을 훈련하든 빠른 추론을 실행하든, 그 과정은 매끄럽습니다:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

Ultralytics YOLO 낮은 메모리 요구 사항은 트랜스포머 기반 모델 대비 더 빠른 훈련과 저렴한 하드웨어에서의 배포를 가능하게 합니다. 또한 활발한 개발과 세계적 수준의 문서화를 통해 생산 파이프라인의 안정성을 보장합니다.

대안을 모색하는 팀을 위해, YOLO11 은 생태계 내에서 여전히 높은 지지를 받는 뛰어난 전신 모델로, 레거시 하드웨어 통합을 위한 탁월한 기준점을 제공합니다. YOLO11 비교 분석도 참고하시면 유용할 것입니다.

요약

PP-YOLOE+와 RTDETRv2는 각각 고급 CNN 파이프라인과 실시간 트랜스포머의 실행 가능성을 입증하며 컴퓨터 비전 발전에 상당한 기여를 해왔습니다. 그러나 2026년에 견고하고 다용도이며 고도로 최적화된 컴퓨터 비전 애플리케이션을 배포하려는 조직에게 Ultralytics 타의 추종을 불허하는 솔루션을 제공합니다. 본질적으로 NMS 아키텍처, 현저히 빠른 CPU , 간소화된 생태계를 통해 개발자는 아이디어 구상부터 확장 가능한 생산 환경으로의 전환을 그 어느 때보다 빠르게 수행할 수 있습니다.


댓글