콘텐츠로 건너뛰기

PP-YOLOE+와 RTDETRv2: 기술 비교

최신 객체 감지 모델의 환경을 탐색하려면 기존의 컨볼루션 신경망(CNN) 아키텍처와 새로운 트랜스포머 기반 설계 중 하나를 선택해야 하는 경우가 많습니다. 이 기술 비교에서는 Baidu에서 개발한 두 가지 고성능 모델인 PP-YOLOE+와 RTDETRv2를 살펴봅니다. PP-YOLOE+는 PaddlePaddle 에코시스템 내에서 효율적이고 앵커가 없는 CNN의 진화를 대표하는 반면, RTDETRv2(실시간 감지 트랜스포머 버전 2)는 비전 트랜스포머를 사용하여 정확도의 한계를 뛰어넘습니다.

이 분석에서는 아키텍처 혁신, 성능 메트릭, 이상적인 배포 시나리오를 분석하여 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 줍니다.

PP-YOLOE+: 효율적인 앵커 없는 CNN

PP-YOLOE+는 PaddlePaddle 팀이 개발한 최첨단 산업용 물체 감지기입니다. 이 제품은 훈련 효율성, 추론 속도, 감지 정밀도 간의 균형을 개선하는 데 초점을 맞춘 PP-YOLOE의 업그레이드 버전입니다. YOLO (You Only Look Once) 제품군의 원칙에 기반하여 실용적인 실제 배포에 최적화된 간소화된 앵커 없는 아키텍처를 구현합니다.

아키텍처 및 핵심 기능

PP-YOLOE+는 여러 규모에서 피처를 효율적으로 추출하는 확장 가능한 CSPResNet 백본을 사용합니다. 이 아키텍처는 특징 융합을 향상시키는 CSPPAN (교차 단계 부분 경로 집계 네트워크) 넥을 사용한다는 점에서 차별화됩니다. 핵심 혁신은 효율적인 작업 정렬 헤드(ET-Head)로, 분류 작업과 로컬라이제이션 작업을 분리하는 동시에 작업 정렬 학습(TAL)을 통해 훈련 중에 정렬을 보장합니다. 이 접근 방식은 민감한 앵커 박스 하이퍼파라미터를 조정할 필요가 없습니다.

장점과 한계

PP-YOLOE+의 가장 큰 강점은 추론 속도에 있습니다. 서버급 GPU부터 엣지 디바이스까지 다양한 하드웨어에서 정확도를 크게 떨어뜨리지 않으면서도 매우 빠르게 실행되도록 설계되었습니다. 앵커가 필요 없는 설계로 학습 파이프라인을 간소화하여 새로운 데이터 세트에 쉽게 적응할 수 있습니다.

그러나 PaddlePaddle 프레임워크에 깊이 통합된 팀에게는 장애물이 될 수 있습니다. PyTorch 또는 TensorFlow 생태계에 깊이 통합된 팀에게는 장애물이 될 수 있습니다. 모델을 포팅하거나 Baidu 제품군 외부에서 호환되는 배포 도구를 찾는 과정에서 마찰이 발생할 수 있습니다.

PP-YOLOE+에 대해 자세히 알아보세요.

RTDETRv2: 트랜스포머 강국

RTDETRv2는 원래 자연어 처리용으로 설계된 트랜스포머 아키텍처를 경쟁력 있는 속도로 비전 작업에 성공적으로 적용함으로써 실시간 물체 감지 분야에서 상당한 도약을 이뤄냈습니다. 일반적으로 트랜스포머와 관련된 높은 계산 비용을 해결하여 기존 RT-DETR 기준선을 향상시키는 '공짜 백(Bag-of-Freebies)'을 제공합니다.

아키텍처 및 핵심 기능

RTDETRv2는 멀티스케일 특징을 효율적으로 처리하는 하이브리드 인코더를 사용하여 스케일 간 융합에서 스케일 내 상호 작용을 분리합니다. 이러한 설계 덕분에 이미지의 먼 부분 간의 글로벌 컨텍스트 관계, 즉CNN의 로컬 수신 필드보다 훨씬 더 효과적으로 캡처할 수 있습니다. 또한 IoU 쿼리 선택 메커니즘을 사용하여 객체 쿼리를 초기화함으로써 학습을 안정화하고 최종 감지 품질을 향상시킵니다. v2 업데이트에서는 사용자가 재학습 없이 디코더 레이어를 수정하여 추론 속도를 조정할 수 있는 유연한 디코더가 도입되었습니다.

장점과 한계

특히 물체가 가려져 있거나 시각적으로 뚜렷한 구분이 없는 복잡한 장면에서 정확도가 뛰어난 것이 RTDETRv2의 두드러진 특징입니다. 셀프 어텐션 메커니즘을 통해 모델이 장면을 전체적으로 '추론'할 수 있습니다.

리소스 집약도

이름에 "실시간"이라는 단어가 들어가 있지만, RTDETRv2와 같은 트랜스포머 기반 모델은 일반적으로 CNN보다 리소스를 더 많이 사용합니다. 일반적으로 훈련 중에 훨씬 더 많은 CUDA 메모리가 필요하고 더 높은 FLOP을 가지므로 YOLO 같은 효율적인 CNN에 비해 메모리가 제한된 에지 디바이스에서 배포가 복잡해질 수 있습니다.

RTDETRv2에 대해 자세히 알아보세요.

성능 분석: 속도 vs. 정확도

이 두 모델 간의 선택은 배포 환경의 특정 제약 조건에 따라 결정되는 경우가 많습니다. 아래 표는 평균 평균 정확도(mAP) 와 추론 지연 시간을 비교하여 장단점을 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

주요 요점:

  • 작은 모델 효율성: 스펙트럼의 작은 끝에서 PP-YOLOE+s는 훨씬 적은 매개변수(7.93M 대 20M)를 사용하면서 RTDETRv2-s보다 거의 두 배 빠릅니다(2.62ms 대 5.03ms).
  • 최고 정확도:RTDETRv2는 일반적으로 중간 범위(M 및 L 모델)에서 파라미터당 더 높은 정확도를 제공합니다. 그러나 가장 큰 PP-YOLOE+x는 지연 시간이 약간 더 짧으면서도 기본적으로 RTDETRv2-x의 정확도와 일치하거나 약간 초과합니다(54.7 대 54.3 mAP).
  • 컴퓨팅 부하: 임베디드 시스템의 배터리 수명과 발열에 영향을 미치는 연산 부하가 더 무겁다는 것을 나타내는 RTDETRv2 모델은 지속적으로 더 높은 FLOPs 수를 나타냅니다.

실제 응용 분야

PP-YOLOE+를 선택해야 하는 경우

  • 고속 제조: 밀리초 단위의 지연 시간이 중요한 고 FPS 품질 관리가 필요한 조립 라인에 적합합니다.
  • 엣지 디바이스: 드론이나 휴대용 스캐너와 같이 전력 예산이 제한된 하드웨어에 배포하는 경우, 낮은 FLOP과 매개변수 수가 중요합니다.
  • PaddlePaddle 에코시스템: 기존 인프라가 이미 바이두의 PaddlePaddle 프레임워크를 기반으로 구축되어 있는 경우.

RTDETRv2를 선택해야 하는 경우

  • 복잡한 시나리오: 사물 간의 관계(컨텍스트)를 이해하는 것이 사물 감지만큼이나 중요한 자율 주행 또는 교통 모니터링에 적합합니다.
  • 혼잡한 장면: 오클루전이 심한 감시 애플리케이션에서 트랜스포머의 글로벌 어텐션 메커니즘은 순수 CNN보다 추적 및 감지 일관성을 더 잘 유지하는 데 도움이 됩니다.

Ultralytics 이점: YOLO11 돋보이는 이유

PP-YOLOE+와 RTDETRv2는 강력한 모델입니다, Ultralytics YOLO11 은 대다수의 개발자와 연구자에게 탁월한 대안이 될 수 있는 매력적인 모델입니다.

  • 사용 편의성: Ultralytics 개발자 경험을 우선시합니다. 간단한 Python API와 CLI 사용하면 몇 분 안에 모델을 훈련, 검증, 배포할 수 있습니다. PaddleDetection이나 RT-DETR 같은 연구용 코드베이스에 종종 필요한 복잡한 구성과 달리, Ultralytics YOLO 모델은 "즉시" 작동합니다.
  • 잘 관리된 에코시스템: Ultralytics 에코시스템은 활기차고 활발하게 업데이트됩니다. 여기에는 데이터 주석, 실험 추적(예: MLflow 및 Comet) 및 배포를 위한 도구와의 원활한 통합이 포함됩니다.
  • 성능 균형:YOLO11 은 속도와 정확도 사이의 최적의 균형을 제공하도록 설계되었습니다. CNN의 속도와 메모리 효율을 유지하면서 트랜스포머 모델의 정확도와 일치하거나 능가하는 경우가 많습니다.
  • 메모리 효율성: YOLO11 중요한 장점 중 하나는 메모리 사용량이 적다는 점입니다. RTDETRv2와 같은 트랜스포머 기반 모델을 훈련하려면 엄청난 양의 GPU VRAM이 필요할 수 있습니다. YOLO11 소비자용 하드웨어에서 효율적으로 훈련할 수 있도록 최적화되어 있습니다.
  • 다목적성: 바운딩 박스에만 집중하는 많은 경쟁사와 달리 단일 YOLO11 모델 아키텍처는 객체 감지, 인스턴스 세분화, 포즈 추정, 분류OBB(지향 객체 감지)를 지원합니다.

예시: Python YOLO11 교육하기

다음 예는 더 복잡한 프레임워크 설정과 비교하여 Ultralytics 워크플로우의 단순성을 보여줍니다:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

결론

PP-YOLOE+와 RTDETRv2는 모두 컴퓨터 비전의 빠른 발전을 보여줍니다. PP-YOLOE+는 원시 효율성이 필요한 PaddlePaddle 에코시스템에 깊숙이 내장된 사용자에게 탁월한 선택이며, RTDETRv2는 트랜스포머의 높은 정확도 잠재력을 보여줍니다.

그러나 성능에 영향을 주지 않으면서도 다재다능하고 사용하기 쉬우며 커뮤니티가 지원하는 솔루션을 찾는 개발자에게는 적합하지 않습니다, Ultralytics YOLO11 이 여전히 권장되는 표준입니다. 낮은 메모리 사용량, 빠른 속도, 멀티태스크 기능이 균형을 이루고 있어 AI 솔루션을 프로토타입에서 프로덕션으로 전환하는 데 가장 실용적인 선택입니다.

다른 비교 살펴보기


댓글