콘텐츠로 건너뛰기

PP-YOLOE+ vs RTDETRv2: 기술 비교

올바른 객체 감지 모델을 선택하는 것은 정확도, 추론 속도 및 계산 비용 간의 중요한 절충을 수반합니다. 이 페이지에서는 Baidu에서 개발한 두 가지 강력한 모델 간의 자세한 기술 비교를 제공합니다. 하나는 매우 효율적인 CNN 기반 감지기인 PP-YOLOE+이고 다른 하나는 최첨단 변환기 기반 모델인 RTDETRv2입니다. 둘 다 동일한 조직에서 시작되었지만 서로 다른 아키텍처 철학을 나타내며 뚜렷한 애플리케이션 요구 사항에 적합합니다.

본 비교에서는 핵심 아키텍처, 성능 지표 및 이상적인 사용 사례를 살펴보고 컴퓨터 비전 프로젝트에 가장 적합한 모델을 선택하는 데 도움을 드립니다. 또한 Ultralytics YOLO 시리즈의 모델이 어떻게 더 균형 잡히고 사용자 친화적인 대안을 제공하는지 논의할 것입니다.

PP-YOLOE+: 효율적인 CNN 기반 감지

PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus)는 Baidu에서 PaddleDetection 프레임워크의 일부로 개발한 고성능, 단일 스테이지 객체 감지기입니다. 몇 가지 주요 개선 사항을 통해 잘 확립된 YOLO 아키텍처를 기반으로 정확도와 효율성 간의 강력한 균형을 제공하도록 설계되었습니다.

아키텍처 및 주요 기능

PP-YOLOE+는 사전 정의된 앵커 박스의 필요성을 제거하고 하이퍼파라미터 튜닝을 줄여 감지 파이프라인을 단순화하는 앵커 프리(anchor-free) 검출기입니다. 이 아키텍처는 CNN(Convolutional Neural Networks)에 기반을 두고 있으며 다음과 같은 여러 최신 구성 요소를 포함합니다.

  • 효율적인 백본 및 Neck: 일반적으로 특징 추출을 위해 ResNet 또는 CSPRepResNet 백본을 사용하고, 여러 스케일에서 효과적인 특징 융합을 위해 PAN(Path Aggregation Network)을 사용합니다.
  • Decoupled Head: 이 모델은 detection head에서 분류 및 회귀 작업을 분리합니다. 이는 두 작업 간의 간섭을 방지하여 정확도를 향상시키는 것으로 알려진 기술입니다.
  • Task Alignment Learning (TAL): PP-YOLOE+는 분류 점수와 지역화 정확도를 더 효과적으로 정렬하기 위해 Task Alignment Learning이라는 특수 손실 함수를 사용하여 보다 정확한 탐지를 가능하게 합니다.

강점과 약점

강점:

  • 뛰어난 속도-정확도 균형: 성능과 추론 속도 간의 경쟁력 있는 균형을 제공하므로 많은 실제 애플리케이션에 적합합니다.
  • Anchor-Free 단순성: 앵커 프리 설계는 모델 복잡성을 줄이고 훈련 프로세스를 간소화합니다.
  • PaddlePaddle 생태계: PaddlePaddle 딥 러닝 프레임워크에 깊이 통합되고 최적화되었습니다.

약점:

  • 프레임워크 종속성: PaddlePaddle에 대한 주요 최적화는 PyTorch와 같이 더 일반적인 프레임워크를 사용하는 개발자에게 통합 문제를 일으킬 수 있습니다.
  • 제한적인 다용도성: PP-YOLOE+는 주로 객체 감지기이며 Ultralytics와 같은 프레임워크에서 볼 수 있는 분할 또는 포즈 추정과 같은 다른 비전 작업에 대한 기본 지원이 부족합니다.

PP-YOLOE+에 대해 자세히 알아보세요.

RTDETRv2: Transformer 코어를 통한 고정밀

RTDETRv2(Real-Time Detection Transformer version 2)는 Baidu의 또 다른 최첨단 모델이지만 Vision Transformer(ViT)를 통합하여 다른 아키텍처 접근 방식을 취합니다. 이는 실시간 성능을 유지하면서 정확도의 경계를 넓히는 것을 목표로 합니다.

아키텍처 및 주요 기능

RTDETRv2는 CNN과 트랜스포머의 강점을 결합한 하이브리드 아키텍처를 특징으로 합니다. 이 설계를 통해 로컬 특징과 전역 컨텍스트를 모두 효과적으로 캡처할 수 있습니다.

  • 하이브리드 백본: 이 모델은 CNN 백본을 사용하여 초기 특징 맵을 추출한 다음 Transformer 인코더에 공급합니다.
  • Transformer 인코더: Transformer 레이어의 self-attention 메커니즘은 모델이 이미지 내 객체 간의 장거리 종속성 및 관계를 이해할 수 있도록 하여 뛰어난 컨텍스트 이해를 가능하게 합니다.
  • Anchor-Free 쿼리: DETR 기반 모델과 마찬가지로 학습 가능한 객체 쿼리 집합을 사용하여 객체를 감지하므로 추론 중에 Non-Maximum Suppression (NMS)와 같은 복잡한 후처리 단계가 필요하지 않습니다.

강점과 약점

강점:

  • 최첨단 정확도: 트랜스포머 아키텍처는 뛰어난 특징 추출을 가능하게 하여, 특히 객체가 많은 복잡한 장면에서 더 높은 mAP 점수를 얻을 수 있습니다.
  • 탁월한 상황 이해: 전역 컨텍스트가 중요한 복잡한 환경에서 객체 감지에 탁월합니다.
  • 실시간 최적화: RTDETRv2는 복잡성에도 불구하고 높은 정확도와 실시간 추론 속도의 균형을 맞추도록 최적화되었습니다.

약점:

  • Computational Complexity: Transformer 기반 모델은 본질적으로 CNN 모델보다 더 복잡하고 리소스 집약적입니다.
  • 높은 메모리 사용량: RTDETRv2 훈련은 일반적으로 Ultralytics YOLO 시리즈와 같은 효율적인 CNN 모델에 비해 훨씬 더 많은 CUDA 메모리와 더 긴 훈련 시간이 필요합니다.

RTDETRv2에 대해 자세히 알아보세요.

정면 성능 비교: 정확도 vs. 속도

PP-YOLOE+와 RTDETRv2를 비교할 때 주요 절충점은 순수 CNN 설계의 균형 잡힌 효율성과 하이브리드 트랜스포머 아키텍처의 최고 정확도 사이의 절충입니다.

모델 크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

표에서 다음 사항을 관찰할 수 있습니다.

  • 정확도: RTDETRv2 모델은 일반적으로 유사한 크기의 PP-YOLOE+ 모델보다 더 높은 mAP 점수를 달성합니다(예: 53.4 mAP의 RTDETRv2-l vs. 52.9 mAP의 PP-YOLOE+l). 가장 큰 PP-YOLOE+x 모델은 RTDETRv2-x를 약간 앞서지만, 파라미터 수가 더 많습니다.
  • 속도: PP-YOLOE+ 모델, 특히 더 작은 버전은 더 빠른 추론 속도를 보여줍니다. 예를 들어 PP-YOLOE+s는 모든 RTDETRv2 모델보다 훨씬 빠릅니다.
  • 효율성: PP-YOLOE+ 모델은 종종 더 적은 파라미터와 FLOP으로 성능을 달성하여 리소스가 제한된 하드웨어에 배포하는 데 더 효율적입니다.

Ultralytics의 장점: 비교를 넘어서

PP-YOLOE+와 RTDETRv2는 모두 강력하지만, 개발자는 종종 모델 그 이상, 즉 포괄적이고 사용자 친화적인 생태계가 필요합니다. YOLOv8 및 최신 YOLO11과 같은 Ultralytics 모델은 바로 이러한 점에서 뛰어납니다.

  • 사용 편의성: Ultralytics는 간소화된 Python API, 광범위한 documentation 및 간단한 CLI commands를 제공하여 모델을 매우 쉽게 학습, 검증 및 배포할 수 있습니다.
  • 잘 관리되는 에코시스템: Ultralytics 프레임워크는 GitHub에서 강력한 커뮤니티 지원과 함께 활발하게 개발되고 있으며 원활한 MLOps를 위해 Ultralytics HUB와 같은 도구와 통합되어 있습니다.
  • 성능 균형: Ultralytics YOLO 모델은 속도와 정확도의 뛰어난 균형으로 유명하며, 엣지 장치에서 클라우드 서버에 이르기까지 모든 것에 적합합니다.
  • 메모리 효율성: Ultralytics YOLO 모델은 메모리 효율적으로 설계되었으며, 일반적으로 RTDETRv2와 같은 트랜스포머 기반 모델에 비해 학습 및 추론에 필요한 CUDA 메모리가 더 적습니다.
  • 다재다능함: 감지에 중점을 둔 PP-YOLOE+ 및 RTDETRv2와 달리 YOLO11과 같은 모델은 인스턴스 분할, 분류, 자세 추정방향이 지정된 객체 감지를 포함하여 여러 작업을 즉시 지원합니다.
  • 학습 효율성: 즉시 사용 가능한 사전 학습된 가중치와 효율적인 학습 프로세스를 통해 개발자는 최첨단 결과를 더 빠르게 얻을 수 있습니다.

결론: 어떤 모델이 적합할까요?

PP-YOLOE+와 RTDETRv2 중에서 선택하는 것은 프로젝트의 특정 우선 순위에 크게 좌우됩니다.

  • PP-YOLOE+ 선택은 PaddlePaddle 에코시스템 내에서 작업하고 속도가 핵심 요소인 범용 객체 감지 작업을 위해 고효율적이고 균형 잡힌 CNN 기반 감지기가 필요한 경우에 선택하십시오. 스마트 소매산업 자동화와 같은 애플리케이션에 적합합니다.

  • 특히 복잡한 시각적 장면에서 최대 정확도를 달성하는 것이 주요 목표이고 더 까다로운 아키텍처를 처리할 수 있는 컴퓨팅 리소스가 있는 경우 RTDETRv2를 선택하십시오. 자율 주행 차량 및 고급 로봇 공학과 같은 중요한 응용 분야에 적합합니다.

그러나 대부분의 개발자와 연구자에게 YOLO11과 같은 Ultralytics YOLO 모델이 가장 매력적인 옵션입니다. 전체 개발 수명 주기를 가속화하는 강력하고 적극적으로 유지 관리되는 생태계에서 지원되는 성능, 다재다능함, 사용 편의성의 뛰어난 조합을 제공합니다.

다른 모델 비교 살펴보기



📅 1년 전에 생성됨 ✏️ 1개월 전에 업데이트됨

댓글