콘텐츠로 건너뛰기

PP-YOLOE+와 YOLOX: 고급 앵커 없는 물체 감지 비교

최적의 객체 감지 아키텍처를 선택하려면 정확도, 추론 속도, 배포 복잡성 간의 상충 관계에 대한 깊은 이해가 필요합니다. 이 가이드에서는 Baidu의 산업용 등급 디텍터인 PP-YOLOE+와 Megvii의 고성능 앵커 프리 모델인 YOLOX의 기술적 비교를 제공합니다. 두 아키텍처 모두 앵커 프리 디텍터로의 전환에 중요한 이정표를 세웠으며, 컴퓨터 비전 엔지니어에게 강력한 솔루션을 제공합니다.

PP-YOLOE+: 바이두의 산업 우수성

PP-YOLOE+는 PaddlePaddle 저자들이 개발한 PP-YOLOE의 진화 버전으로, 다음에서 사용할 수 있습니다. Baidu. 2022년 4월에 출시된 이 제품은 포괄적인 패들디텍션 제품군의 일부입니다. 산업 애플리케이션을 위해 특별히 설계된 PP-YOLOE+는 PaddlePaddle 프레임워크의 기능을 활용하여 훈련 효율과 추론 정밀도 간의 균형을 최적화합니다.

기술 세부 사항:

아키텍처 및 주요 기능

PP-YOLOE+는 다양한 하드웨어에서 성능을 극대화하기 위한 몇 가지 아키텍처 혁신을 통해 차별화됩니다:

  • 확장 가능한 백본: 잔여 네트워크의 특징 추출 능력과 교차 단계 부분(CSP) 연결의 효율성을 결합한 백본인 CSPRepResNet을 활용합니다.
  • TAL(작업 정렬 학습): 분류 및 로컬라이제이션 작업을 동적으로 정렬하여 가장 높은 신뢰도 점수가 가장 정확한 경계 상자에 해당하도록 하는 특수 손실 함수인 TAL을 사용하는 것이 중요한 혁신입니다.
  • 효율적인 작업 정렬 헤드(ET-Head): 이 모델은 감지 헤드 설계를 간소화하는 앵커 프리 헤드를 채택하여 높은 정밀도를 유지하면서 계산 오버헤드를 줄입니다.

강점과 약점

PP-YOLOE+는 특정 배포 시나리오를 위한 강력한 솔루션이지만 에코시스템의 제약이 따릅니다.

강점:

  • 최첨단 정확도: 이 모델은 COCO 데이터 세트에서 탁월한 결과를 달성하며, PP-YOLOE+x 변형은 mAP 54.7%에 달해 결함 감지와 같은 고정밀 작업에 적합합니다.
  • 추론 효율성: PaddlePaddle 프레임워크의 연산자 융합과 같은 최적화를 통해 특히 더 큰 모델 크기에서 GPU 하드웨어에서 경쟁력 있는 속도를 제공합니다.

약점:

  • 프레임워크 종속성: 주요 의존성은 PaddlePaddle 에코시스템에 대한 주요 의존성은 표준화된 팀에게 장벽이 될 수 있습니다. PyTorch 또는 TensorFlow 표준화된 팀에게는 장벽이 될 수 있습니다.
  • 배포의 복잡성: 이러한 모델을 다른 추론 엔진(예: ONNX Runtime 또는 TensorRT)으로 포팅하려면 모든 사용자 정의 연산자를 기본적으로 지원하지 않을 수 있는 특정 변환 도구가 필요한 경우가 많습니다.

PP-YOLOE+에 대해 자세히 알아보세요.

욜록스: 닻을 내리지 않는 선구자

욜록스는 2021년 연구원들이 Megvii. 이 기술은 감지 헤드를 분리하고 앵커를 제거함으로써 즉각적인 주목을 받았는데, 이는 이전의 YOLO 반복에 비해 훈련 파이프라인을 크게 간소화한 조치였습니다. YOLOX는 학술 연구와 실제 산업 응용 사이의 간극을 메웠으며, 이후 많은 물체 감지 아키텍처에 영향을 미쳤습니다.

기술 세부 사항:

아키텍처 및 주요 기능

YOLO 제품군에 '프로 앵커 프리' 디자인 철학을 도입했습니다:

  • 디커플링된 헤드: 분류와 로컬라이제이션을 결합된 브랜치에서 수행하는 기존의 YOLO 헤드와 달리, YOLOX는 이러한 작업을 분리합니다. 이 디커플링은 수렴 속도와 최종 정확도를 향상시킵니다.
  • SimOTA 라벨 할당: YOLOX는 각 실측 데이터 객체에 대해 최적의 양성 샘플을 자동으로 선택하는 동적 라벨 할당 전략인 SimOTA (단순화된 최적 전송 할당)를 채택하여 복잡한 하이퍼파라미터 조정의 필요성을 줄입니다.
  • 앵커 프리 메커니즘: 사전 정의된 앵커 박스를 제거함으로써 YOLOX는 디자인 파라미터의 수를 줄이고 특히 종횡비가 극단적인 오브젝트 모양에 대한 일반화를 개선합니다.

강점과 약점

강점:

  • 구현의 단순성: 앵커를 제거하고 표준 PyTorch 연산을 사용하기 때문에 연구 목적으로 코드베이스를 비교적 쉽게 이해하고 수정할 수 있습니다.
  • 강력한 기준선: 고급 교육 기법 및 아키텍처 수정에 대한 학술 연구의 훌륭한 기준이 됩니다.

약점:

  • 노후화된 성능: 2021년에는 혁신적이었지만, 원시 성능 지표(속도/정확도 트레이드 오프)는 다음과 같은 최신 모델에 의해 능가되었습니다. YOLOv8 및 YOLO11 같은 최신 모델에 의해 능가되었습니다.
  • 훈련 리소스 강도: SimOTA와 같은 고급 할당 전략은 단순한 정적 할당 방식에 비해 훈련 단계에서 계산 부하를 증가시킬 수 있습니다.

레거시 지원

YOLOX는 여전히 연구 분야에서 널리 사용되고 있지만, 장기적인 지원과 적극적인 업데이트를 원하는 개발자는 프로덕션 환경에 더 유리한 최신 아키텍처를 찾을 수 있습니다.

YOLOX에 대해 자세히 알아보세요

기술 성능 비교

PP-YOLOE+와 YOLOX 중 하나를 선택할 때 표준 벤치마크의 성능 지표는 의사 결정을 위한 가장 객관적인 근거를 제공합니다. 다음 데이터는 COCO 검증 세트에서의 성능을 강조합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

분석

  • 정확도 우위: PP-YOLOE+는 비슷한 크기의 모델에서 지속적으로 YOLOX를 능가합니다. PP-YOLOE+x 모델은 54.7%의 mAP 달성하여 YOLOX-x의 51.1%보다 크게 개선되었습니다.
  • 효율성: PP-YOLOE+는 뛰어난 매개변수 효율성을 보여줍니다. 예를 들어 s 변형은 더 적은 파라미터(793만 개 대 9.0만 개)와 FLOP을 사용하면서 더 높은 정확도(43.7% 대 40.5%)를 달성합니다.
  • 추론 속도: YOLOX는 작은 크기에서는 여전히 경쟁력이 있지만, PP-YOLOE+는 GPU 하드웨어(T4 TensorRT)에서 더 잘 확장되어 정확도는 높지만 대형 및 초대형 모델에서 더 빠른 속도를 제공합니다.

Ultralytics YOLO11: 최신 표준

PP-YOLOE+와 YOLOX는 유능한 검출기이지만, 컴퓨터 비전 환경은 빠르게 진화하고 있습니다. 성능, 사용성, 에코시스템 지원의 최적의 조합을 원하는 개발자를 위한 제품입니다, Ultralytics YOLO11 은 최첨단 선택입니다.

Ultralytics YOLO11을 선택해야 하는 이유

  • 사용 편의성: 리서치 리포지토리나 프레임워크별 도구에 종종 필요한 복잡한 설정과 달리, YOLO11 간소화된 Python API와 CLI 제공합니다. 설치부터 추론까지 단 몇 초 만에 완료할 수 있습니다.
  • 잘 관리된 에코시스템: Ultralytics 모델은 빈번한 업데이트, 광범위한 문서, MLOps 도구와의 원활한 통합을 포함하는 강력한 에코시스템의 지원을 받습니다.
  • 성능 균형: YOLO11 속도와 정확도 사이에서 유리한 절충점을 제공하도록 설계되어 훈련과 추론 모두에서 메모리 요구량이 낮은 이전 세대보다 뛰어난 성능을 발휘하는 경우가 많습니다.
  • 다목적성: PP-YOLOE+와 YOLOX는 주로 바운딩 박스 감지에 중점을 두는 반면, YOLO11 기본적으로 단일 프레임워크 내에서 인스턴스 분할, 포즈 추정, 방향성 바운딩 박스(OBB) 및 분류를 지원합니다.
  • 훈련 효율성: 고급 증강 기능과 즉시 사용 가능한 사전 학습된 가중치를 활용하여 효율적인 학습을 위해 최적화된 Ultralytics 모델은 컨버전스에 도달하는 데 필요한 시간과 컴퓨팅 리소스를 줄여줍니다.

실제 사례

YOLO11 객체 감지를 구현하는 것은 직관적입니다. 다음 예는 사전 학습된 모델을 로드하고 이미지에서 추론을 수행하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

이러한 단순성은 다른 아키텍처에서 종종 요구되는 다단계 구성과 크게 대비되며, 개발자가 코드와 씨름하는 대신 비즈니스 문제 해결에 집중할 수 있도록 해줍니다.

결론

PP-YOLOE+와 YOLOX는 모두 컴퓨터 비전 분야에 큰 공헌을 해왔습니다. PP-YOLOE+는 높은 산업 정확도가 요구되는 Baidu PaddlePaddle 생태계에 깊숙이 통합된 사람들에게 탁월한 선택입니다. YOLOX는 앵커 프리 방법론을 연구하는 연구자들에게 여전히 존경받는 기준이 되고 있습니다.

그러나 대부분의 신규 프로젝트의 경우 Ultralytics YOLO11 이 가장 매력적인 패키지를 제공합니다. 최첨단 성능, 낮은 메모리 사용량, 탁월한 개발자 환경이 결합된 이 제품은 확장 가능한 실시간 추론 솔루션을 배포하는 데 있어 탁월한 선택입니다.

YOLO11에 대해 자세히 알아보세요


댓글