콘텐츠로 건너뛰기

욜록스 대 PP-YOLOE+: 앵커 없는 객체 감지에 대한 심층 분석

올바른 컴퓨터 비전 아키텍처를 선택하는 것은 프로젝트 성공의 핵심이며, 계산 효율성과 감지 정밀도 사이의 균형을 맞추는 것이 중요합니다. 이 기술 비교에서는 실시간 비전 AI의 환경에 영향을 미친 두 가지 대표적인 앵커 프리 객체 감지 모델인 YOLOX와 PP-YOLOE+를 살펴봅니다. 각 모델의 아키텍처 혁신, 벤치마크 성능, 배포 고려 사항을 분석하여 귀사의 애플리케이션에 가장 적합한 모델을 결정하는 데 도움을 드립니다.

YOLOX: 단순함과 성능의 만남

Megvii가 2021년에 출시한 YOLO 앵커가 없는 메커니즘으로 전환하고 고급 감지 기술을 통합하여 YOLO 시리즈에 활기를 불어넣었습니다. 이 제품은 고성능을 유지하면서 감지 파이프라인을 단순화하여 학술 연구와 산업 응용 사이의 격차를 해소하는 것을 목표로 합니다.

기술 세부 사항:

아키텍처 및 주요 혁신

YOLO 종종 휴리스틱 튜닝이 필요했던 앵커 박스 제약 조건을 제거함으로써 이전의 YOLO 반복과 차별화됩니다. 대신 객체 감지를 그리드에서 회귀 문제로 처리하여 바운딩 박스 좌표를 직접 예측합니다.

  • 디커플링 헤드: YOLOX는 분류와 로컬라이제이션 작업을 서로 다른 분기로 분리하는 디커플링 헤드 구조를 채택하고 있습니다. 이러한 분리는 분류 신뢰도와 로컬라이제이션 정확도 사이의 충돌을 해결하여 모델 학습 중에 더 빠른 수렴을 이끌어냅니다.
  • SimOTA 라벨 할당: YOLOX의 핵심 구성 요소는 SimOTA(단순화된 최적 전송 할당)입니다. 이 동적 라벨 할당 전략은 분류 및 회귀 손실을 모두 기반으로 실측 객체를 예측과 일치시키는 비용을 계산하여 고품질 예측의 우선순위를 보장합니다.
  • 앵커 프리 디자인: 앵커 박스를 제거함으로써 YOLOX는 설계 매개변수의 수를 줄이고 네트워크의 복잡성을 단순화하여 다양한 형태의 객체에 보다 일반화할 수 있습니다.

SimOTA 이해

SimOTA는 라벨 할당 문제를 최적의 전송 작업으로 처리합니다. 글로벌 매칭 비용을 최소화하는 기준 진실에 양성 샘플을 동적으로 할당합니다. 이를 통해 모델은 수동 임계값 조정 없이도 최상의 훈련 샘플을 적응적으로 선택할 수 있어 혼잡한 장면에서 정확도를 크게 높일 수 있습니다.

강점과 약점

강점: YOLOX는 속도와 정확성 사이의 강력한 균형을 제공하므로 범용 탐지 작업에 신뢰할 수 있는 선택입니다. 앵커가 필요 없기 때문에 특정 데이터 세트에 대한 앵커를 클러스터링할 필요가 없어 배포 파이프라인을 간소화합니다. 모자이크와 MixUp 같은 강력한 데이터 증강 기술을 사용하면 더욱 견고해집니다.

약점: 출시 당시에는 혁신적이었지만, YOLOX의 CPU 추론 속도는 보다 최적화된 최신 아키텍처에 비해 뒤처질 수 있습니다. 또한 환경 설정과 트레이닝 파이프라인이 보다 통합된 최신 프레임워크에 비해 복잡할 수 있습니다.

YOLOX에 대해 자세히 알아보세요

PP-YOLOE+: 바이두의 산업 강자

PP-YOLOE+는 PaddlePaddle 생태계를 위해 바이두 팀이 개발한 PP-YOLOE 아키텍처의 발전된 버전입니다. 2022년에 출시될 이 제품은 높은 정밀도와 추론 효율성이 가장 중요한 산업 애플리케이션을 위해 특별히 설계되었습니다.

기술 세부 사항:

아키텍처 및 주요 기능

PP-YOLOE+는 앵커 프리 패러다임을 기반으로 하지만, 특히 GPU 하드웨어에서 정확도와 속도의 한계를 뛰어넘기 위해 몇 가지 최적화를 도입했습니다.

  • 백본 및 넥: 대규모 유효 수신 필드와 경로 집계 네트워크(PAN) 넥을 갖춘 CSPRepResNet 백본을 활용합니다. 이 조합은 다양한 규모에서 강력한 특징 추출을 보장합니다.
  • 작업 정렬 학습(TAL): 분류 신뢰도와 로컬라이제이션 품질 간의 불일치를 해결하기 위해 PP-YOLOE+는 TAL을 사용합니다. 이는 훈련 중에 두 작업을 명시적으로 정렬하여 가장 높은 신뢰도 점수가 가장 정확한 경계 상자에 해당하도록 보장합니다.
  • 효율적인 작업 정렬 헤드(ET-Head): ET-Head는 분리형 헤드의 장점을 유지하면서 계산 효율을 높이도록 설계되어 신속한 실시간 추론을 위해 모델을 최적화합니다.

강점과 약점

강점: PP-YOLOE+는 COCO 데이터 세트에서 뛰어난 성능을 보여주며, 비슷한 모델 크기에서 평균 평균 정밀도(mAP) 가 YOLOX를 능가하는 경우가 많습니다. 산업 결함 감지 및 정밀한 로컬라이제이션이 필요한 시나리오에 매우 효과적입니다.

약점: 가장 큰 한계는 PaddlePaddle 프레임워크에 대한 종속성입니다. 주로 PyTorch를 주로 사용하는 개발자의 경우 PP-YOLOE+를 채택하면 기존 MLOps 파이프라인과 통합하거나 모델을 다음과 같은 형식으로 변환할 때 학습 곡선이 더 가파르고 마찰이 발생할 가능성이 있습니다. ONNX.

PP-YOLOE+에 대해 자세히 알아보세요.

기술 비교: 메트릭 및 분석

YOLOX와 PP-YOLOE+를 비교하면 성능 지표에서 디자인 철학의 차이가 확연히 드러납니다. 다음 표는 다양한 모델 규모에서 두 제품의 기능을 나란히 비교한 것입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

성능 분석

  • 정확도: PP-YOLOE+는 비슷한 모델 크기에서 YOLOX보다 지속적으로 더 높은 mAP 점수를 달성합니다. 특히, PP-YOLOE+x 모델은 54.7%의 mAP 달성하여 YOLOX-x 모델을 능가합니다. 이는 세밀한 디테일을 포착하는 데 있어 작업 정렬 학습과 CSPRepResNet 백본이 효과적이라는 것을 강조합니다.
  • 효율성: 계산 비용 측면에서 PP-YOLOE+ 모델은 일반적으로 더 적은 수의 파라미터와 FLOP을 사용하여 뛰어난 정확도를 달성합니다. 이러한 효율성은 열 또는 전력 예산이 제한된 하드웨어에 정확도가 높은 모델을 배포하는 데 매우 중요합니다.
  • 속도: 추론 속도는 경쟁력이 있습니다. YOLOX-s가 다른 모델에 비해 속도 면에서 약간 우위를 점하고 있지만, 더 큰 PP-YOLOE+ 모델은 TensorRT 하드웨어에서 더 빠른 추론 시간을 보여주며 서버 측 배포에 더 나은 확장성을 제시합니다.

실제 사용 사례

이러한 모델 간의 선택은 종종 특정 운영 환경과 작업 요구 사항에 따라 달라집니다.

YOLOX 사용 사례

  • 연구 기준선: 앵커가 없는 깔끔한 아키텍처로 인해 YOLOX는 새로운 탐지 방법론 개발을 위한 기준선으로 자주 사용됩니다.
  • 로보틱스 내비게이션: 속도와 정확도 간의 균형이 잘 잡혀 있어 실시간 장애물 회피가 필요한 로보틱스 인식 모듈에 적합합니다.
  • 자율 시스템: YOLOX의 디커플링 헤드는 안정적인 바운딩 박스 회귀가 필요한 작업을 지원하며, 자율 주행 시나리오에서 물체를 추적하는 데 유용합니다.

PP-YOLOE+ 사용 사례

  • 산업 품질 관리: 이 모델의 높은 정밀도는 제조 라인의 미세한 결함을 식별하는 데 이상적이며, 이는 제조 분야에서 AI의 핵심 초점입니다.
  • 제조 분야의 엣지 AI: 산업 환경에서 자주 사용되는 하드웨어에 최적화된 내보내기 지원을 제공하는 PP-YOLOE+는 스마트 카메라와 엣지 기기에 잘 맞습니다.
  • 스마트 리테일: 재고 관리 및 진열대 모니터링과 같은 애플리케이션을 위해 혼잡한 소매 환경에서 높은 정확도를 지원합니다.

Ultralytics YOLO11: 탁월한 대안

YOLOX와 PP-YOLOE+가 지원되는 모델입니다, Ultralytics YOLO11 은 컴퓨터 비전의 최첨단을 대표하며 이전 모델의 한계를 극복하는 포괄적인 솔루션을 제공합니다. YOLO11 단순한 탐지 모델이 아니라 현대 개발자를 위해 설계된 통합 프레임워크입니다.

왜 YOLO11 선택해야 하나요?

  • 탁월한 다목적성: 주로 탐지에 초점을 맞춘 YOLOX 및 PP-YOLOE+와 달리, YOLO11 기본적으로 인스턴스 분할, 포즈 추정, OBB(방향성 바운딩 박스) 및 분류를 포함한 다양한 작업을 지원합니다. 이를 통해 단일 코드베이스로 다각적인 문제를 해결할 수 있습니다.
  • 사용 편의성: Ultralytics 개발자 경험을 우선시합니다. 간단한 Python API와 명령줄 인터페이스를 통해 설치부터 교육까지 몇 분 만에 완료할 수 있습니다. 광범위한 설명서가 제공되므로 길을 잃지 않습니다.
  • 성능 균형: YOLO11 속도와 정확도 사이의 최적의 균형을 제공하도록 설계되었습니다. 트랜스포머 기반 모델에 비해 훈련 시 메모리 요구량이 낮으면서도 최첨단 결과를 제공하므로 더 다양한 하드웨어에서 사용할 수 있습니다.
  • 잘 관리된 에코시스템: 활발한 커뮤니티와 빈번한 업데이트가 뒷받침되는 Ultralytics 에코시스템은 도구를 최신 상태로 유지합니다. 데이터 세트 관리 및 MLOps를 위한 플랫폼과의 통합으로 전체 프로젝트 수명 주기를 간소화합니다.
  • 트레이닝 효율성: 최적화된 훈련 루틴과 고품질의 사전 훈련된 가중치를 통해 YOLO11 더 빠르게 수렴하여 귀중한 컴퓨팅 시간과 에너지를 절약합니다.

YOLO11 시작하기

YOLO11 예측을 실행하는 것은 매우 간단합니다. 몇 줄의 코드만으로 이미지에서 객체를 detect 수 있습니다:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display results
results[0].show()

다른 아키텍처를 비교하고 싶으시다면 YOLO11 대 YOLOX 또는 YOLO11 대 PP-YOLOE+에 대한 분석을 통해 최신 세대의 성능이 경쟁 제품보다 어떻게 우수한지 확인해 보세요.


댓글