PP-YOLOE+ 대 YOLOX: 실시간 객체 탐지기의 진화 탐색
컴퓨터 비전 분야는 객체 탐지 모델의 급속한 진화에 의해 크게 형성되어 왔다. 이 과정에서 주목할 만한 이정표로는 실시간 성능과 정확도의 한계를 뛰어넘은 두 가지 아키텍처인 PP-YOLOE+와 YOLOX가 있다. 차세대 시각 인식 시스템을 구축하는 연구자와 개발자에게는 이들 아키텍처의 미묘한 차이, 성능 상의 절충점, 그리고 이상적인 배포 시나리오를 이해하는 것이 중요하다.
모델 계보 및 세부 사항
기술적 아키텍처에 대해 자세히 살펴보기 전에, 두 모델의 기원을 맥락화하는 것이 도움이 됩니다. 각 모델은 객체 탐지에서 발생하는 특정 병목 현상을 해결하기 위해 개발되었으며, 이를 지원하는 기관들의 영향이 크게 반영되었습니다.
PP-YOLOE+ 상세 정보:
- 저자: PaddlePaddle Authors
- 기관: Baidu
- 날짜: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: PaddlePaddle
- 문서: PaddleDetection PP-YOLOE+ 사용 설명서
YOLOX 세부 정보:
- 저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li 및 Jian Sun
- 기관: Megvii
- 날짜: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- 문서: YOLOX 공식 문서
아키텍처 혁신
이 두 탐지기의 핵심적인 차이는 특징 추출과 경계 상자 예측에 대한 접근 방식에 있습니다.
YOLOX는 2021년 앵커 박스 없는 설계로 YOLO 성공적으로 개량하며 주목을 받았습니다. 앵커 박스를 제거함으로써 YOLOX는 맞춤형 데이터셋에 필요한 설계 매개변수와 경험적 조정 작업을 크게 줄였습니다. 또한 분리형 헤드를 도입하여 분류와 위치 추정 작업을 별개의 신경 경로로 분리했습니다. 이 분리는 객체 분류와 공간 좌표 회귀 간의 내재적 갈등을 해결하여 훈련 중 수렴 속도를 가속화했습니다.
바이두가 개발한 PP-YOLOE+는PaddlePaddle 생태계에 최적화되어 있습니다. 동적 레이블 할당 전략(TAL)과 CSPRepResNet이라는 새로운 백본을 도입하여 전작인 PP-YOLOv2를 발전시켰습니다. 이 백본은 구조적 재매개변수화를 활용하여 훈련 중 복잡한 다중 분기 아키텍처의 이점을 누리면서도 추론 시에는 빠르고 단일 경로 네트워크로 원활하게 전환됩니다.
구조적 재매개변수화
구조적 재매개변수화는 모델이 여러 병렬 분기로 훈련하도록 허용하며(경사 흐름 개선), 이후 배포를 위해 해당 분기들을 수학적으로 단일 컨볼루션 레이어로 통합하여 정확도를 저하시키지 않으면서 추론 속도를 향상시킵니다.
성능 및 지표 비교
이 두 모델을 직접 비교해 보면, 성능 스펙트럼의 서로 다른 끝을 약간씩 담당한다는 점이 분명해집니다. PP-YOLOE+는 일반적으로 더 높은 절대 정확도를 달성하는 반면, YOLOX는 하드웨어 제약이 심한 환경에 적합한 극도로 경량화된 변형을 제공하는 데 탁월합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
참고: 각 관련 열 segment 가장 우수한 성능을 보인 값은 굵은 글씨로 강조 segment .
YOLOX는 디스크 공간이나 CUDA 거의 차지하지 않는 나노 및 타이니 변형을 제공하는 반면, PP-YOLOE+는 서버급 하드웨어에 놀라울 정도로 잘 확장되어 바이두 생태계 내 중공업 애플리케이션을 위한 강력한 선택지입니다.
실제 응용 분야
이러한 프레임워크 중 선택하는 것은 종종 통합 요구사항과 하드웨어 대상에 따라 결정됩니다.
YOLOX가 뛰어난 점
앵커 프리 특성과 극단적인 에지 변형 가능성 덕분에 YOLOX는 로봇 공학 및 마이크로컨트롤러 배포 분야에서 널리 사용됩니다. 간단한 후처리 파이프라인 덕분에 TensorRT와 같은 맞춤형 NPU 하드웨어 형식으로의 이식이 용이합니다. TensorRT 및 NCNN와 같은 맞춤형 NPU 하드웨어 형식으로의 이식이 용이합니다.
PP-YOLOE+의 탁월한 점
아시아 제조 허브에 깊이 통합되어 바이두 기술 스택을 활용하는 조직을 위해 PP-YOLOE+는 사전 최적화된 배포 경로를 제공합니다. 강력한 서버 랙에서 실행되는 고정밀 품질 검사 시나리오에서 특히 탁월한 성능을 발휘하며, 엄격한 실시간 제약 조건으로 인해 모델 가중치가 다소 무거워도 문제없습니다.
사용 사례 및 권장 사항
PP-YOLOE+와 YOLOX 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
PP-YOLOE+를 선택해야 하는 경우
PP-YOLOE+는 다음에 대한 강력한 선택입니다:
- PaddlePaddle 통합: 기존 인프라가 바이두의 PaddlePaddle 프레임워크 및 툴링을 기반으로 구축된 조직.
- 패들 라이트 에지 배포: 패들 라이트 또는 패들 추론 엔진 전용으로 고도로 최적화된 추론 커널을 갖춘 하드웨어에 배포합니다.
- 고정밀 서버 측 탐지: 프레임워크 의존성이 문제가 되지 않는 강력한 GPU 최대 탐지 정확도를 우선시하는 시나리오.
욜록스를 선택해야 할 때
YOLOX는 다음에 권장됩니다:
- 앵커 프리 탐지 연구: 새로운 탐지 헤드나 손실 함수를 실험하기 위한 기준으로 YOLOX의 깔끔한 앵커 프리 아키텍처를 활용한 학술 연구.
- 초경량 에지 디바이스: 마이크로컨트롤러 또는 레거시 모바일 하드웨어에 배포할 때 YOLOX-Nano 변형의 극히 작은 메모리 사용량(0.91M 매개변수)이 핵심적인 요소입니다.
- SimOTA 라벨 할당 연구: 최적 수송 기반 라벨 할당 전략과 훈련 수렴에 미치는 영향을 조사하는 연구 프로젝트들.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
Ultralytics의 강점: YOLO26의 등장
PP-YOLOE+와 YOLOX는 탁월한 연구 성과이지만, 현대적인 배포 환경에서는 더 높은 효율성과 함께 일관성 있고 개발자 친화적인 경험이 요구됩니다. 바로 이 점에서 Ultralytics 현대 시각 AI의 기준을 완전히 재정의합니다.
분리된 연구 저장소에서 생산 환경으로 전환하려는 팀을 위해 Ultralytics 강력하고 잘 관리되는 생태계를 Ultralytics . 모델 훈련을 위해 복잡한 환경을 구성할 필요가 없어졌으며, 통합된 Python 접근하는 것만큼 간단합니다.
Ultralytics YOLO26의 주요 장점은 다음과 같습니다:
- 엔드투엔드 NMS 설계: 중복 경계 상자를 필터링하기 위해 비최대 억제(NMS)가 필요한 PP-YOLOE+ 및 YOLOX와 달리, YOLO26은 본질적으로 엔드투엔드 방식입니다. 이는 지연 병목 현상을 제거하고 배포 로직을 극적으로 단순화합니다.
- 최대 43% 빠른 CPU : 분포 초점 손실(DFL)을 전략적으로 제거함으로써 YOLO26은 CPU 비교 불가한 추론 속도를 달성하여, 에지 컴퓨팅 및 저전력 장치에 훨씬 더 우수한 성능을 제공합니다.
- MuSGD 최적화기: Moonshot AI의 Kimi K2에서 영감을 받은 이 하이브리드 최적화기는 컴퓨터 비전 분야에 대규모 언어 모델(LLM) 훈련 안정성을 제공하여 훨씬 빠른 수렴을 보장하고 훈련 단계에서의 메모리 요구 사항을 최소화합니다.
- ProgLoss + STAL: 이 고급 손실 함수는 소형 물체 인식에서 현저한 개선을 제공하며, 이는 드론 운영 및 고해상도 항공 촬영에 있어 핵심적인 기능입니다.
- 다용도성: PP-YOLOE+와 YOLOX가 순수하게 탐지에만 집중하는 반면, YOLO26은 동일한 직관적인 구문을 사용하여 인스턴스 분할, 자세 추정, 방향성 경계 상자(OBB) 를 원활하게 처리합니다.
Ultralytics를 통한 효율적인 교육
Ultralytics 효율성과 훈련 속도는 타의 추종을 불허하며, 막대한 CUDA 오버헤드가 필요한 트랜스포머 기반 대안을 완전히 능가합니다. 단 몇 줄의 코드로 YOLO26의 강력한 성능을 활용할 수 있습니다:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
Ultralytics 탐색하기
노코드 솔루션을 찾는 팀을 위해 Ultralytics 클라우드 기반 훈련, 통합 데이터셋 어노테이션, 그리고 모든 YOLO 대한 원클릭 배포를 제공합니다.
결론
PP-YOLOE+와 YOLOX는 각각 높은 정확도와 경량 앵커 프리 설계로 컴퓨터 비전 역사에 그 자리를 굳혔습니다. 그러나 농업, 스마트 시티, 소매 분야에서 AI의 미래를 구축하는 조직들에게는 Ultralytics 지속적인 유지보수, 사용 편의성, 그리고 네이티브 NMS 아키텍처가 확실한 선택이 될 것입니다.
특정 벤치마크를 위한 대체 아키텍처를 탐색 중이라면, 구형 YOLO11 또는 RT-DETRUltralytics 유용할 Ultralytics . Ultralytics 전환함으로써 개발자는 귀중한 시간과 자원을 절약하면서 어떤 에지 또는 클라우드 배포 환경에서도 최첨단 결과를 달성할 수 있습니다.