YOLOv9 PP-YOLOE+: 현대 객체 탐지 기술에 대한 심층 분석
실시간 객체 탐지 기술은 지속적으로 빠르게 발전하며, 컴퓨터 비전 엔지니어들에게 에지 및 클라우드 인프라에 고정밀 모델을 배포할 수 있는 다양한 선택지를 제공하고 있습니다. 이 분야에서 두드러진 두 가지 모델은 YOLOv9 와 PP-YOLOE+입니다. 두 모델 모두 정확도와 속도의 한계를 뛰어넘지만, 서로 다른 연구 계보와 소프트웨어 생태계에서 비롯되었습니다.
이 포괄적인 기술 비교에서는 두 플랫폼의 아키텍처, 훈련 방법론, 성능 지표 및 이상적인 실제 적용 사례를 탐구합니다. 또한 광범위한 Ultralytics 사용 편의성, 메모리 효율성 및 다양한 배포 환경을 우선시하는 개발자에게 어떻게 상당한 이점을 제공하는지 살펴볼 것입니다.
모델의 기원 및 기술 사양
이러한 모델들의 배경을 이해하면 그들의 아키텍처적 결정과 프레임워크 종속성을 맥락화하는 데 도움이 됩니다.
YOLOv9: 정보 병목 현상 해결
2024년 초에 소개된 YOLOv9 정보가 심층 신경망을 통과할 때 발생하는 데이터 손실 문제를 YOLOv9 . 이는 매개변수 효율성을 극대화하도록 설계된 고도로 최적화된 컨볼루션 신경망입니다.
- 저자: Chien-Yao Wang, Hong-Yuan Mark Liao
- Organization: Institute of Information Science, Academia Sinica, Taiwan
- 날짜: 2024년 2월 21일
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
- 문서:Ultralytics 9 문서
PP-YOLOE+: 패들 생태계 발전
2022년 바이두에서 공개한 PP-YOLOE+는 PP-YOLOv2를 반복적으로 개선한 모델입니다. 앵커 프리 패러다임을 활용하고 동적 레이블 할당 전략을 도입하여 PaddlePaddle 내에서 수렴성과 정확도를 향상시킵니다.
- 작성자: PaddlePaddle 작성자
- Organization: Baidu
- 날짜: 2022년 4월 2일
- Arxiv:2203.16250
- GitHub:패들디텍션
- 문서:PP-YOLOE+ 구성
아키텍처 비교
프로그래머블 그라디언트 정보 대 CSPRepResStage
YOLOv9 핵심 혁신은 프로그래머블 그라디언트 정보(PGI) YOLOv9 . PGI는 보조 감독 프레임워크 역할을 하여 훈련 과정에서 중요한 그라디언트 정보가 보존되고 얕은 계층으로 정확하게 전파되도록 보장합니다. 이는 일반화된 효율적 레이어 집계 네트워크(GELAN)와 결합되어 CSPNet과 ELAN의 장점을 결합함으로써 높은 정확도를 제공하면서도 계산 비용(FLOPs)을 획기적으로 줄입니다.
PP-YOLOE+는 특수한 백본인 CSPRepResStage이 모델은 배포 시 컨볼루션 레이어를 병합하여 추론을 가속화하기 위해 재매개변수화 기법(RepVGG에서 볼 수 있는 것과 유사)을 활용합니다. 또한 효율적인 작업 정렬 헤드(ET-head)를 사용하여 분류 및 회귀 작업 간의 균형을 맞춥니다.
PP-YOLOE+는 견고하지만, YOLOv9 GELAN 아키텍처는 일반적으로 훈련과 추론 모두에서 더 작은 메모리 사용량을 필요로 하여, 에지 AI 장치에 특히 적합합니다.
성능 비교
생성용 모델을 평가할 때 mAP 평균 정밀도), 추론 속도, 모델 크기 간의 균형은 매우 중요하다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
분석
- 매개변수 효율성: YOLOv9 현저히 높은 효율성을 YOLOv9 . 예를 들어, YOLOv9c는 단 25.3M 매개변수로 mAP . mAP 달성하는 반면, PP-YOLOe+l은 두 배가 넘는 매개변수(52.2M)를 필요로 하며 mAP 52. mAP 약간 낮은 성능을 보입니다. 이는 YOLOv9 요구량을 획기적으로 낮춥니다.
- 추론 속도: YOLOv9 TensorRT와 같은 하드웨어 가속기에 대한 탁월한 최적화 성능을 보여줍니다. TensorRT과 같은 하드웨어 가속기에 대한 탁월한 최적화 성능을 보여주며, 실시간 추론에 중요한 NVIDIA GPU에서 경쟁력 있는 추론 속도를 제공합니다.
학습 방법론 및 생태계
이러한 모델들 사이의 선택은 종종 소프트웨어 생태계에 달려 있습니다.
PP-YOLOE+ 및 PaddlePaddle
PP-YOLOE+는 PaddleDetection 제품군과 긴밀하게 연동됩니다. 강력한 성능을 지녔지만, 사용자는 복잡한 구성과 명령줄 기반 환경을 다루어야 합니다. PyTorch 또는 TensorFlow 에코시스템에 깊이 관여한 팀의 경우, PaddlePaddle 전환하는 것은 상당한 마찰과 가파른 학습 곡선을 PaddlePaddle .
Ultralytics : 간소화된 워크플로우
반면 YOLOv9 정교하게 다듬어진 Ultralytics 내에서 YOLOv9 . 개발자와 연구자를 위해 설계된 Ultralytics 탁월한 사용 편의성을 Ultralytics . Python 복잡한 보일러플레이트 코드를 완전히 추상화합니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for production deployment
model.export(format="onnx")
이 워크플로는 Ultralytics 우수한 훈련 효율성을 보여줍니다. 데이터 증강, 분산 훈련, 그리고 Weights & Biases 이나 MLflow와 같은 플랫폼에 대한 자동 로깅이 기본으로 제공됩니다.
최신 비전 AI 기술 탐구하기
YOLOv9 탁월한 성능을 YOLOv9 , 새로 출시된 Ultralytics 를 고려하시길 강력히 권장합니다. YOLO26은 기본적인 엔드투엔드 NMS( NMS) 설계를 특징으로 하여 배포를 획기적으로 간소화합니다. DFL 제거 (간소화된 내보내기와 향상된 에지/저전력 장치 호환성을 위한 분포 초점 손실 제거)를 통해 에지 컴퓨팅에서 최대 43% 더 빠른 CPU 제공합니다. MuSGD 최적화기를 기반으로 하여 안정적인 훈련과 빠른 수렴을 보장합니다. 또한 ProgLoss + STAL은 IoT, 로봇공학, 항공 이미징에 중요한 소형 물체 인식 성능을 현저히 개선한 향상된 손실 함수를 제공합니다.
다용도성과 작업 지원
현대 컴퓨터 비전 프로젝트는 단순한 경계 상자에서 멈추는 경우가 거의 없다.
PP-YOLOE+는 주로 표준 객체 탐지를 위해 설계되었습니다. 다른 작업에 이 아키텍처를 적용하려면 광범위한 맞춤형 엔지니어링이 필요합니다.
Ultralytics 대로 Ultralytics 다중 작업의 핵심 엔진입니다. 통합된 API를 활용함으로써 개발자는 표준 객체 탐지에서 복잡한 인스턴스 세그멘테이션, 고정밀 자세 추정, 항공 이미지를 위한 방향성 바운딩 박스(OBB) 탐지, 이미지 분류로 손쉽게 전환할 수 있습니다. 이러한 탁월한 다용도성 덕분에 기업 팀들은 YOLOv9, YOLO11, YOLO26과 같은 Ultralytics 모델을 지속적으로 선택하는 이유입니다.
이상적인 사용 사례 및 애플리케이션
- 스마트 시티 분석 및 교통 관리: YOLOv9 (및 후속 모델인 YOLO26)의 높은 매개변수 효율성과 낮은 지연 시간은 제한된 에지 하드웨어(예: NVIDIA 장치)에 배포하여 교통 흐름과 도시 보안을 모니터링하는 데 이상적입니다.
- 소매 재고 관리 시스템: 선반 위의 소형 품목 밀집 배열 감지를 위해 YOLOv9 PGI는 정밀한 공간적 세부 정보를 효과적으로 유지하며, 소형 물체 탐지 작업에서 PP-YOLOE+보다 우수한 성능을 발휘합니다.
- 레거시 배포:PP-YOLOE+는 기존 레거시 인프라에서PaddlePaddle 스택 사용이 명시적으로 의무화된 팀에 한해 여전히 유효한 옵션으로 남아 있습니다.
트랜스포머 기반 아키텍처를 연구하는 연구자들을 위해 Ultralytics 기본적으로 RT-DETR 을 동일한 사용하기 쉬운 API 내에서 원활하게 지원하여, 특정 배포 요구사항에 최적화된 모델을 항상 활용할 수 있도록 보장합니다.