PP-YOLOE+ vs YOLO11: 객체 감지를 위한 기술 비교
최적의 객체 감지 모델을 선택하는 것은 정확도, 속도 및 배포 제약 조건 간의 균형을 맞추는 중요한 결정입니다. 이 페이지에서는 Baidu의 PaddlePaddle 생태계에서 제공하는 강력한 모델인 PP-YOLOE+와 Ultralytics의 최신 최첨단 모델인 Ultralytics YOLO11 간의 포괄적인 기술 비교를 제공합니다. 두 모델 모두 강력한 성능을 제공하지만, YOLO11은 뛰어난 효율성, 다재다능함 및 사용자 친화적인 생태계로 인해 널리 사용되는 최신 컴퓨터 비전 애플리케이션에 권장되는 선택입니다.
PP-YOLOE+: PaddlePaddle 생태계 내의 높은 정확도
PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus)는 Baidu에서 PaddleDetection 제품군의 일부로 개발한 객체 감지 모델입니다. 2022년에 출시되었으며, 특히 PaddlePaddle 딥 러닝 프레임워크 내에서 합리적인 효율성을 유지하면서 높은 정확도를 달성하는 데 중점을 둡니다.
기술 세부 사항:
- 작성자: PaddlePaddle 작성자
- Organization: Baidu
- 날짜: 2022-04-02
- ArXiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- 문서: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
아키텍처 및 주요 기능
PP-YOLOE+는 몇 가지 주요 개선 사항을 통해 YOLO 아키텍처를 기반으로 하는 앵커 프리(anchor-free) 단일 단계 검출기입니다. 이 디자인은 속도와 정확도 간의 균형을 개선하는 것을 목표로 합니다.
- Anchor-Free Design: 미리 정의된 앵커 박스를 제거함으로써 모델은 검출 파이프라인을 단순화하고 하이퍼파라미터 튜닝의 복잡성을 줄입니다.
- 효율적인 구성 요소: 아키텍처는 종종 효과적인 특징 융합을 위해 CSPRepResNet과 같은 백본과 PAN(Path Aggregation Network) neck을 사용합니다.
- Task Alignment Learning (TAL): 특수 손실 함수 및 레이블 할당 전략을 사용하여 분류 및 지역화 작업을 더 효과적으로 정렬함으로써 전체 탐지 정확도를 향상시킵니다.
- PaddlePaddle 통합: 이 모델은 PaddlePaddle 프레임워크에 깊이 통합되어 최적화되어 있으므로 해당 생태계에서 이미 작업 중인 개발자에게 자연스러운 선택입니다.
강점과 약점
강점:
- 높은 정확도: PP-YOLOE+ 모델, 특히 더 큰 모델은 COCO 데이터 세트와 같은 표준 벤치마크에서 경쟁력 있는 mAP 점수를 달성합니다.
- 효율적인 앵커 프리 헤드: 감지 헤드의 디자인이 효율성을 위해 간소화되었습니다.
약점:
- 프레임워크 종속성: PaddlePaddle에 대한 주요 최적화는 PyTorch를 사용하는 광범위한 개발자 커뮤니티에 제약이 될 수 있으며, 프레임워크 변환이 필요하고 잠재적으로 성능 최적화가 손실될 수 있습니다.
- 높은 리소스 사용량: 성능 표에서 볼 수 있듯이 PP-YOLOE+ 모델은 일반적으로 유사한 정확도 수준에서 YOLO11 모델에 비해 더 많은 파라미터 수와 더 많은 FLOPs를 가지므로 계산 비용이 더 많이 듭니다.
- 제한적인 다용도성: PP-YOLOE+는 주로 객체 감지에 중점을 두고 있는 반면, 다른 최신 프레임워크는 더 넓은 범위의 비전 작업에 대한 통합 지원을 제공합니다.
Ultralytics YOLO11: 최첨단 성능 및 다재다능함
Ultralytics YOLO11은 Ultralytics의 Glenn Jocher와 Jing Qiu가 개발한 YOLO 시리즈의 최신 진화입니다. 2024년에 출시되었으며 속도, 정확성 및 효율성의 뛰어난 균형을 제공하여 실시간 객체 감지에 대한 새로운 표준을 설정합니다. 다재다능하고 사용하기 쉬우며 광범위한 하드웨어에 배포할 수 있도록 처음부터 설계되었습니다.
기술 세부 사항:
- 저자: Glenn Jocher, Jing Qiu
- 조직: Ultralytics
- 날짜: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- 문서: https://docs.ultralytics.com/models/yolo11/
아키텍처 및 주요 기능
YOLO11은 YOLOv8과 같은 이전 모델의 성공적인 기반을 바탕으로 특징 추출 및 처리 속도를 향상시키는 개선된 아키텍처를 제공합니다.
- 최적화된 아키텍처: YOLO11은 PP-YOLOE+와 같은 경쟁 제품보다 파라미터 수가 훨씬 적고 FLOP 수가 더 적어 더 높은 정확도를 달성하는 간소화된 네트워크 설계를 특징으로 합니다. 이러한 효율성은 실시간 추론 및 리소스가 제한된 에지 장치에 배포하는 데 매우 중요합니다.
- 다재다능함: YOLO11의 주요 장점은 단일 통합 프레임워크 내에서 여러 컴퓨터 비전 작업을 기본적으로 지원한다는 것입니다. 여기에는 객체 감지, 인스턴스 분할, 이미지 분류, 포즈 추정 및 OBB(oriented bounding box)가 포함됩니다.
- 사용 편의성: YOLO11은 사용자 경험을 우선시하는 잘 관리된 Ultralytics 생태계의 일부입니다. 간단한 Python API 및 CLI, 포괄적인 설명서 및 즉시 사용 가능한 사전 훈련된 가중치를 제공합니다.
- 학습 효율성: 이 모델은 더 빠른 학습 시간을 위해 설계되었으며 더 적은 메모리를 필요로 하므로 개발자와 연구원이 최첨단 AI에 더 쉽게 접근할 수 있습니다. 이는 종종 학습 속도가 느리고 더 많은 컴퓨팅 자원을 요구하는 트랜스포머와 같은 다른 모델 유형과 대조됩니다.
- 활발한 생태계: 사용자는 활발한 개발, GitHub 및 Discord를 통한 강력한 커뮤니티 지원, 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와의 원활한 통합을 통해 이점을 얻을 수 있습니다.
강점과 약점
강점:
- 뛰어난 성능 균형: 모든 모델 크기에서 속도와 정확성 사이에서 뛰어난 균형을 제공합니다.
- 계산 효율성: 더 낮은 파라미터 수와 FLOPs는 더 빠른 추론과 감소된 하드웨어 요구 사항으로 이어집니다.
- 다중 작업 지원: 5가지 주요 비전 작업에 대한 기본 지원으로 타의 추종을 불허하는 다재다능함을 제공합니다.
- 사용자 친화적인 생태계: 간편한 설치, 학습 및 배포가 가능하며, 광범위한 리소스와 강력한 커뮤니티를 통해 지원됩니다.
- Deployment Flexibility: Raspberry Pi에서 클라우드 서버에 이르기까지 광범위한 하드웨어에 최적화되어 있습니다.
약점:
- 단일 단계 검출기인 YOLO는 일부 특화된 2단계 검출기에 비해 매우 작은 객체에 대한 문제점이 있을 수 있습니다.
- 가장 큰 모델(예: YOLO11x)은 여전히 실시간 성능을 위해 상당한 컴퓨팅 성능을 필요로 하지만, 이는 유사한 경쟁 모델보다 적습니다.
성능 분석: PP-YOLOE+ vs. YOLO11
COCO 데이터 세트의 성능 벤치마크는 YOLO11의 장점을 명확하게 보여줍니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
- 정확도 vs. 효율성: 최고 수준에서 YOLO11x는 PP-YOLOE+x의 54.7 mAP와 일치하지만 파라미터는 58%(56.9M vs. 98.42M)에 불과하고 FLOP 수도 더 적습니다. 이러한 추세는 규모가 작아질수록 계속됩니다. 예를 들어 YOLO11l은 파라미터 수가 절반 미만임에도 불구하고 정확도(53.4 vs. 52.9 mAP)에서 PP-YOLOE+l을 능가합니다.
- 추론 속도: YOLO11 모델은 GPU에서 일관적으로 더 빠른 추론 속도를 보여줍니다. 예를 들어 YOLO11l은 T4 GPU에서 PP-YOLOE+l보다 25% 이상 빠르며, YOLO11x는 PP-YOLOE+x보다 20% 이상 빠릅니다. 이러한 속도 이점은 자율 주행 차량 및 로봇 공학과 같이 실시간 처리가 필요한 애플리케이션에 매우 중요합니다.
- 확장성: YOLO11은 훨씬 더 효율적인 확장 곡선을 제공합니다. 개발자는 PP-YOLOE+ 대형 모델과 관련된 막대한 계산 오버헤드 없이도 높은 정확도를 달성하여 고급 AI에 대한 접근성을 높일 수 있습니다.
결론 및 권장 사항
PP-YOLOE+는 유능한 객체 감지기이지만, Baidu PaddlePaddle 생태계에 이미 전념하고 있는 사용자에게 가장 큰 강점을 보입니다.
대다수의 개발자, 연구원 및 기업에게 Ultralytics YOLO11이 명확하고 우수한 선택입니다. 최첨단 정확도와 효율성의 조합을 제공하여 계산 비용을 크게 줄이고 더 다양한 하드웨어에 배포할 수 있습니다. 5가지 다른 비전 작업에서 타의 추종을 불허하는 다재다능성과 사용하기 쉽고 잘 지원되는 생태계를 통해 사용자는 더 적은 노력으로 더 복잡하고 강력한 AI 솔루션을 구축할 수 있습니다.
에지 또는 클라우드용으로 개발하든 YOLO11은 컴퓨터 비전에서 가능한 것의 경계를 넓히는 데 필요한 성능, 유연성 및 접근성을 제공합니다.
고려할 다른 모델
다른 아키텍처를 탐색하는 경우 Ultralytics 프레임워크 내에서 지원되는 YOLOv10, YOLOv9 및 RT-DETR과 같은 모델과의 비교에도 관심이 있을 수 있습니다.