DAMO-YOLO vs. PP-YOLOE+: 기술 비교
정확도, 추론 속도 및 계산 비용 간의 균형을 맞추는 올바른 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 이 페이지에서는 Alibaba Group에서 개발한 DAMO-YOLO와 Baidu에서 개발한 PP-YOLOE+ 간의 자세한 기술 비교를 제공합니다. 개발자와 연구원이 컴퓨터 비전 프로젝트에 대한 정보에 입각한 선택을 내리는 데 도움이 되도록 아키텍처, 성능 지표 및 이상적인 사용 사례를 분석합니다.
두 모델 모두 상당한 발전을 제공하지만, Ultralytics YOLO 시리즈와 같은 대안을 고려하는 것도 중요합니다. Ultralytics YOLO11과 같은 모델은 성능과 효율성의 매우 경쟁력 있는 균형을 제공하며, 연구에서 생산까지 개발을 가속화하는 사용자 친화적이고 잘 관리된 생태계와 결합됩니다.
DAMO-YOLO: Alibaba의 빠르고 정확한 방법
DAMO-YOLO는 Alibaba Group에서 속도와 정확도 사이의 균형을 개선하기 위해 여러 새로운 기술을 활용하는 빠르고 정확한 객체 감지 방법으로 소개되었습니다. YOLO 철학을 기반으로 구축되었지만 고급 구성 요소를 통합하여 성능 한계를 뛰어넘습니다.
기술 세부 사항:
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직: Alibaba Group
- 날짜: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- 문서: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
아키텍처 및 주요 기능
DAMO-YOLO의 아키텍처는 NAS(Neural Architecture Search) 및 기타 최적화를 통해 발견된 최첨단 기술의 통합으로 구별됩니다.
- NAS 기반 백본: DAMO-YOLO는 Alibaba의 MAE-NAS에서 생성된 백본을 사용하여 객체 탐지에 최적화된 매우 효율적인 특징 추출기를 제공합니다.
- Efficient RepGFPN Neck: 낮은 지연 시간을 유지하면서 다양한 스케일에서 특징 융합을 향상시키기 위해 재파라미터화를 통해 개선된 새로운 Neck 구조인 GFPN(Generalized Feature Pyramid Network)을 도입했습니다.
- ZeroHead: 이 모델은 분류 및 회귀 작업을 분리하여 계산 오버헤드를 줄이고 성능을 향상시키는 단순화된 제로 파라미터 헤드를 사용합니다.
- AlignedOTA 레이블 할당: 동적이고 정렬에 중점을 둔 레이블 할당 전략인 AlignedOTA는 훈련 중에 가장 적합한 앵커가 선택되도록 하여 보다 정확한 예측을 가능하게 합니다.
- Distillation 향상: DAMO-YOLO는 지식 증류를 활용하여 더 크고 강력한 교사 모델에서 더 작은 학생 모델로 지식을 전송하여 추론 비용을 늘리지 않고도 정확도를 높입니다.
강점과 약점
강점:
- 뛰어난 속도-정확도 균형: DAMO-YOLO는 매우 빠른 추론 속도로 높은 정확도를 제공하는 데 탁월하므로 실시간 애플리케이션에 이상적입니다.
- 계산 효율성: 이 모델은 파라미터 및 FLOP 측면에서 가볍게 설계되어 리소스가 제한된 장치에 배포하는 데 유용합니다.
- 혁신적인 아키텍처: NAS, RepGFPN 및 ZeroHead의 사용은 효율적인 모델 설계에서 중요한 진전을 나타냅니다.
약점:
- 생태계 통합: 이 모델은 주로 MMDetection을 기반으로 하는 프레임워크 내에서 구현되므로 표준 PyTorch 워크플로에 통합하려면 추가 노력이 필요할 수 있습니다.
- 커뮤니티 지원: 기업 연구소의 연구 중심 모델이므로, 더 널리 채택된 모델에 비해 커뮤니티 규모가 작고 타사 리소스가 더 적을 수 있습니다.
PP-YOLOE+: PaddlePaddle 생태계 내의 높은 정확도
Baidu에서 개발한 PP-YOLOE+는 PP-YOLOE 시리즈의 향상된 버전입니다. 특히 PaddlePaddle 딥러닝 프레임워크 내에서 합리적인 효율성을 유지하면서 높은 정확도를 달성하는 데 우선 순위를 두는 앵커 프리(anchor-free) 단일 단계 감지기입니다.
기술 세부 사항:
- 작성자: PaddlePaddle 작성자
- Organization: Baidu
- 날짜: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- 문서: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
아키텍처 및 주요 기능
PP-YOLOE+는 성능 향상을 목표로 하는 몇 가지 주요 개선 사항을 통해 견고한 앵커 프리 기반을 구축합니다.
- Anchor-Free Design: 미리 정의된 앵커 박스를 제거함으로써 PP-YOLOE+는 검출 파이프라인을 단순화하고 튜닝해야 할 하이퍼파라미터 수를 줄입니다.
- CSPRepResNet 백본: 강력하면서도 효율적인 특징 추출기를 만들기 위해 CSPNet 및 RepVGG의 원리를 결합한 강력한 백본을 활용합니다.
- 고급 손실 및 헤드: 이 모델은 분류 및 현지화 작업을 더 잘 정렬하기 위해 Varifocal Loss와 효율적인 ET-Head(Efficient Task-aligned Head)를 통합하여 감지 정확도를 향상시킵니다.
- PaddlePaddle 최적화: PP-YOLOE+는 PaddlePaddle 프레임워크에 깊이 통합되어 최적화되어 있어 해당 생태계 내 사용자에게 원활한 훈련, 추론 및 배포를 제공합니다.
강점과 약점
강점:
- 높은 정확도: 더 큰 PP-YOLOE+ 모델은 COCO 데이터 세트에서 최첨단 정확도를 달성합니다.
- 확장 가능한 모델: 다양한 크기(t, s, m, l, x)로 제공되므로 사용자는 특정 컴퓨팅 예산에 맞는 모델을 선택할 수 있습니다.
- 강력한 생태계 지원: PaddleDetection 툴킷 내에서 문서화가 잘 되어 있고 지원됩니다.
약점:
- 프레임워크 종속성: PaddlePaddle 프레임워크에 대한 주요 의존성은 PyTorch를 표준으로 사용하는 개발자 및 팀에게 중요한 장벽이 될 수 있습니다.
- 낮은 효율성: DAMO-YOLO와 비교했을 때, PP-YOLOE+ 모델은 비슷한 수준의 정확도에 대해 더 많은 파라미터와 더 높은 FLOPs를 가지는 경향이 있어 계산 집약적입니다.
성능 분석: DAMO-YOLO vs. PP-YOLOE+
DAMO-YOLO와 PP-YOLOE+의 성능은 서로 다른 설계 철학을 강조합니다. DAMO-YOLO는 최대 효율성을 위해 설계되어 더 나은 속도-정확도 균형을 제공합니다. 대조적으로 PP-YOLOE+는 특히 더 큰 모델에서 더 높은 계산 요구 사항을 감수하면서 정확도의 한계를 뛰어넘는 데 중점을 둡니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
표에서 다음 사항을 관찰할 수 있습니다.
- 정확도 (mAP): PP-YOLOE+x는 54.7%의 가장 높은 mAP를 달성하여 모든 DAMO-YOLO 변형을 능가합니다. 그러나 더 작은 규모에서는 DAMO-YOLO 모델이 매우 경쟁력이 있습니다.
- 속도: DAMO-YOLO 모델은 유사한 크기의 PP-YOLOE+ 모델에 비해 T4 GPU에서 일관되게 더 빠른 추론 속도를 보여줍니다.
- 효율성 (Params & FLOPs): DAMO-YOLO는 일반적으로 더 효율적입니다. 예를 들어 DAMO-YOLOm은 28.2M 파라미터로 49.2% mAP를 달성하는 반면, 약간 더 정확한 PP-YOLOE+m (49.8% mAP)은 23.43M 파라미터가 필요하지만 속도가 더 느립니다. 가장 큰 PP-YOLOE+x 모델은 파라미터와 FLOPs 모두에서 훨씬 더 큽니다.
Ultralytics의 장점: YOLO11을 선택해야 하는 이유
DAMO-YOLO와 PP-YOLOE+는 강력한 모델이지만, 생태계 제약이 따릅니다. 다재다능하고 사용하기 쉬우며 고성능 솔루션을 찾는 개발자에게 Ultralytics YOLO11은 탁월한 대안입니다.
Ultralytics 모델은 개발자 경험을 최우선으로 설계되었습니다. 주요 장점은 다음과 같습니다.
- 사용 편의성: 간소화된 Python API, 포괄적인 문서 및 간단한 CLI를 통해 학습, 검증 및 배포가 매우 간편해집니다.
- 잘 관리되는 에코시스템: Ultralytics는 활발한 개발, GitHub에 대한 강력한 커뮤니티 지원, 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와의 통합을 통해 강력한 에코시스템을 제공합니다.
- 다재다능함: 특수 감지기와 달리 YOLO11은 객체 감지, 분할, 분류 및 자세 추정을 즉시 지원하는 다중 작업 모델입니다.
- 학습 효율성: Ultralytics YOLO 모델은 효율적인 학습에 최적화되어 있으며, 종종 메모리와 시간이 덜 필요하며, 모든 프로젝트를 시작하는 데 사용할 수 있는 풍부한 사전 학습된 가중치 세트가 있습니다.
결론: 어떤 모델이 적합할까요?
DAMO-YOLO와 PP-YOLOE+ 중에서 선택하는 것은 프로젝트의 특정 우선 순위와 기존 기술 스택에 크게 좌우됩니다.
-
DAMO-YOLO 선택의 주요 목표가 특히 에지 장치에서 실시간 추론을 위해 가능한 최상의 속도-정확도 균형을 달성하는 것이라면 DAMO-YOLO를 선택하세요. 이는 계산 효율성을 중요하게 생각하고 MMDetection 기반 프레임워크로 작업하는 데 익숙한 사람들에게 탁월한 선택입니다.
-
응용 분야에서 가능한 최고의 정확도를 요구하고 이미 Baidu PaddlePaddle 생태계 내에서 작업 중이거나 채택할 계획인 경우 PP-YOLOE+를 선택하십시오. 더 큰 모델은 정밀도가 가장 중요한 중요한 응용 분야에 이상적입니다.
-
대부분의 개발자와 연구자에게 Ultralytics YOLO11을 권장합니다. 뛰어난 성능, 다양한 비전 작업에 대한 다재다능함, 비교할 수 없는 사용 편의성을 제공합니다. 강력하고 잘 관리된 에코시스템은 프레임워크별 모델과 관련된 마찰을 제거하여 혁신적인 AI 솔루션을 더 빠르게 구축하고 배포하는 데 집중할 수 있도록 합니다.