PP-YOLOE+ vs. EfficientDet: 객체 감지를 위한 기술 비교
최적의 객체 감지 모델을 선택하는 것은 컴퓨터 비전 애플리케이션에 매우 중요합니다. 이 페이지에서는 프로젝트 요구 사항에 따라 정보에 입각한 결정을 내릴 수 있도록 두 가지 중요한 모델인 PP-YOLOE+와 EfficientDet 간의 자세한 기술 비교를 제공합니다. 아키텍처 설계, 성능 벤치마크 및 애플리케이션 적합성을 자세히 살펴보겠습니다. 두 모델 모두 중요한 기여를 했지만 효율적인 객체 감지기의 진화에서 서로 다른 단계를 나타냅니다.
PP-YOLOE+: 효율성 및 정확성에 최적화됨
Baidu의 PaddlePaddle Authors에서 개발하고 2022년 4월 2일에 출시된 PP-YOLOE+는 PP-YOLOE 시리즈의 향상된 버전입니다. 특히 PaddlePaddle 생태계 내에서 높은 정확도와 효율적인 배포를 제공하는 데 중점을 둡니다. 객체 감지 작업에서 뛰어난 성능과 속도의 균형을 위해 설계된 앵커 프리 단일 단계 감지기로 두각을 나타냅니다.
- 작성자: PaddlePaddle 작성자
- Organization: Baidu
- 날짜: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- 문서: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
아키텍처 및 주요 기능
PP-YOLOE+는 앵커 프리 방식을 채택하여 사전 정의된 앵커 박스의 필요성을 없앰으로써 모델 구조와 훈련 과정을 단순화합니다. 이 모델의 아키텍처는 분류 및 위치 파악 작업을 분리하여 전체 정확도를 향상시키는 분리된 감지 헤드를 특징으로 합니다. 또한 VariFocal Loss라는 특수 손실 함수를 사용하여 긍정 및 부정 샘플 간의 불균형을 더 효과적으로 처리하여 분류 및 경계 상자 정밀도를 더욱 개선합니다. 아키텍처에는 정확도와 추론 속도를 모두 향상시키기 위해 백본, PAN(Path Aggregation Network)이 있는 neck, 헤드에 대한 개선 사항이 포함되어 있습니다.
강점과 약점
- 강점: 파라미터 수 대비 높은 정확도, 앵커 프리 디자인으로 구현이 간편하며 PaddlePaddle 프레임워크 내에서 잘 지원됩니다. 이 모델은 TensorRT로 최적화했을 때 뛰어난 GPU 추론 속도를 보여줍니다.
- 약점: 주로 PaddlePaddle 생태계에 최적화되어 있어 PyTorch와 같이 널리 사용되는 다른 프레임워크 사용자의 유연성을 제한할 수 있습니다. Ultralytics YOLO 시리즈와 같이 전 세계적으로 채택된 모델에 비해 커뮤니티 지원 및 사용 가능한 리소스가 적을 수 있습니다.
사용 사례
PP-YOLOE+는 균형 잡힌 성능과 최신 앵커 프리 디자인 덕분에 다양한 애플리케이션에 적합합니다. 산업 품질 검사, 재활용 자동화 및 스마트 리테일 운영 개선과 같은 작업에 적합합니다.
EfficientDet: 확장 가능하고 효율적인 아키텍처
EfficientDet은 2019년 11월 Google Brain 팀에서 소개되었습니다. 엣지 장치에서 대규모 클라우드 서버로 확장할 수 있는 모델 제품군을 도입하여 객체 감지 효율성에 대한 새로운 표준을 세웠습니다. 핵심 혁신은 고효율적이고 확장 가능한 아키텍처를 만드는 데 중점을 두었습니다.
- 작성자: Mingxing Tan, Ruoming Pang, Quoc V. Le
- Organization: Google
- 날짜: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- 문서: https://github.com/google/automl/tree/master/efficientdet
아키텍처 및 주요 기능
EfficientDet 아키텍처는 세 가지 핵심 아이디어를 기반으로 구축되었습니다.
- EfficientNet 백본: 뛰어난 효율성을 자랑하는 EfficientNet을 특징 추출을 위한 백본으로 사용합니다. EfficientNet은 정확도와 FLOPs를 최적화하기 위해 신경망 아키텍처 검색을 통해 설계되었습니다.
- BiFPN (Bi-directional Feature Pyramid Network): EfficientDet은 표준 FPN 대신 더욱 효율적인 다중 스케일 특징 융합 방법인 BiFPN을 도입했습니다. BiFPN은 가중치가 적용된 연결을 통해 다양한 특징 수준에서 쉽고 빠른 정보 흐름을 가능하게 합니다.
- Compound Scaling: 간단한 Compound Scaling 계수를 사용하여 백본, 특징 네트워크 및 검출 헤드의 깊이, 너비 및 해상도를 균일하게 조정하는 새로운 스케일링 방법입니다. 이를 통해 모델을 원칙적이고 효과적인 방식으로 소형 D0에서 대형 D7 변형으로 확장할 수 있습니다.
성능 분석
아래 표는 자세한 성능 비교를 제공합니다. EfficientDet은 출시 당시 최첨단 기술이었지만 벤치마크는 PP-YOLOE+와 같은 최신 모델이 특히 GPU에서 추론 속도 측면에서 훨씬 더 나은 성능을 제공함을 보여줍니다. 예를 들어 PP-YOLOE+l은 EfficientDet-d5(51.5)보다 더 높은 mAP(52.9)를 달성하지만 TensorRT를 사용하는 T4 GPU에서 8배 이상 빠릅니다. 이는 모델 아키텍처 및 최적화 기술의 빠른 발전을 강조합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
강점과 약점
- 강점: BiFPN 및 Compound Scaling을 사용한 획기적인 아키텍처는 이후의 많은 모델에 영향을 미쳤습니다. 광범위한 컴퓨팅 예산에 걸쳐 확장성이 매우 뛰어납니다.
- 약점: 최신 아키텍처에 비해 추론 속도가 느립니다. 앵커 기반 설계는 앵커 프리 대안보다 더 복잡합니다. 원래 구현은 TensorFlow로 되어 있어 PyTorch가 주류인 연구 커뮤니티에는 어려움이 있을 수 있습니다.
사용 사례
EfficientDet은 모델 확장성이 중요하고 극단적인 실시간 성능이 주요 제약 조건이 아닌 애플리케이션에 여전히 실행 가능한 옵션입니다. 이미지의 오프라인 일괄 처리, 클라우드 기반 비전 API 및 소규모 변형(D0-D2)이 우수한 정확도-리소스 절충안을 제공할 수 있는 특정 에지 AI 시나리오에 사용할 수 있습니다.
결론: 어떤 모델을 선택해야 할까요?
PP-YOLOE+와 EfficientDet는 모두 강력한 모델이지만 서로 다른 요구 사항을 충족하고 객체 감지 연구의 서로 다른 시점을 나타냅니다.
- PP-YOLOE+는 PaddlePaddle 생태계 내에서 작업하고 최신의 빠르고 정확한 앵커 프리 감지기가 필요한 경우에 적합한 선택입니다.
- EfficientDet은(는) 아키텍처 혁신으로 인해 획기적인 모델로 남아 있습니다. 그러나 새로운 프로젝트의 경우 성능이 최신 모델에 의해 크게 능가되었습니다.
최고의 성능, 다재다능함, 사용 편의성 조합을 찾는 개발자 및 연구자에게는 Ultralytics YOLO 시리즈를 고려하는 것이 좋습니다. YOLOv8 및 최신 YOLO11과 같은 모델은 다음과 같은 몇 가지 주요 이점을 제공합니다.
- 성능 균형: Ultralytics YOLO 모델은 속도와 정확도 간의 최첨단 균형을 제공하므로 실시간 에지 배포와 고정밀 클라우드 애플리케이션 모두에 적합합니다.
- 다양성: 객체 탐지뿐만 아니라 인스턴스 분할, 포즈 추정, 분류 등을 단일 통합 프레임워크 내에서 지원하는 멀티태스크 모델입니다.
- 사용 편의성: 이 모델은 간단한 Python API 및 CLI, 광범위한 documentation과 간단명료한 학습 프로세스를 제공합니다.
- 잘 관리되는 에코시스템: Ultralytics는 활발한 개발, 강력한 커뮤니티 지원, 데이터 세트 관리부터 배포에 이르기까지 간소화된 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 강력한 에코시스템을 제공합니다.
- 학습 효율성: Ultralytics YOLO 모델은 효율적인 학습으로 잘 알려져 있으며, 많은 대안에 비해 더 적은 메모리와 시간을 필요로 하며, 사용자 정의 프로젝트를 가속화하기 위해 광범위한 사전 학습된 가중치와 함께 제공됩니다.
더 자세한 비교를 원하시면 YOLO11 vs. EfficientDet 또는 PP-YOLOE+ vs. YOLOv10과 같이 다른 인기 있는 아키텍처와 비교하여 살펴보는 것도 좋습니다.