콘텐츠로 건너뛰기

EfficientDet vs. DAMO-YOLO: 기술 비교

빠르게 진화하는 컴퓨터 비전 환경에서 올바른 물체 감지 아키텍처를 선택하는 것은 애플리케이션의 성공을 위해 매우 중요합니다. 이 분야를 형성한 두 가지 주목할 만한 아키텍처는 Google Research에서 개발한 EfficientDet과 Alibaba의 DAMO Academy에서 개발한 YOLO. 두 아키텍처 모두 성능 극대화를 목표로 하지만, 설계 철학은 크게 다른데, 하나는 파라미터 효율성과 확장성에 초점을 맞추고 다른 하나는 산업용 하드웨어에서 지연 시간이 짧은 추론을 목표로 합니다.

이 가이드에서는 두 모델에 대한 심층적인 기술 분석을 제공하고 아키텍처, 성능 메트릭, 이상적인 사용 사례를 비교하여 개발자가 정보에 입각한 결정을 내릴 수 있도록 도와줍니다.

성능 분석: 효율성 대 지연 시간

다음 벤치마크는 EfficientDet과 YOLO 간의 뚜렷한 장단점을 보여줍니다. EfficientDet은 낮은 매개변수 수와 FLOP으로 이론적으로 효율적인 반면, YOLO GPU의 실제 추론 속도에 최적화된 것으로 유명합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

주요 벤치마크 결과

위의 데이터에서 몇 가지 중요한 차이점이 드러납니다:

  • GPU 지연 시간 우위: YOLO GPU 하드웨어에서 훨씬 빠른 추론 속도를 보여줍니다. 예를 들어, DAMO-YOLOm은 T4 GPU 5.09ms의 지연 시간으로 49.2의 mAP 달성합니다. 이와 대조적으로, 비슷한 성능의 EfficientDet-d4 (49.7 mAP)는 거의 6배 느린 33.55ms가 필요합니다.
  • 매개변수 효율성: EfficientDet은 모델 압축 메트릭에서 탁월한 성능을 발휘합니다. EfficientDet-d0 모델은 390만 개의 파라미터와 25억 4천만 개의 FLOP만 사용하므로 스토리지 제약이 있는 디바이스에 이상적인 경량 풋프린트를 제공합니다.
  • CPU 성능: EfficientDet은 CPU 성능에 대한 확립된 벤치마크를 제공하므로 비가속 엣지 디바이스를 위한 예측 가능한 선택입니다. 하지만 복잡한 기능 융합 레이어로 인해 단순한 아키텍처에 비해 실제 처리량이 느려지는 경우가 많습니다.

EfficientDet: 확장성 및 효율성

EfficientDet은 모델 치수를 확장하는 원칙적인 방법을 도입하여 물체 감지에 혁신을 가져왔습니다. EfficientNet 백본을 기반으로 구축된 이 솔루션은 이론적 계산 비용(FLOPs)을 최소화하면서 높은 정확도를 달성하는 것을 목표로 합니다.

효율적 세부 정보:

건축 하이라이트

EfficientDet의 핵심 혁신은 두 가지 주요 구성 요소에 있습니다:

  1. BiFPN(양방향 특징 피라미드 네트워크): 서로 다른 규모의 특징을 합산하는 기존 FPN과 달리, BiFPN은 다양한 입력 특징에 학습 가능한 가중치를 도입하여 하향식과 상향식으로 정보가 반복적으로 흐르도록 합니다. 이렇게 하면 특징 융합이 향상되지만 계산 복잡성이 증가합니다.
  2. 복합 스케일링: EfficientDet은 백본, BiFPN, 클래스/박스 네트워크, 입력 해상도를 공동으로 스케일업하는 복합 계수를 제안합니다. 이렇게 하면 깊이 또는 너비와 같은 한 차원만 임의로 확장하는 것이 아니라 네트워크의 모든 부분이 균형 있게 성장합니다.

강점과 약점

EfficientDet의 가장 큰 강점은 이론적 효율성입니다. YOLOv3나 RetinaNet과 같은 이전 검출기보다 훨씬 적은 수의 파라미터로 최첨단 정확도를 달성합니다. 그러나 깊이별로 분리 가능한 컨볼루션을 많이 사용하고 BiFPN의 복잡한 메모리 액세스 패턴으로 인해 최신 GPU에서 활용도가 낮아져 낮은 FLOP에도 불구하고 지연 시간이 길어질 수 있습니다.

배포 고려 사항

EfficientDet은 낮은 FLOP을 가지고 있지만, "낮은 FLOP"이 항상 "빠른 추론"으로 해석되는 것은 아닙니다. GPU나 TPU와 같은 하드웨어에서는 메모리 대역폭과 커널 실행 오버헤드가 더 중요한 경우가 많습니다. EfficientDet의 복잡한 그래프 구조는 실시간 추론 시나리오에서 때때로 병목 현상이 될 수 있습니다.

YOLO: 속도 지향적 혁신

YOLO 산업용 하드웨어에서 고성능과 낮은 지연 시간 사이의 격차를 해소한다는 특정 목표를 가지고 설계되었습니다. 최첨단 신경망 아키텍처 검색(NAS) 기술을 통합하여 탐지 작업에 가장 적합한 구조를 찾습니다.

YOLO 세부 정보:

건축 하이라이트

YOLO YOLO 제품군에 몇 가지 '새로운 기술' 요소를 도입했습니다:

  1. MAE-NAS 백본: It utilizes Neural Architecture Search (NAS) driven by Maximum Entropy to discover efficient backbones that handle varying input resolutions effectively.
  2. RepGFPN: 이는 퓨전 블록을 간소화하고 하드웨어 활용도를 극대화하기 위해 재매개변수화를 통합하여 표준 일반화된 FPN보다 개선된 기능입니다.
  3. 제로헤드 및 AlignedOTA: '제로헤드' 설계는 감지 헤드의 복잡성을 크게 줄여주고, AlignedOTA(최적 전송 할당)는 훈련 중에 강력한 라벨 할당 전략을 제공하여 분류와 회귀 간의 정렬 불일치를 해결합니다.

강점과 약점

YOLO 원시 속도에서 탁월합니다. 하드웨어 가속에 친화적인 구조(예: TensorRT)에 우선순위를 둠으로써 놀라운 처리량을 달성합니다. 하지만 복잡한 NAS 생성 아키텍처에 의존하기 때문에 수작업으로 제작된 단순한 아키텍처에 비해 맞춤형 연구 목적에 맞게 수정하거나 미세 조정하기가 더 어려울 수 있습니다. 또한, 보다 주류적인 YOLO 버전에서 볼 수 있는 광범위한 커뮤니티 지원과 멀티 플랫폼 사용 편의성이 부족합니다.

Ultralytics YOLO11: 전체론적 대안

EfficientDet은 매개변수 효율성을, YOLO GPU 속도를 제공합니다, Ultralytics YOLO11 은 개발자 친화적인 에코시스템으로 이 두 가지의 탁월한 균형을 제공합니다. 엣지 AI에서 클라우드 YOLO11 이르기까지 대부분의 실용적인 애플리케이션에 있어 YOLO11은 최적의 선택입니다.

YOLO11에 대해 자세히 알아보세요

왜 Ultralytics 모델을 선택해야 할까요?

  1. 탁월한 다목적성: 주로 객체 검출기인 EfficientDet 및 YOLO 달리 Ultralytics YOLO11 기본적으로 인스턴스 분할, 포즈 추정, 방향성 경계 상자(OBB)이미지 분류를 포함한 광범위한 컴퓨터 비전 작업을 지원합니다. 따라서 다양한 프로젝트 요구 사항에 대해 단일 프레임워크를 사용할 수 있습니다.
  2. 성능 균형: YOLO11 정확도-지연 시간의 한계를 뛰어넘습니다. 전문화된 실시간 모델과 경쟁할 수 있는 추론 속도를 유지하면서 더 무거운 모델의 정확도와 일치하거나 능가하는 경우가 많습니다.
  3. 사용 편의성 및 에코시스템: Ultralytics API는 단순성을 위해 설계되었습니다. 광범위한 문서와 커뮤니티 지원을 통해 개발자는 설치부터 교육까지 단 몇 분 만에 완료할 수 있습니다. 이 에코시스템에는 데이터 주석, 실험 추적, 원클릭 내보내기를 위한 원활한 통합이 포함되어 있으며, ONNX, TensorRT, CoreML 및 TFLite 같은 형식으로 내보낼 수 있습니다.
  4. 교육 효율성: Ultralytics 모델은 빠른 융합을 위해 최적화되어 있습니다. 고급 데이터 증강 전략과 효율적인 데이터 로더를 사용하여 고성능 모델 학습에 소요되는 시간과 비용을 줄여줍니다.
  5. 메모리 효율성: 트랜스포머 기반 모델이나 이전 아키텍처에 비해 YOLO11 트레이닝에 필요한 CUDA 메모리가 훨씬 적기 때문에 일반 소비자용 GPU에서 사용할 수 있습니다.

코드 예시: YOLO11 시작하기

Ultralytics 최첨단 탐지 기능을 구현하는 것은 간단합니다. 다음 코드 스니펫은 사전 학습된 YOLO11 모델을 로드하고 이미지에서 추론을 실행하는 방법을 보여 줍니다:

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on a local image or URL
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export the model to ONNX format for deployment
path = model.export(format="onnx")

원활한 통합

Ultralytics 모델은 널리 사용되는 MLOps 도구와 손쉽게 통합됩니다. 로깅을 위해 MLflow를 사용하든 하이퍼파라미터 최적화를 위해 Ray Tune을 사용하든, 이 기능은 라이브러리에 직접 내장되어 있습니다.

결론

EfficientDet과 YOLO 비교할 때, 선택은 특정 하드웨어 제약 조건에 따라 크게 달라집니다. 이론적 효율성과 매개변수 수가 주요 병목 현상인 시나리오에서는 EfficientDet이 여전히 강력한 후보입니다. 지연 시간이 가장 중요한 최신 GPU에서 실행되는 고처리량 애플리케이션의 경우 YOLO 확실한 승자입니다.

하지만 고성능, 사용 편의성, 멀티태스킹 기능 등 두 가지 장점을 모두 갖춘 솔루션이 필요하다면 다음과 같은 솔루션을 선택하세요.Ultralytics YOLO11 이 업계 표준으로 자리 잡았습니다. 강력한 에코시스템과 지속적인 개선을 통해 개발자는 확장 가능한 컴퓨터 비전 솔루션을 구축할 수 있는 가장 신뢰할 수 있는 도구를 확보할 수 있습니다.

다른 비교 살펴보기

객체 감지 모델의 환경을 더 자세히 이해하려면 다음과 같은 추가 비교를 살펴보세요:


댓글