콘텐츠로 건너뛰기

EfficientDet 대 RTDETRv2: 물체 감지를 위한 기술 비교

객체 감지의 환경은 기존의 컨볼루션 신경망(CNN)에서 최신 트랜스포머 기반 아키텍처로 전환하면서 크게 발전해 왔습니다. 이러한 진화에서 주목할 만한 두 가지 이정표는 Google 확장 가능한 CNN 아키텍처인 EfficientDet과 Baidu의 실시간 감지 트랜스포머인 RTDETRv2입니다.

이 가이드에서는 아키텍처 혁신, 성능 메트릭, 이상적인 배포 시나리오를 분석하여 두 모델을 심층적으로 기술적으로 비교합니다. 또한 다음과 같은 방법도 살펴봅니다. Ultralytics YOLO11 이 다양한 컴퓨터 비전 애플리케이션을 위한 통합 에코시스템을 제공하는 강력한 대안이 될 수 있는 방법도 살펴봅니다.

모델 개요

아키텍처의 뉘앙스에 대해 자세히 알아보기 전에 각 모델의 기원과 주요 목표를 이해하는 것이 중요합니다.

EfficientDet 세부 정보: 저자: 저자: 밍싱 탄, 루밍 팡, 쿠옥 V. 레
조직: Google 리서치
날짜: 2019-11-20
아카이브: https://arxiv.org/abs/1911.09070
깃허브: https:google
문서: https:google

RTDETRv2 세부 정보: 저자: 저자: 웬위 리우, 이안 자오, 친야오 창, 쿠이 황, 관중 왕, 이 리우
조직: Baidu
날짜: 2023-04-17
아카이브: https://arxiv.org/abs/2304.08069
깃허브: https:RT-DETR
문서: https:RT-DETR

RTDETRv2에 대해 자세히 알아보세요.

아키텍처 분석

EfficientDet과 RTDETRv2의 핵심 차이점은 특징 추출과 바운딩 박스 예측에 대한 근본적인 접근 방식에 있습니다.

EfficientDet: 복합적인 확장을 통한 효율성

EfficientDet은 정확도를 높이기 위해 단순히 모델을 더 크게 만드는 경향을 깨기 위해 설계되었습니다. EfficientNet 백본을 활용하고 가중치가 적용된 양방향 특징 피라미드 네트워크(BiFPN)를 도입합니다.

  • BiFPN: 기존 FPN과 달리 BiFPN은 학습 가능한 가중치를 도입하여 멀티스케일 피처 융합을 쉽게 할 수 있습니다. 이를 통해 네트워크는 다양한 입력 특징의 중요성을 학습할 수 있습니다.
  • 복합 스케일링: EfficientDet은 단일 복합 계수를 사용하여 네트워크의 해상도, 깊이, 폭을 동시에 확장합니다. 이를 통해 모델(D0~D7 변형)이 다양한 리소스 제약 조건에서 효율성을 유지할 수 있습니다.

RTDETRv2: 실시간 감지 트랜스포머

RTDETRv2는 DETR(탐지 트랜스포머)의 성공을 기반으로 구축되었지만, 높은 계산 비용과 느린 수렴 속도를 해결합니다. 이 모델은 자체 주의 메커니즘을 활용하여 글로벌 컨텍스트를 모델링하는 앵커 프리 모델입니다.

  • 하이브리드 인코더: 스케일 내 상호작용과 스케일 간 융합을 분리하여 멀티스케일 특징을 처리하므로 표준 트랜스포머에 비해 추론 속도가 크게 향상됩니다.
  • IoU 쿼리 선택: 이 메커니즘은 고품질의 초기 객체 쿼리를 선택하여 학습 수렴을 가속화하고 감지 정확도를 향상시킵니다.
  • 동적 유연성: RTDETRv2는 재학습 없이 디코더 레이어 수를 변경하여 추론 속도를 조정할 수 있어 실시간 추론을 위한 고유한 유연성을 제공합니다.

트랜스포머와 CNN 메모리 사용량 비교

RTDETRv2와 같은 트랜스포머는 글로벌 컨텍스트를 캡처하는 데 탁월하지만, 주의 메커니즘의 4차원적 복잡성으로 인해 일반적으로 EfficientDet 또는 YOLO 같은 CNN 기반 아키텍처에 비해 훈련 중에 훨씬 더 많은 CUDA 메모리를 필요로 합니다.

성능 지표

배포할 모델을 선택할 때 개발자는 정확도mAP), 속도(지연 시간), 모델 크기(매개변수) 간의 절충점을 고려해야 합니다. 아래 표는 EfficientDet 변형과 RTDETRv2의 성능을 비교한 것입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

분석:

  • 정확성: RTDETRv2는 일반적으로 더 높은 mAP 달성합니다.val 점수가 GPU에서 비슷한 지연 시간을 가진 EfficientDet 모델과 비교됩니다. 예를 들어 RTDETRv2-x 능가 EfficientDet-d7 보다 훨씬 빠르면서도 정확도는 TensorRT 훨씬 더 높습니다.
  • 속도: EfficientDet은 CPU 성능과 상관관계가 있지만 항상 GPU 지연 시간과 상관관계가 있는 것은 아닌 FLOPs에 최적화되었습니다. RTDETRv2는 GPU 활용도를 극대화하도록 특별히 설계되었기 때문에 고성능 서버 측 애플리케이션에 적합합니다.
  • 파라미터 효율성: EfficientDet-d0은 매우 가볍기 때문에(3.9M 파라미터) 최신 가속기를 사용할 수 없는 초저전력 레거시 장치에 적합한 후보입니다.

Ultralytics의 장점: 더 우수한 대안

EfficientDet과 RTDETRv2는 강력한 모델이지만 성능, 유용성, 다양성 간의 균형을 맞추는 종합적인 솔루션을 찾는 개발자는 다음을 고려해야 합니다. Ultralytics YOLO 시리즈를 고려해 보세요. 최신 모델과 같은 모델 YOLO11 과 같은 모델은 연구부터 프로덕션 배포에 이르기까지 광범위한 애플리케이션을 위한 강력한 선택지를 제공합니다.

Ultralytics YOLO11을 선택해야 하는 이유

  • 사용 편의성: Ultralytics 모델은 간소화된 사용자 경험으로 유명합니다. 사용자는 간단한 Python API를 사용해 단 몇 줄의 코드만으로 모델을 훈련, 검증, 배포할 수 있습니다. 이는 EfficientDet에 필요한 복잡한 구성 파일이나 메모리 집약적인 RTDETR의 트레이닝 루프와는 대조적입니다.
  • 다목적성: 단일 작업에 집중하는 많은 경쟁사와 달리 YOLO11 단일 프레임워크 내에서 객체 감지, 인스턴스 세분화, 분류, 포즈 추정, 방향성 객체 감지(OBB) 를 지원합니다.
  • 잘 관리된 에코시스템: Ultralytics 데이터 세트 관리 및 모델 학습을 위한 Ultralytics HUB를 비롯한 강력한 에코시스템과 광범위한 문서 및 커뮤니티 지원을 제공합니다.
  • 성능 균형: Ultralytics 모델은 속도와 정확도 간의 탁월한 균형을 제공하도록 세심하게 설계되었습니다. 메모리 효율이 뛰어나도록 설계되었기 때문에 트랜스포머 모델이 어려움을 겪을 수 있는 표준 소비자 GPU에서도 훈련할 수 있습니다.

YOLO11에 대해 자세히 알아보세요

코드 예시: YOLO11 시작하기

다음 예제는 이전 프레임워크에 비해 API의 단순성을 보여주는 Ultralytics YOLO11 사용하여 추론을 실행하는 것이 얼마나 쉬운지 보여줍니다.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")  # 'n' for nano, or try 's', 'm', 'l', 'x'

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

이상적인 사용 사례

올바른 모델을 선택하는 것은 특정 하드웨어 제약 조건과 프로젝트 요구 사항에 따라 크게 달라집니다.

EfficientDet 사용 시기

  • 레거시 에지 디바이스: 깊이 분리형 컨볼루션이 유일한 효율적인 작업인 구형 CPU 또는 하드웨어에 배포하는 경우.
  • 파라미터 제약 조건: 모델 파일의 절대 저장 크기가 주요 병목 현상인 애플리케이션의 경우(예: EfficientDet-d0 is < 4MB).

RTDETRv2 사용 시기

  • 하이엔드 GPU 배포: 강력한 NVIDIA GPU(예: T4, A100)에 액세스할 수 있고 TensorRT 최적화를 활용할 수 있는 경우.
  • 복잡한 장면 이해: 혼잡하거나 가려진 장면에서 오브젝트를 감지하는 등 트랜스포머의 글로벌 컨텍스트 기능이 필요한 시나리오에 적합합니다.

Ultralytics YOLO11 사용 시기

  • 신속한 개발: 데이터 세트에서 배포된 모델로 빠르게 이동해야 하는 경우 Google Colab 또는 로컬 환경과 같은 표준 도구를 사용하세요.
  • 실시간 엣지 AI: YOLO11 NVIDIA Jetson 및 라즈베리 파이와 같은 엣지 디바이스에 고도로 최적화되어 뛰어난 mAP 트레이드오프를 제공합니다.
  • 멀티태스크 요구 사항: 프로젝트에 바운딩 박스 외에 세분화 마스크나 포즈 키포인트가 필요한 경우.
  • 리소스 효율성: 트레이닝 리소스가 제한되어 있는 경우(예: 제한된 VRAM), YOLO 모델은 트랜스포머 기반 대안보다 훨씬 더 효율적으로 트레이닝할 수 있습니다.

결론

EfficientDet과 RTDETRv2는 모두 컴퓨터 비전 분야에서 중요한 업적을 남겼습니다. EfficientDet은 확장을 통해 효율성의 한계를 뛰어넘었고, RTDETRv2는 실시간 애플리케이션을 위해 트랜스포머를 충분히 빠르게 만들 수 있음을 증명했습니다.

그러나 대다수의 개발자와 기업에게는 Ultralytics YOLO 모델이 가장 실용적인 솔루션입니다. 최첨단 성능과 탁월한 개발자 경험 및 풍부한 에코시스템을 결합한 Ultralytics 사용하면 강력한 AI 솔루션을 더 빠르고 안정적으로 구축할 수 있습니다.

더 많은 비교 살펴보기

결정을 내리는 데 도움이 되도록 이러한 다른 비교를 살펴보십시오.


댓글