콘텐츠로 건너뛰기

RTDETRv2 대 EfficientDet: 실시간 탐지 아키텍처 분석

최적의 신경망 아키텍처 선택은 모든 컴퓨터 비전 프로젝트의 핵심 결정 사항입니다. 본 포괄적 기술 비교에서는 두 가지 영향력 있는 객체 탐지 모델을 분석합니다: 최첨단 트랜스포머 기반 탐지기인 RTDETRv2와 확장성이 뛰어난 컨볼루션 신경망인 EfficientDet입니다. 우리는 각기 다른 아키텍처, 성능 지표, 훈련 방법론, 이상적인 배포 시나리오를 평가하여 AI 파이프라인에 대한 데이터 기반 의사 결정을 내리는 데 도움을 드릴 것입니다.

RTDETRv2: 실시간 탐지 트랜스포머

RT-DETR 성공을 바탕으로, RTDETRv2는 트랜스포머 기반 객체 탐지 패러다임을 정교화합니다. 인코더와 디코더 구조를 최적화함으로써 높은 정확도를 제공하면서도 실시간 추론 속도를 유지하여, 기존 CNN과 비전 트랜스포머 간의 격차를 효과적으로 해소합니다.

모델세부정보 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속: Baidu 날짜: 2024-07-24 링크: Arxiv, GitHub, 문서

아키텍처 및 핵심 강점

RTDETRv2는 강력한 CNN 백본(주로 ResNet 또는 HGNet)과 효율적인 트랜스포머 디코더를 결합한 하이브리드 아키텍처를 활용합니다. RTDETRv2의 가장 두드러진 특징은 비최대 억제(NMS)를 우회하는 내재적 능력입니다. 기존 탐지기는 중복 바운딩 박스를 걸러내기 NMS 필요로 하여 후처리 과정에서 가변적인 추론 지연 시간을 발생시킵니다. RTDETRv2는 탐지를 직접적인 집합 예측 문제로 공식화하여, 양분 매칭을 활용해 고유한 예측 결과를 출력합니다.

이 모델은 GPU 풍부한 서버 측 배포 환경에서 탁월한 성능을 발휘합니다. 글로벌 어텐션 메커니즘을 통해 뛰어난 상황 인식을 제공하여, 자동화된 보안 경보 시스템이나 혼잡한 군중 모니터링과 같은 복잡하고 혼잡한 환경에서 겹치는 물체를 분리하는 데 매우 능숙합니다.

제한 사항

트랜스포머 아키텍처는 강력하지만, 훈련 과정에서 표준 CNN에 비해 본질적으로 더 많은 CUDA 필요로 합니다. 또한 RTDETRv2의 미세 조정은 훈련 데이터 수렴 시간이 길어질 수 있어, 신속한 프로토타이핑에 다소 많은 자원이 소요됩니다.

RTDETRv2에 대해 자세히 알아보세요.

효율적 탐지: 확장 가능하고 효율적인 컨볼루션 신경망

EfficientDet은 다양한 자원 제약 조건에서 정확성과 효율성을 모두 최적화한 객체 탐지 모델 군을 선보였습니다. 이는 확장 가능한 머신 비전 설계의 대표적인 사례로 남아 있습니다.

모델 세부정보 저자: Mingxing Tan, Ruoming Pang, Quoc V. Le
소속: Google
날짜: 2019-11-20
링크: Arxiv, GitHub, 문서

아키텍처 및 핵심 강점

EfficientDet의 혁신은 두 가지 핵심 영역에 있습니다: 양방향 피처 피라미드 네트워크(BiFPN)와 복합 스케일링 방법입니다. BiFPN은 학습 가능한 가중치를 도입하여 다양한 입력 피처의 중요도를 학습하는 동시에, 상향식 및 하향식 다중 스케일 피처 융합을 반복적으로 적용함으로써 간단하고 빠른 다중 스케일 피처 추출을 가능하게 합니다. 복합 스케일링 방법은 네트워크의 해상도, 깊이, 너비를 동시에 균일하게 스케일링합니다.

EfficientDet 모델은 초경량 D0부터 대규모 D7까지 다양합니다. 이는 초기 모바일 증강 현실 애플리케이션과 같이 개발자가 제한된 계산 예산과 정확도 요구 사항 사이에서 균형을 맞춰야 하는 에지 AI 배포에 매우 다용도로 활용될 수 있게 합니다.

제한 사항

EfficientDet은 앵커 박스와 전통적인 NMS 파이프라인에 크게 의존하는 오래된 아키텍처입니다. 앵커 생성 과정은 신중한 하이퍼파라미터 튜닝이 필요하며, NMS 라즈베리 파이와 같은 임베디드 하드웨어에서 배포의 병목 현상을 일으킬 수 있습니다. 또한 포즈 추정이나 방향성 바운딩 박스(OBB)와 같은 현대적인 작업에 대한 기본 지원이 부족합니다.

EfficientDet에 대해 자세히 알아보세요.

성능 및 지표 비교

이러한 모델 간의 정확한 장단점을 이해하려면 처리량과 매개변수 효율성을 분석해야 합니다. 아래 표는 최신 RTDETRv2 시리즈가 확장 가능한 EfficientDet 제품군과 어떻게 비교되는지 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
064034.610.23.923.92.54
164040.513.57.316.66.1
264043.017.710.928.111.0
364047.528.019.5912.024.9
464049.742.833.5520.755.2
564051.572.567.8633.7130.0
664052.692.889.2951.9226.0
764053.7122.0128.0751.9325.0

위에서 볼 수 있듯이, RTDETRv2는 중간 수준의 EfficientDet 모델과 유사한 매개변수 수에서 평균 정밀도(mAP)를 현저히 높게 달성하며, 정확도 향상을 위해 트랜스포머 아키텍처를 적극 활용합니다.

사용 사례 및 권장 사항

RT-DETR EfficientDet 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

RT-DETR 선택해야 할 때

RT-DETR 다음에 대한 강력한 RT-DETR :

  • 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
  • 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.

EfficientDet을 선택해야 하는 경우

EfficientDet는 다음에 권장됩니다:

  • Google 및 TPU : Google Vision API 또는 TPU 깊이 통합된 시스템으로, EfficientDet가 네이티브 최적화를 제공합니다.
  • 복합 스케일링 연구: 균형 잡힌 네트워크 깊이, 너비 및 해상도 스케일링의 효과를 연구하는 데 초점을 맞춘 학술적 벤치마킹.
  • TFLite 통한 모바일 배포: Android 임베디드 Linux 기기용 TensorFlow 내보내기가 특별히 필요한 프로젝트.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

Ultralytics : 최첨단 기술의 진보

RTDETRv2와 EfficientDet 모두 강력한 장점을 지니고 있지만, 현대적인 AI 개발에는 최첨단 성능과 함께 원활한 개발자 경험을 제공하는 프레임워크가 요구됩니다. Ultralytics 컴퓨터 비전 작업에 훨씬 더 간소화된 접근 방식을 제공합니다.

최첨단 탐지 기술을 탐구 중이라면, 새로 출시된 Ultralytics CNN과 트랜스포머의 장점을 모두 종합합니다.

왜 YOLO26을 선택해야 할까요?

YOLO26은 엔드투엔드 NMS 설계를 구현하여 RTDETRv2의 배포 간편성을 초고효율 YOLO 적용했습니다. 또한 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받은 MuSGD 최적화기를도입해 우수한 훈련 안정성을 제공합니다. DFL 제거 (간편한 내보내기와 에지/저전력 장치 호환성 향상을 위한 분포 초점 손실 제거)를 통해 YOLO26은 이전 세대 대비 최대 43% 빠른 CPU 자랑하며, 무거운 모델 대비 에지 컴퓨팅에 탁월한 선택지입니다. 또한 ProgLoss + STAL은 IoT, 로봇공학, 항공 이미지에 중요한 소형 물체 인식에서 눈에 띄는 개선을 보여주는 향상된 손실 함수를 제공합니다.

Python 제공하는 사용 편의성은 타의 추종을 불허합니다. 개발자는 연구 저장소에서 일반적으로 요구되는 반복적인 코드를 추상화한 직관적인 API를 통해 모델을 훈련, 검증 및 내보낼 수 있습니다.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Ultralytics 인스턴스 분할이미지 분류를 포함한 다중 작업을 기본적으로 지원하여 다양한 산업 요구에 대응하는 다목적 도구 키트를 제공합니다. 또한 최신 Ultralytics 분포 초점 손실(DFL)을 제거함으로써 계산 그래프가 단순화되어 임베디드 NPU 및 TPU로의 원활한 내보내기가 보장됩니다.

원활한 데이터 주석 작업과 모델 관리를 위해 Ultralytics 머신러닝 라이프사이클 전반을 관리할 수 있는 포괄적인 클라우드 환경을 제공하며, 이는 강력한 컴퓨터 비전 솔루션을 실제 운영 환경에 배포하기 위한 최상의 선택으로 자리매김합니다.


댓글