콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv7: 실시간 객체 탐지의 진화 탐색

컴퓨터 비전 분야는 지난 몇 년간 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT)의 지속적인 혁신에 힘입어 급속히 확장되었습니다. 배포에 적합한 아키텍처를 선택하려면 속도, 정확도, 계산 오버헤드 간의 미묘한 상충 관계를 이해해야 합니다. 본 가이드는 RTDETRv2와 YOLOv7 두 가지 주목받는 아키텍처의 기술적 차이점을 살펴보고, 최신Ultralytics YOLO26에서 구현된 현대적 발전 사항도 함께 조명합니다.

RTDETRv2: 실시간 탐지를 위한 트랜스포머 접근법

RTDETRv2(실시간 탐지 트랜스포머 버전 2)는 전작의 기반을 바탕으로, 트랜스포머 기반 아키텍처가 기존의 후처리 단계를 의존하지 않고도 실시간 시나리오에서 효과적으로 경쟁할 수 있음을 입증합니다.

저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속:Baidu 날짜: 2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RTDETRv2 저장소

건축 하이라이트

RTDETRv2는 하이브리드 인코더와 트랜스포머 디코더 아키텍처를 활용합니다. 자체 어텐션 메커니즘을 통해 모델은 전체 이미지를 종합적으로 처리하여, 국소적인 컨볼루션 커널보다 복잡한 공간적 관계를 더 잘 이해할 수 있습니다. 가장 두드러진 특징 중 하나는 본질적으로NMS(Non-Maximum Suppression) NMS 설계입니다.NMS 제거함으로써 RTDETRv2는 배포 시 변동적인 추론 지연 시간을 유발하는 일반적인 병목 현상을 해소합니다.

장점과 한계

RTDETRv2의 주요 강점은 복잡한 장면에서 밀집되고 겹치는 물체를 처리하는 능력에 있습니다. 트랜스포머 어텐션 레이어가 제공하는 글로벌 컨텍스트는 특히 가림 현상이 빈번한 상황에서 높은 정확도를 보장합니다.

그러나 이는 계산적 비용을 수반한다. 트랜스포머 모델은 전통적으로 CNN에 비해 훈련 및 추론 과정에서 더 높은 메모리 사용량을 요구한다. 또한 RTDETRv2는 분산 훈련 시 수렴에 더 많은 에포크가 필요하여, 개발자가 맞춤형 데이터셋을 튜닝할 때 더 긴 반복 주기가 발생한다.

RTDETRv2에 대해 자세히 알아보세요.

YOLOv7: 속도를 위한 CNN 기준 모델

RTDETRv2보다 1년 앞서 발표된 YOLOv7 기존 YOLO 여러 구조적 최적화를 YOLOv7 , 당시 CNN 기반 실시간 탐지기의 강력한 벤치마크를 제시했다.

저자: 왕천야오(Chien-Yao Wang), 알렉세이 보치코프스키(Alexey Bochkovskiy), 리아오홍위안(Hong-Yuan Mark Liao)
소속기관:대만 중앙연구원 정보과학연구원
날짜: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7

건축 하이라이트

YOLOv7 아키텍처는 확장 효율적 레이어 집계 네트워크(E-ELAN) 개념을 중심으로 구축되었습니다. 이 접근법은 기울기 경로를 최적화하여 계산 복잡성을 크게 증가시키지 않으면서도 모델이 더 효과적으로 학습할 수 있도록 합니다. 저자들은 또한 "훈련 가능한 무료 기능 모음(trainable bag-of-freebies)"을 도입했는데, 이는 에지 디바이스에서의 추론 속도에 영향을 주지 않으면서 훈련 중 모델 정확도를 향상시키는 일련의 방법론입니다.

장점과 한계

YOLOv7 소비자용 GPU에서 뛰어난 처리 속도를 제공하며 표준 객체 탐지 작업에 YOLOv7 매우 유능한 모델입니다. 이 모델의 CNN 특성은 RTDETRv2와 같은 트랜스포머 기반 모델에 비해 훈련 중 일반적으로 더 적은 CUDA 필요로 함을 의미합니다.

이러한 장점에도 불구하고 YOLOv7 후처리 NMS 의존합니다. 예측 밀도가 높은 환경에서는 NMS 인해 처리 시간 변동이 발생할 수 있어 엄격한 실시간 보장이 어려워집니다. 또한 현대적인 프레임워크와 비교했을 때, 인스턴스 분할자세 추정과 같은 다양한 작업을 처리하는 과정이 분절될 수 있습니다.

7에 대해 자세히 알아보기

성능 비교

이러한 모델을 평가하려면 평균 정밀도(mAP), 매개변수 수, 추론 속도 사이의 섬세한 균형을 살펴봐야 합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

성능 컨텍스트

RTDETRv2-x는 가장 mAP 달성하지만, 동시에 가장 많은 매개변수와 FLOPs를 가집니다. RTDETRv2-s와 같은 소형 변종은 TensorRT 경쟁력 있는 속도를 제공하지만, 전용 GPU가 없는 저전력 환경을 목표로 하는 사용자는 CPU 성능을 신중하게 평가해야 합니다.

현대적 해결책: YOLO26의 등장

RTDETRv2와 YOLOv7 컴퓨터 비전 애플리케이션의 한계를 넓히는 데 중추적인 YOLOv7 , AI 환경은 빠르게 진화하고 있습니다. 2026년 1월에 출시된 YOLO26 는 CNN의 효율성과 트랜스포머 기반 NMS(Non-Maximum Suppression)가 필요 없는 아키텍처의 장점을 결합한 모델입니다.

새로운 시스템을 구축하는 개발자와 연구원을 위해 통합된 Ultralytics Python 기술적 부채를 크게 줄여주는 통합된 경험을 제공합니다.

YOLO26의 주요 혁신점

  • 엔드투엔드 NMS 설계: YOLO26은 기본적으로 엔드투엔드 방식으로, NMS 없이 더 빠르고 간편한 배포를 가능하게 합니다. 이 획기적인 접근법은 최초로 YOLOv10에서 최초로 도입되어 객체 밀도와 무관하게 안정적인 지연 시간을 보장합니다.
  • 최대 43% 빠른 CPU : 에지 컴퓨팅 및 GPU가 없는 디바이스에 특화 최적화되어, 무거운 트랜스포머 모델보다 현장 배포에 훨씬 더 유연하게 활용 가능합니다.
  • MuSGD 최적화기: SGD 뮤온(Moonshot AI의 Kimi K2에서 영감을 얻음)의 하이브리드로, 대규모 언어 모델(LLM) 훈련 혁신을 컴퓨터 비전 분야에 도입하여 보다 안정적인 훈련과 빠른 수렴을 실현합니다.
  • DFL 제거: 분포 초점 손실(Distribution Focal Loss)이 제거되어 임베디드 NPU 및 TensorRT 환경으로의 내보내기를 원활하게 하기 위해 계산 그래프가 단순화되었습니다.
  • ProgLoss + STAL: 개선된 손실 함수는 로봇공학, IoT, 항공 이미지 분석에 중요한 소형 물체 인식 성능을 현저히 향상시킵니다.
  • 특정 작업 개선 사항: YOLO26은 단순한 탐지용이 아닙니다. 분할을 위한 다중 스케일 프로토타입, 자세 추적을 위한 잔차 로그 가능도 추정(RLE), 방향성 바운딩 박스(OBB) 경계 문제를 해결하는 특수 각도 손실 기능을 갖추고 있습니다.

간소화된 개발자 환경

YOLO26(또는 매우 인기 있는 YOLO11)을 선택하는 진정한 장점은 잘 관리된 생태계입니다. 사용자 정의 데이터셋으로 훈련하는 데는 최소한의 상용 코드만 필요합니다:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26에 대해 더 알아보기

이상적인 사용 사례 및 애플리케이션

이러한 아키텍처 중 하나를 선택하는 것은 대상 하드웨어와 구체적인 운영 요구 사항에 크게 좌우됩니다.

RTDETRv2를 고려해야 하는 경우

RTDETRv2는 강력한 GPU를 탑재한 서버 측 처리 환경에서 매우 효과적입니다. 전역적 어텐션 메커니즘을 통해 복잡한 장면 이해에 적합하며, 특히 혼잡한 이벤트 모니터링이나 중첩된 특징에 대한 심층적 문맥 분석이 필요한 전문 의료 영상 처리 등에 활용됩니다.

YOLOv7 고려해야 할 때

YOLOv7 종종 기존 학술 연구에서 기준 비교 모델로 YOLOv7 . 또한 기존 파이프라인이 특정 PyTorch 하드코딩되어 있고 최신 프레임워크의 다중 작업 유연성이 필요하지 않은 오래된 산업 배포에서도 발견됩니다.

현대적인 스마트 시티 인프라, 드론 항법, 고속 제조를 위해 YOLO26은 탁월한 균형을 제공합니다. 낮은 메모리 요구량으로 인해 하이퍼파라미터 조정 및 훈련이 일반 소비자용 하드웨어에서도 가능하며, NMS 추론이 가능해 라즈베리 파이 ( Raspberry Pi) 나 NVIDIA 과 같은 제한된 에지 디바이스에서도 신속한 실행이 보장됩니다.

더 많은 비교 살펴보기

이러한 모델들이 다른 아키텍처와 비교해 어떤 성능을 보이는지 궁금하신가요? YOLO11 RTDETRYOLOv8 YOLOv7 대한 상세 가이드를 확인하여 귀하의 비전 AI 프로젝트에 가장 적합한 모델을 찾아보세요.


댓글