콘텐츠로 건너뛰기

YOLOv7 RTDETRv2: 실시간 객체 탐지를 위한 기술적 비교

컴퓨터 비전 분야는 컨볼루션 신경망(CNN)과 비전 트랜스포머(ViT) 간의 경쟁에 크게 영향을 받으며 계속해서 빠르게 진화하고 있습니다. 이 기술적 비교는 두 가지 주요 아키텍처를 심층적으로 분석합니다: YOLOv7, 고도로 최적화된 CNN 기반 객체 탐지기와 RTDETRv2, 최첨단 실시간 탐지 트랜스포머입니다.

개발자는 이러한 비전 AI 모델의 구조적 차이점, 성능 지표 및 이상적인 배포 시나리오를 분석함으로써, 해당 모델을 생산 파이프라인에 통합할 때 정보에 기반한 결정을 내릴 수 있습니다.

YOLOv7: 무료 선물 가방 CNN 아키텍처

YOLOv7 기존 YOLO 패러다임 전환을 가져오는 구조적 최적화를 YOLOv7 , 일련의 "훈련 가능한 무료 요소 모음"을 통해 실시간 객체 탐지의 한계를 확장했습니다.

주요 특징: 저자: 왕천야오(Chien-Yao Wang), 알렉세이 보치코프스키(Alexey Bochkovskiy), 리아오홍위안(Hong-Yuan Mark Liao)
소속 기관: 중앙연구원 정보과학연구원
날짜: 2022-07-06
아카이브: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

아키텍처 및 강점

YOLOv7 확장 효율적 레이어 집계 네트워크(E-ELAN) 아키텍처로 YOLOv7 . 이 구조적 설계는 원래의 기울기 경로를 파괴하지 않으면서 모델이 더 다양한 특징을 학습할 수 있게 합니다. 또한 계획된 재매개변수화 컨볼루션(re-parameterized convolutions)을 통합하여 정확도를 저하시키지 않으면서 추론 속도를 최적화합니다. 분리된 헤드 구조(decoupled head structure)를 통해 속도와 정확도 사이에서 인상적인 절충점을 달성할 수 있어, 서버급 GPU에서의 실시간 물체 탐지 작업에 매우 적합합니다.

YOLOv7 또한 매우 YOLOv7 . 표준 바운딩 박스 탐지 외에도, 저장소에는 자세 추정인스턴스 분할을 위한 분기들이 제공되어 그 적응성을 입증합니다.

제한 사항

기존 CNN 모델과 마찬가지로 YOLOv7 후처리 단계에서 비최대 억제(NMS)에 YOLOv7 . NMS 특히 복잡한 장면에서 가변적인 지연 시간을 NMS , 이는 에지 디바이스에서의 엄격한 실시간 성능 보장을 어렵게 할 수 있습니다.

7에 대해 자세히 알아보기

RTDETRv2: 실시간 트랜스포머의 진화

RTDETRv2는 기존 RT-DETR 기반으로 구축되어, 트랜스포머가 높은 공간 정확도를 유지하면서도 실시간 지연 YOLO 경쟁할 수 있음을 입증합니다.

주요 특징: 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
소속 기관: Baidu
날짜: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RT-DETR

아키텍처 및 강점

RTDETRv2는 비전 트랜스포머의 중요한 진보를 의미합니다. 유연한 쿼리 선택 과정과 효율적인 하이브리드 인코더를 활용하여 다중 스케일 특징을 신속하게 처리합니다. 탐지 트랜스포머(DETR)에 특화된 새로운 "bag-of-freebies" 기법을 도입함으로써 공간 추론 능력을 극한까지 끌어올렸습니다. 본질적으로 NMS 않아 결정론적 추론 시간을 제공하며, 이는 엄격한 스마트 시티 애플리케이션과 자율 주행에 필수적인 기능입니다.

제한 사항

RTDETRv2는 발전했음에도 불구하고 트랜스포머 기반 아키텍처의 전통적인 부담을 안고 있습니다. CNN에 비해 훈련과 추론 모두에서 훨씬 더 많은 CUDA 요구합니다. 또한 훈련 수렴 시간이 현저히 길어, 방대한 양의 고품질 주석 데이터( COCO 등)와 막대한 계산 자원이 필요합니다.

RTDETRv2에 대해 자세히 알아보세요.

성능 비교

이러한 모델들을 벤치마킹할 때는 정밀도, 순수 추론 속도, 계산 자원을 포괄하는 종합적인 관점에서 살펴야 합니다. 아래는 직접 비교표입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

벤치마크 해석하기

RTDETRv2-x는 54.3%라는 절대 최고mAPval을 기록하지만, 무려 2590억 FLOPs의 연산량이 필요합니다. 반면 YOLOv7 우수한 기준점을 제공하지만, 순수 네트워크 지연 시간 지표로는 완전히 포착되지 않는 기존 NMS 문제를 안고 있습니다.

Ultralytics : 생태계와 진화

YOLOv7 RTDETRv2는 강력한 기능을 제공하지만, 실제 운영 환경에 배포할 때 종종 운영상의 마찰이 발생합니다. 바로 이 점에서 Ultralytics 탁월한 성능을 발휘합니다. 원활한 종단 간 통합을 위해 설계된 Ultralytics 개발자에게 컴퓨터 비전 파이프라인의 전형적인 복잡성을 추상화하는 통합 API를 제공합니다.

탁월한 다용도성과 메모리 효율성

VRAM을 대량으로 소모하는 경직된 트랜스포머 모델과 달리, Ultralytics YOLO 엄격한 메모리 효율성을 유지합니다. 이를 통해 접근 가능한 하드웨어에서 신속한 모델 훈련이 가능합니다. 이 생태계는 단일 코드베이스로 이미지 분류방향성 바운딩 박스(OBB) 탐지를 포함한 다양한 컴퓨터 비전 작업을 본질적으로 지원하며, RTDETRv2가 현재 갖추지 못한 유연성을 제공합니다.

원활한 배포

연구에서 생산 환경으로의 전환에는 강력한 배포 옵션이 필요합니다. Ultralytics 업계 표준 형식으로의 원클릭 모델 내보내기를 기본적으로 지원합니다. ONNX 를 통한 크로스 플랫폼 호환성을 목표로 하든, 아니면 TensorRT 를 통한 최대 GPU 목표로 하든, 파이프라인은 완전히 자동화되고 신뢰할 수 있습니다.

궁극의 업그레이드: Ultralytics

YOLOv7 RTDETRv2 사이에서 고민하는 개발자들에게 최적의 선택은 사실 비전 AI의 새로운 표준인 Ultralytics . 2026년 1월 출시된 YOLO26은 CNN의 속도와 트랜스포머의 정교한 추론 능력 사이의 간극을 메우면서도 각각의 약점을 완전히 제거합니다.

YOLO26에 대해 더 알아보기

YOLO26은 서버 및 에지 배포 모두에 맞춤화된 획기적인 혁신을 도입합니다:

  • 엔드투엔드 NMS 설계: 최초로 도입된 YOLOv10에서 처음 선보인 YOLO26은 NMS 원천적으로 제거합니다. 이는 트랜스포머의 부담스러운 계산 오버헤드 없이도 RTDETRv2의 결정론적 지연 시간을 보장합니다.
  • MuSGD 최적화기: 대규모 언어 모델 훈련 기법(예: Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 SGD on의 하이브리드 방식을 활용합니다. 이는 ViT에서 사용되는 표준 AdamW 비해 전례 없는 훈련 안정성과 현저히 빠른 수렴 시간을 제공합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 소형 물체 인식에서 주목할 만한 개선을 가져와, 로봇 자동화에 핵심적인 RTDETRv2의 다중 스케일 특징 이점과 직접적으로 경쟁합니다.
  • 에지 최적화 및 DFL 제거: 분포 초점 손실(DFL)을 제거함으로써 YOLO26은 출력 헤드를 간소화하여 CPU 속도를 최대 43%까지 향상시킵니다. 이로 인해 무거운 트랜스포머 모델보다 에지 디바이스에 훨씬 더 쉽게 배포할 수 있습니다.

Ultralytics 활용한 훈련 예시

Python 간편함 덕분에 몇 줄의 코드만으로 최첨단 YOLO26 모델을 훈련시킬 수 있습니다:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

이상적인 사용 사례

적절한 아키텍처 선택은 배포 제약 조건과 하드웨어 가용성에 크게 좌우됩니다:

YOLOv7 고려해야 할 때:

  • YOLOv7 확립된 기준선으로 YOLOv7 기존 연구 프로젝트들.
  • 원시 GPU 풍부하고 NMS 변동이 허용되는 환경.

RTDETRv2를 고려해야 할 시점:

  • 절대적인 최대 mAP 필요한 고급 서버 배포
  • 확정적 추론 지연 시간(NMS)이 엄격히 요구되는 시나리오, 단 트랜스포머 백본을 지원할 VRAM이 확보된 경우에 한함.

Ultralytics 선택해야 할 때:

  • 거의 항상 그렇습니다. RTDETRv2의 NMS 결정론을 제공하며, YOLOv7 속도와 정확도를 뛰어넘고, VRAM 사용량을 현저히 줄였으며, 데이터셋 관리, 훈련 및 배포를 손쉽게 수행할 수 있도록 Ultralytics 완전히 통합되어 있습니다.

더 많은 모델 살펴보기

다른 아키텍처의 성능 비교가 궁금하신가요? 이전 세대에 대한 심층 분석을 살펴보세요. YOLO11YOLOv8에 대한 심층 분석을 살펴보거나, 하이퍼파라미터 튜닝을 활용하여 프로젝트 정확도를 극대화하는 방법을 알아보세요.


댓글