YOLOv7 대 RTDETRv2: 실시간 객체 탐지를 위한 기술 비교

컴퓨터 비전 분야는 합성곱 신경망(CNN)과 비전 트랜스포머(ViT) 간의 경쟁에 힘입어 계속해서 빠르게 진화하고 있습니다. 이 기술 비교에서는 고도로 최적화된 CNN 기반 객체 탐지기인 YOLOv7과 최첨단 실시간 탐지 트랜스포머인 RTDETRv2라는 두 가지 강력한 아키텍처를 심층적으로 다룹니다.

아키텍처의 차이점, 성능 지표, 이상적인 배포 시나리오를 분석함으로써 개발자는 이러한 비전 AI 모델을 프로덕션 파이프라인에 통합할 때 정보에 입각한 결정을 내릴 수 있습니다.

YOLOv7: Bag-of-Freebies CNN 아키텍처

YOLOv7은 기존 YOLO 제품군에 여러 패러다임 변화를 가져오는 구조적 최적화를 도입하여, 일련의 "학습 가능한 Bag-of-Freebies"를 통해 실시간 객체 탐지의 한계를 뛰어넘었습니다.

주요 특징: 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
조직: Institute of Information Science, Academia Sinica
날짜: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

아키텍처 및 강점

YOLOv7은 E-ELAN(Extended Efficient Layer Aggregation Network) 아키텍처를 기반으로 합니다. 이 구조적 설계를 통해 모델은 원래의 그래디언트 경로를 손상시키지 않으면서 더 다양한 특징을 학습할 수 있습니다. 또한, 정확도를 저하시키지 않으면서 추론 속도를 최적화하는 계획된 재매개변수화(re-parameterized) 컨볼루션을 통합했습니다. 디커플링된 헤드 구조를 통해 속도와 정확도 사이에서 인상적인 균형을 달성하며, 서버급 GPU에서의 실시간 객체 탐지 작업에 매우 적합합니다.

YOLOv7은 또한 매우 다재다능합니다. 표준 경계 상자(BBox) 탐지를 넘어, 이 리포지토리는 포즈 추정인스턴스 분할을 위한 브랜치를 제공하여 그 적응성을 보여줍니다.

제한 사항

많은 기존 CNN 모델과 마찬가지로, YOLOv7은 후처리를 위해 NMS(Non-Maximum Suppression)에 의존합니다. NMS는 특히 혼잡한 장면에서 가변적인 지연 시간을 유발하며, 이는 엣지 디바이스에서 엄격한 실시간 보장을 어렵게 만들 수 있습니다.

YOLOv7에 대해 자세히 알아보기

RTDETRv2: 실시간 트랜스포머의 발전

RTDETRv2는 기존 RT-DETR 프레임워크를 기반으로 구축되었으며, 트랜스포머가 높은 공간 정확도를 유지하면서도 실시간 지연 시간 측면에서 YOLO 아키텍처와 경쟁할 수 있음을 더욱 입증했습니다.

주요 특징: 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
조직: Baidu
날짜: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

아키텍처 및 강점

RTDETRv2는 비전 트랜스포머의 중요한 진보를 나타냅니다. 유연한 쿼리 선택 프로세스와 효율적인 하이브리드 인코더를 활용하여 다중 스케일 특징을 빠르게 처리합니다. 특히 탐지 트랜스포머(DETR)를 위해 맞춤화된 새로운 "bag-of-freebies"를 도입함으로써 공간 추론 능력을 극대화했습니다. 기본적으로 NMS가 필요 없기 때문에 결정론적인 추론 시간을 제공하며, 이는 엄격한 스마트 시티 애플리케이션 및 자율 주행에 필수적인 기능입니다.

제한 사항

이러한 발전에도 불구하고, RTDETRv2는 트랜스포머 기반 아키텍처의 고질적인 부담을 안고 있습니다. CNN에 비해 학습 및 추론 과정에서 훨씬 더 많은 CUDA 메모리를 요구합니다. 또한, 학습 수렴 시간이 눈에 띄게 길며, 방대한 양의 고품질 주석 데이터(예: COCO 데이터셋)와 막대한 계산 자원이 필요합니다.

RTDETRv2에 대해 더 알아보기

성능 비교

이 모델들을 벤치마킹할 때는 정밀도, 원시 추론 속도, 계산 비용을 모두 아우르는 전체적인 그림을 보아야 합니다. 아래는 직접 비교 표입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
벤치마크 해석

RTDETRv2-x가 mAPval에서 54.3%로 가장 높은 수치를 기록했지만, 2590억 개의 엄청난 FLOPs를 필요로 합니다. 반대로 YOLOv7 아키텍처는 훌륭한 기준점을 제공하지만, 순수 네트워크 지연 시간 지표에는 완전히 반영되지 않는 기존 NMS 오버헤드로 인해 어려움을 겪습니다.

Ultralytics의 이점: 생태계와 진화

YOLOv7과 RTDETRv2는 강력한 기능을 제공하지만, 프로덕션 환경에 배포할 때는 종종 물류상의 마찰이 발생합니다. 바로 여기서 Ultralytics 생태계가 빛을 발합니다. 원활한 엔드투엔드 통합을 위해 설계된 Ultralytics 프레임워크는 컴퓨터 비전 파이프라인의 일반적인 복잡성을 추상화하는 통합 API를 개발자에게 제공합니다.

비교할 수 없는 다재다능함과 메모리 효율성

엄청난 양의 VRAM을 소비하는 경직된 트랜스포머 모델과 달리, Ultralytics YOLO 모델은 엄격한 메모리 효율성을 유지합니다. 이를 통해 접근 가능한 하드웨어에서 신속한 모델 학습이 가능합니다. 이 생태계는 단일 코드베이스에서 이미지 분류회전 경계 상자(OBB) 탐지를 포함한 다수의 컴퓨터 비전 작업을 본질적으로 지원하며, 이는 현재 RTDETRv2가 부족한 유연성을 제공합니다.

원활한 배포

연구에서 프로덕션으로 전환하려면 강력한 배포 옵션이 필요합니다. Ultralytics API는 업계 표준 형식으로의 원클릭 모델 내보내기를 기본적으로 처리합니다. 플랫폼 간 호환성을 위해 ONNX를 타겟팅하든, 최대 GPU 가속을 위해 TensorRT를 타겟팅하든, 파이프라인은 완전히 자동화되어 안정적입니다.

궁극적인 업그레이드: Ultralytics YOLO26

YOLOv7과 RTDETRv2 사이에서 고민하는 개발자에게 최선의 길은 바로 비전 AI의 새로운 표준인 Ultralytics YOLO26입니다. 2026년 1월에 출시된 YOLO26은 CNN의 속도와 트랜스포머의 정교한 추론 사이의 간극을 메우는 동시에, 각각의 단점을 완전히 제거했습니다.

YOLO26에 대해 더 알아보기

YOLO26은 서버 및 엣지 배포를 모두 겨냥한 획기적인 혁신을 도입했습니다:

  • 엔드투엔드 NMS-Free 설계: YOLOv10에서 처음 선구적으로 도입된 YOLO26은 NMS 후처리를 기본적으로 제거합니다. 이는 트랜스포머의 부담스러운 계산 오버헤드 없이도 RTDETRv2의 결정론적 지연 시간을 보장합니다.
  • MuSGD 옵티마이저: 대규모 언어 모델 학습 기술(예: Moonshot AI의 Kimi K2)에서 영감을 받은 YOLO26은 SGD와 Muon의 하이브리드를 활용합니다. 이는 ViT에서 사용되는 표준 AdamW 구현에 비해 전례 없는 학습 안정성과 훨씬 빠른 수렴 시간을 제공합니다.
  • ProgLoss + STAL: 이 고급 손실 함수들은 RTDETRv2의 다중 스케일 특징 장점과 직접 경쟁하는 소형 객체 인식에서 현저한 개선을 가져오며, 이는 로봇 자동화에 매우 중요합니다.
  • 엣지 최적화 및 DFL 제거: DFL(Distribution Focal Loss)을 제거함으로써 YOLO26은 출력 헤드를 간소화하여 CPU 추론 속도를 최대 43% 향상시켰으며, 이는 무거운 트랜스포머 모델보다 엣지 디바이스에 훨씬 더 쉽게 배포할 수 있게 합니다.

Ultralytics를 이용한 학습 예시

Ultralytics Python API의 단순함 덕분에 단 몇 줄의 코드로 최첨단 YOLO26 모델을 학습할 수 있습니다:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

이상적인 활용 사례

올바른 아키텍처 선택은 배포 제약 조건과 하드웨어 가용성에 크게 좌우됩니다:

YOLOv7을 고려해야 할 때:

  • YOLOv7이 확립된 기준점인 기존 연구 프로젝트.
  • 원시 GPU 가속이 풍부하고 NMS 지연 시간 지터(jitter)가 허용되는 환경.

RTDETRv2를 고려해야 할 때:

  • 최대 mAP가 필요한 하이엔드 서버 배포.
  • 트랜스포머 백본을 지원할 VRAM이 확보된 상태에서, 결정론적 추론 지연 시간(NMS-free)이 엄격하게 요구되는 시나리오.

Ultralytics YOLO26을 선택해야 할 때:

  • 거의 항상. 이 모델은 RTDETRv2의 NMS-free 결정론을 제공하고, YOLOv7의 속도와 정확도를 능가하며, VRAM을 훨씬 적게 사용합니다. 또한 데이터셋 관리, 학습 및 배포를 간편하게 수행할 수 있는 Ultralytics Platform에 완벽하게 통합되어 있습니다.
더 많은 모델 탐색

다른 아키텍처는 어떤지 궁금하십니까? YOLO11YOLOv8과 같은 이전 세대에 대한 심층 분석을 살펴보거나, 하이퍼파라미터 튜닝을 활용하여 프로젝트의 정확도를 극대화하는 방법을 알아보십시오.

댓글