콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv6.0: 트랜스포머 정밀도와 산업용 속도의 만남

현대 객체 탐지 분야의 지형을 탐색하려면 순수한 속도와 정교한 장면 이해 사이의 균형을 맞추어야 합니다. 본 기술 비교에서는 두 가지 영향력 있는 아키텍처를 분석합니다: 실시간 탐지 트랜스포머( RTDETR)의 정교한 진화형인 RTDETRv2와 산업용 처리량에 최적화된 CNN 기반의 강력한 성능을 자랑하는 YOLOv6.0입니다.

경영진 요약

RTDETRv2는 비전 트랜스포머의 글로벌 컨텍스트 기능을 활용하여 비최대 억제(NMS) 없이도 복잡하고 혼잡한 환경에서 탁월한 성능을 발휘하는 반면, YOLOv6.YOLOv6 공격적인 양자화 및 아키텍처 튜닝을 통해 전용 GPU 초당 프레임 수(FPS)를 극대화하는 데 중점을 둡니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

RTDETRv2: 트랜스포머의 진화

RTDETRv2 (실시간 탐지 트랜스포머 버전 2)는 트랜스포머 기반 탐지를 실시간 애플리케이션에 적용 가능하게 만드는 데 있어 중요한 진전을 의미합니다. 기존 RT-DETR의 성공을 바탕으로, 이 버전은 동적 입력 처리를 위한 유연한 그리드 기반 접근법을 도입하고 수렴 속도를 크게 개선했습니다.

  • 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
  • 조직조직: Baidu
  • 날짜: 2023년 4월 17일 (v1), 2024년 7월 (v2 업데이트)
  • 링크:Arxiv | GitHub

RT-DETR에 대해 자세히 알아보세요.

아키텍처 및 혁신

RTDETRv2의 핵심 강점은 하이브리드 인코더와 불확실성을 최소화하는 쿼리 선택에 있습니다. 장거리 의존성을 처리하는 데 어려움을 겪는 기존 CNN과 달리, 트랜스포머 백본은 모델이 이미지의 먼 부분들에 동시에 '주의를 기울일' 수 있게 합니다.

  1. 그리드 박스 앵커 메커니즘: 표준 DETR의 학습된 객체 쿼리와 달리, RTDETRv2는 그리드 박스를 사용하여 쿼리를 초기화함으로써 최적화 경로를 더 매끄럽게 만들고 수렴 속도를 높입니다.
  2. 무료 기능 모음: v2 업데이트에는 데이터 증강 전략 개선 및 손실 함수 최적화를 포함한 다수의 훈련 기능 향상이 적용되어, Small 모델의 정확도가 48. mAP 향상되었습니다.
  3. NMS 추론: 설계상 트랜스포머는 고유한 객체 집합을 직접 예측합니다. 이는 CNN 기반 모델에서 종종 지연 시간 변동과 하이퍼파라미터 튜닝 문제를 야기하는 후처리 단계인 비최대 억제(NMS)의 필요성을 제거합니다.

트랜스포머의 장점

RTDETRv2와 같은 트랜스포머 모델은 물체가 크게 겹치는 복잡한 장면에서 탁월한 성능을 발휘합니다. 이 모델들은 국소적 처리 대신 전체 이미지 컨텍스트를 전역적으로 처리하기 때문에, 컨볼루션 기반 탐지기가 흔히 혼란스러워하는 가림 현상에 덜 취약합니다.

YOLOv6.0: 산업 전문가

YOLOv6.YOLOv6(흔히 "YOLOv6 .0: A Full-Scale Reloading"로 불림)YOLOv6 하드웨어가 표준화되고 처리량이 최우선인 산업용 애플리케이션을 위해 특별히 설계되었습니다. 메이투안(美团)의 비전 팀이 개발한 이 모델은 TensorRT 활용하여 NVIDIA T4 GPU에서의 성능을 최우선으로 합니다.

6에 대해 자세히 알아보기

기술 아키텍처

YOLOv6.0은 "EfficientRep" 백본 개념을 개선한 순수 CNN 기반 아키텍처를 채택합니다.

  1. RepBi-PAN: RepVGG 스타일 블록으로 강화된 양방향 경로 집계 네트워크(Bi-PAN). 이 구조는 모델이 훈련 중에는 복잡한 분기를 가질 수 있지만, 추론 시에는 단순하고 빠른 3x3 컨볼루션 스택으로 융합되도록 합니다.
  2. 앵커 보조 학습(AAT): 앵커 없는 프레임워크에 앵커 기반 힌트를 재도입하여 학습을 안정화시키고, 수렴 속도와 최종 정확도를 약간 향상시키려는 하이브리드 전략.
  3. 양자화 인식: 이 아키텍처는 양자화에 친화적으로 특별히 설계되어, 에지 GPU에서 극한의 속도 향상을 위해 INT8 정밀도로 변환할 때 정확도 손실을 최소화합니다.

중요한 차이점과 사용 사례

1. 글로벌 컨텍스트 대 로컬 특징

RTDETRv2는 복잡한 장면 이해에서 탁월한 성능을 발휘합니다. 멀리 떨어진 객체 간의 관계를 식별하거나 심각한 가림 현상(예: 혼잡한 경기장에서 사람 계수)을 처리해야 하는 애플리케이션의 경우, 트랜스포머의 자기 주의 메커니즘이 뚜렷한 이점을 제공합니다. 컨볼루션에 의존하는 YOLOv6. YOLOv6 국소 특징 탐지에 매우 효과적이지만, NMS 트랜스포머에 비해 중첩이 심한 경우 다소 어려움을 겪을 수 있습니다.

2. 하드웨어 의존성

YOLOv6.YOLOv6"하드웨어 인식형" 설계입니다. 인상적인 FPS 수치는 TensorRT 사용하는 특정 NVIDIA (예: T4)에서 가장 잘 구현됩니다. 범용 CPU나 모바일 NPU에서는 해당 플랫폼에 최적화된 모델(예: YOLOv10YOLO11과 비교했을 때 그 성능 우위가 줄어들 수 있습니다. RTDETRv2는 어텐션 메커니즘으로 인해 계산량이 더 많지만, 더 단순하고 NMS(최소화)가 NMS 파이프라인 덕분에 플랫폼 간 일관된 동작을 제공합니다.

3. 훈련 및 배치

RTDETRv2는 NMS 제거하여 배포 파이프라인을 간소화합니다. 이는 모델 출력이 최종 결과임을 의미하며, 후처리 코드에서 임계값 처리나 정렬이 필요하지 않습니다. YOLOv6. YOLOv6 표준 NMS 요구하는데, C++ 또는 CUDA 고도로 최적화되지 않은 경우 높은 FPS 시나리오에서 병목 현상이 발생할 수 있습니다.

Ultralytics 이점

RTDETRv2와 YOLOv6. YOLOv6 특정 분야에서 매력적인 기능을 제공하지만, 서로 다른 코드베이스와 API 설계로 인해 생산 워크플로에 통합하기 어려울 수 있습니다. Ultralytics 이러한 강력한 아키텍처를 단일화된 간소화된 Python 아래 통합합니다.

왜 Ultralytics 선택해야 할까요?

  • 사용 편의성: 단일 문자열 변경만으로 모델 아키텍처 간 전환 가능. YOLO 사용하는 것과 동일한 훈련 명령어로 RT-DETR 훈련시킬 수 있습니다.
  • 메모리 요구 사항: Ultralytics 훈련 중 VRAM 오버헤드를 크게 줄입니다. 이는 RT-DETR 같은 트랜스포머 모델에 특히 중요합니다. 이러한 모델은 CNN보다 본질적으로 더 많은 메모리를 소비하기 때문입니다.
  • 다용도성: Ultralytics 탐지 기능을 넘어 확장됩니다. 동일한 환경 내에서 자세 추정, 인스턴스 분할OBB를 위한 모델을 손쉽게 활용할 수 있습니다.
  • 잘 관리된 생태계: 활발한 커뮤니티 지원, 빈번한 업데이트, MLflowTensorBoard와 같은 도구와의 원활한 통합을 통해 혜택을 누리세요.

코드 예제

Ultralytics Python 사용하면 이러한 모델 테스트가 손쉽게 가능합니다. 이 패키지는 데이터 처리와 모델 로딩을 자동으로 처리합니다.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")

# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")

앞으로 나아가기: YOLO26

개발자들이 속도, 정확도, 현대적 아키텍처 기능의 궁극적 균형을 추구한다면, Ultralytics 최첨단 솔루션을 제시합니다. 2026년 1월 출시된 이 모델은 트랜스포머와 CNN 분야의 장점을 종합적으로 구현합니다.

YOLO26은 RTDETRv2의 단순성을 반영하면서도 CNN의 경량 효율성을 갖춘, 본질적으로 엔드투엔드 NMS 설계를 도입합니다. LLM 훈련 안정성에서 영감을 받은 하이브리드 방식인 새로운 MuSGD 최적화기를 기반으로하며, 우수한 소형 객체 탐지를 위한 ProgLoss + STAL을 특징으로 하여, YOLO26은 이전 세대 대비 최대 43% 빠른 CPU 달성합니다.

YOLO26에 대해 더 알아보기

트랜스포머의 글로벌 정밀도를 우선시하든 산업용 CNN의 순수 처리량을 중시하든, Ultralytics 최소한의 마찰로 작업에 적합한 도구를 배포할 수 있도록 지원합니다.


댓글