Link to this sectionRTDETRv2 대 YOLOv6-3.0#

컴퓨터 비전 분야는 끊임없이 진화하고 있으며, 개발자들에게 객체 탐지를 위한 수많은 아키텍처 선택지를 제공합니다. 두드러진 접근 방식을 대표하는 두 가지 모델은 최첨단 비전 Transformer인 RTDETRv2와 산업용으로 맞춤 설계된 고도로 최적화된 CNN(Convolutional Neural Network)인 YOLOv6-3.0입니다.

이 포괄적인 기술 비교에서는 각 모델의 아키텍처, 성능 지표 및 이상적인 배포 시나리오를 살펴봅니다. 또한 더 넓은 Ultralytics 생태계가 어떻게 뛰어난 개발자 경험을 제공하는지 알아보고, 궁극적으로 차세대 기능을 갖춘 Ultralytics YOLO26을 조망합니다.

Link to this sectionRTDETRv2: 비전 Transformer 접근 방식#

Baidu 연구원들이 개발한 RTDETRv2는 기존 RT-DETR의 기반 위에 구축되었으며, Transformer 기반 객체 탐지 분야에서 중요한 도약을 의미합니다.

저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 및 Yi Liu
소속 기관: Baidu
날짜: 2024-07-24
Arxiv: 2407.17140
GitHub: lyuwenyu/RT-DETR
문서: RTDETRv2 GitHub README

Link to this section아키텍처 주요 특징#

RTDETRv2는 CNN 특징 추출기와 강력한 Transformer 디코더를 결합한 하이브리드 아키텍처를 활용합니다. 이 모델의 가장 큰 특징은 기본적으로 NMS가 필요 없는 설계라는 점입니다. 후처리 과정에서 NMS(Non-Maximum Suppression)를 제거함으로써 모델이 바운딩 박스를 직접 예측하므로, 배포가 간소화되고 추론 지연 시간이 안정화됩니다.

RTDETRv2에 통합된 "Bag-of-Freebies"는 복잡한 장면과 겹치는 객체를 처리하는 능력을 향상시킵니다. 이는 글로벌 어텐션 메커니즘이 지역적인 컨볼루션보다 공간적 관계를 본질적으로 더 잘 이해하기 때문입니다.

Transformer 메모리 사용량

Transformer는 복잡한 장면 이해에 탁월하지만, 일반적으로 학습 시 CNN에 비해 훨씬 더 많은 CUDA 메모리를 요구합니다. 이로 인해 일반 소비자용 GPU에서는 배치 사이즈가 제한될 수 있으며 전체 학습 시간이 길어질 수 있습니다.

RTDETR에 대해 더 알아보기

Link to this sectionYOLOv6-3.0: 산업용 처리량 극대화#

Meituan의 Vision AI 부서에서 시작된 YOLOv6-3.0은 GPU 처리량이 가장 중요한 산업용 파이프라인을 위한 차세대 탐지기로 명확하게 설계되었습니다.

저자: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
조직: Meituan
날짜: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

Link to this section아키텍처 초점#

YOLOv6-3.0은 NVIDIA GPU와 같은 하드웨어 가속기에서 메모리 액세스 비용을 최소화하도록 세심하게 설계된 EfficientRep 백본을 사용합니다. 넥 아키텍처는 서로 다른 스케일 전반에서 특징 융합을 개선하기 위해 BiC(Bi-directional Concatenation) 모듈을 특징으로 합니다.

학습 중에는 더 빠른 실행을 위해 앵커 프리 추론 모드를 유지하면서 앵커 기반 패러다임의 이점을 얻기 위해 AAT(Anchor-Aided Training) 전략을 사용합니다. 서버급 GPU(예: T4, A100)에서는 뛰어난 처리량을 달성하지만, CPU 전용 엣지 디바이스에 배포할 경우 특수 아키텍처로 인해 지연 시간이 최적화되지 않을 수 있습니다.

YOLOv6에 대해 더 알아보기

Link to this section성능 비교#

프로덕션을 위한 모델을 평가할 때 정확도(mAP)와 추론 속도 및 계산 비용(FLOPs) 사이의 균형을 맞추는 것이 중요합니다. 아래 표는 이러한 모델들이 서로 어떻게 비교되는지 보여줍니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv6-3.0이 TensorRT상에서 순수한 처리 속도를 압도하는 반면, RTDETRv2는 더 큰 모델 변형으로 확장할 때 더 높은 mAP 점수를 기록합니다. 그러나 두 모델 모두 현대적인 통합 프레임워크에서 발견되는 광범위한 다재다능함이 부족합니다. YOLOv6-3.0은 주로 탐지 전문가용 모델이며, 인스턴스 세그멘테이션 및 포즈 추정과 같은 작업을 기본적으로 지원하지 않습니다.

Link to this section활용 사례 및 권장 사항#

RT-DETR과 YOLOv6 중 무엇을 선택할지는 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

Link to this sectionRT-DETR을 선택해야 할 때#

RT-DETR은 다음 경우에 강력한 선택지입니다:

Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.

Link to this sectionYOLOv6을 선택해야 하는 경우#

YOLOv6은 다음 경우에 권장됩니다:

산업용 하드웨어 인식 배포: 모델의 하드웨어 인식 설계와 효율적인 재파라미터화가 특정 타겟 하드웨어에서 최적화된 성능을 제공하는 시나리오.
빠른 단일 스테이지 탐지: 통제된 환경에서 실시간 비디오 처리를 위해 GPU에서의 원시 추론 속도를 우선시하는 애플리케이션.
Meituan 생태계 통합: 이미 Meituan의 기술 스택 및 배포 인프라 내에서 작업 중인 팀.

Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:

NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.

Link to this sectionUltralytics의 장점#

올바른 모델을 선택하는 것은 단순한 벤치마크 수치 그 이상을 고려해야 합니다. 개발자 경험, 배포 유연성, 생태계 지원이 동일하게 중요합니다. Ultralytics 플랫폼 내에 통합된 모델을 사용함으로써 사용자는 정적인 연구 리포지토리보다 상당한 이점을 얻을 수 있습니다.

사용 편의성: ultralytics Python 패키지는 원활한 API를 제공합니다. 모델 학습, 검증 및 내보내기는 단 몇 줄의 코드만으로 가능합니다.
잘 관리된 생태계: 고립된 학술용 리포지토리와 달리 Ultralytics 플랫폼은 활발하게 업데이트됩니다. ONNX, OpenVINO 및 CoreML과 같은 도구에 대한 강력한 통합 기능을 자랑합니다.
학습 효율성: Ultralytics 모델은 일반적으로 RTDETRv2와 같은 Transformer 아키텍처에 비해 학습 중 VRAM 소비가 현저히 낮아, 소비자급 하드웨어에서도 더 큰 배치 사이즈를 사용할 수 있습니다.
범용성: YOLOv6-3.0의 제한된 범위와 달리, Ultralytics 모델은 다중 모달을 지원하며 단일 통합 프레임워크 내에서 이미지 분류, 지향성 바운딩 박스(OBB) 및 세그멘테이션을 기본적으로 지원합니다.

간소화된 배포

Ultralytics CLI를 사용하면 엣지 배포를 위해 학습된 모델을 내보내는 작업은 yolo export model=yolo11n.pt format=tensorrt를 실행하는 것만큼 간단합니다.

Link to this sectionYOLO26 도입: 궁극적인 솔루션#

RTDETRv2와 YOLOv6-3.0이 특정 이점을 제공하지만, 분야는 빠르게 변하고 있습니다. 새로운 컴퓨터 비전 프로젝트를 시작하는 팀에게는 2026년 1월 Ultralytics에서 출시한 **YOLO26**을 강력히 추천합니다.

YOLO26은 산업용 CNN과 현대적인 Transformer의 강점을 종합하는 동시에 각각의 단점을 제거했습니다:

종단간 NMS 프리 설계: YOLOv10에서 처음 도입된 획기적인 기술을 채택한 YOLO26은 NMS 후처리를 본질적으로 제거하여, RTDETRv2와 유사하게 안정적이고 예측 가능한 배포를 보장하면서도 오버헤드는 훨씬 적습니다.
MuSGD 옵티마이저: 고급 LLM 학습 기술(예: Moonshot AI의 Kimi K2)에서 영감을 받은 이 하이브리드 옵티마이저는 전통적인 비전 Transformer의 악명 높은 불안정성을 극복하며 안정적인 학습과 빠른 수렴을 보장합니다.
엣지 최적화: 이전 세대 대비 CPU 추론 속도가 최대 43% 빠르며 DFL(Distribution Focal Loss)을 전략적으로 제거한 YOLO26은 GPU 가속을 사용할 수 없는 모바일 및 IoT 디바이스에 완벽하게 적합합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 CNN의 고질적인 과제였던 소형 객체 인식에서 괄목할 만한 개선을 이루어내어, YOLO26을 항공 이미지 및 로봇 공학에 이상적인 모델로 만듭니다.

Link to this section학습 예시#

직관적인 Ultralytics API를 사용하면 최첨단 모델을 원활하게 학습시킬 수 있습니다. 아래는 COCO8 데이터셋에서 YOLO26 Nano 모델을 학습시키는 방법을 보여주는 실행 가능한 예제입니다:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this section요약#

RTDETRv2와 YOLOv6-3.0을 비교할 때, 결정은 주로 귀하의 특정 하드웨어 및 지연 시간 제약 조건에 달려 있습니다. RTDETRv2는 복잡하게 겹치는 객체를 처리하는 것이 중요한 연구 환경 및 서버 측 처리에서 빛을 발합니다. YOLOv6-3.0은 강력한 NVIDIA GPU가 장착된 고처리량 제조 라인에 여전히 탁월한 선택입니다.

그러나 Transformer의 NMS 프리 우아함과 CNN의 놀라운 속도 및 낮은 메모리 풋프린트를 결합하여 두 장점 모두를 원하는 개발자에게 YOLO26은 비교할 수 없는 선택입니다. Ultralytics 생태계의 포괄적인 문서와 활발한 커뮤니티의 지원을 받는 YOLO26은 귀하의 비전 AI 프로젝트가 강력하고 확장 가능하며 미래 지향적임을 보장합니다.

기여자

GLglenn-jocher¹⁴ PDpderrenger¹

생성됨 2025년 1월 27일업데이트됨 3주 전