RTDETRv2 대 YOLOv6.0: 실시간 트랜스포머와 산업용 CNN의 비교 평가

컴퓨터 비전 분야는 끊임없이 진화하며, 개발자들에게 객체 탐지를 위한 다양한 아키텍처 선택지를 제시합니다. 서로 다른 접근 방식을 대표하는 두 가지 주요 모델은 최첨단 비전 트랜스 포머인 RTDETRv2와 산업용 애플리케이션에 최적화된 고도로 개선된 컨볼루션 신경망(CNN) 인YOLOv6.0입니다.

이 포괄적인 기술 비교는 각 제품의 아키텍처, 성능 지표 및 이상적인 배포 시나리오를 탐구합니다. 또한 광범위한 Ultralytics 어떻게 우수한 개발자 경험을 제공하는지 살펴보고, 궁극적으로 Ultralytics YOLO26의 차세대 기능을 전망할 것입니다.

RTDETRv2: 비전 트랜스포머 접근법

Baidu 연구원들이 개발한 RTDETRv2는 오리지널 RT-DETR의 기반 위에 구축되었으며, 트랜스포머 기반 객체 detect 분야에서 상당한 진전을 나타냅니다.

저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
기관: Baidu
날짜: 2024-07-24
Arxiv: 2407.17140
GitHub: RT-DETR
문서: RTDETRv2 GitHub README

건축 하이라이트

RTDETRv2는 CNN 특징 추출기와 강력한 트랜스포머 디코더를 결합한 하이브리드 아키텍처를 활용합니다. 이 모델의 가장 두드러진 특징은 본질적으로NMS(Non-Maximum Suppression)NMS NMS 설계입니다. 후처리 단계에서NMS 제거함으로써 모델은 바운딩 박스를 직접 예측하여 배포를 단순화하고 추론 지연 시간을 안정화합니다.

RTDETRv2에 통합된 "무료 선물 꾸러미"는 전역적 주의 메커니즘이 국소적 컨볼루션보다 공간적 관계를 본질적으로 더 잘 이해하기 때문에 복잡한 장면과 중첩된 객체를 처리하는 능력을 향상시킵니다.

트랜스포머 메모리 사용량

트랜스포머는 복잡한 장면 이해에 탁월하지만, 일반적으로 CNN에 비해 훈련 중 훨씬 더 많은 CUDA 필요로 합니다. 이는 일반 소비자용 GPU에서 배치 크기를 제한하고 전체 훈련 시간을 증가시킬 수 있습니다.

RTDETR에 대해 자세히 알아보세요.

YOLOv6.0: 산업용 처리량 극대화

미투안(美团) 비전 AI 부서에서 개발된 YOLOv6.0은 GPU 가장 중요한 산업용 파이프라인을 위한 차세대 탐지기로 명시적으로 설계되었습니다.

저자: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
조직: 메이투안
날짜: 2023-01-13
Arxiv: 2301.05586
GitHub: YOLOv6

건축적 초점

YOLOv6.YOLOv6 NVIDIA 같은 하드웨어 가속기에서 메모리 접근 비용을 최소화하도록 세심하게 설계된 EfficientRep 백본을 기반으로 합니다. 목 구조는 서로 다른 스케일 간 특징 융합을 개선하기 위해 양방향 연결(BiC) 모듈을 특징으로 합니다.

훈련 중에는 앵커 기반 패러다임의 이점을 활용하면서도 더 빠른 실행을 위해 앵커 보조 훈련(AAT) 전략을 사용합니다. 서버급 GPU(예: T4, A100)에서 탁월한 처리량을 달성하지만, 특화된 아키텍처는 CPU 전용 엣지 장치에 배포될 때 최적이 아닌 지연 시간을 초래할 수 있습니다.

6에 대해 자세히 알아보기

성능 비교

생산용 모델을 평가할 때 정확도(mAP)와 추론 속도, 계산 비용(FLOPs) 간의 균형은 매우 중요합니다. 아래 표는 이러한 모델들이 서로 어떻게 비교되는지 보여줍니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv6. YOLOv6 TensorRT 순수 처리 속도 면에서 우위를 점하지만, RTDETRv2는 특히 더 큰 모델 변종에서 더 나은 확장성을 보여주며 더 높은 mAP 기록합니다. 그러나 두 모델 모두 현대적인 통합 프레임워크에서 발견되는 광범위한 다용도성을 갖추지 못했습니다. YOLOv6. YOLOv6 기본적으로 탐지 전문 모델로, 인스턴스 분할이나 자세 추정 같은 작업에 대한 기본 지원이 부족합니다.

사용 사례 및 권장 사항

RT-DETR과 YOLOv6 중 선택은 특정 프로젝트 요구사항, 배포 제약 사항 및 생태계 선호도에 따라 달라집니다.

RT-DETR 선택해야 할 때

RT-DETR 다음에 대한 강력한 RT-DETR :

트랜스포머 기반 detect 연구: NMS 없이 종단 간 객체 detect를 위한 어텐션 메커니즘 및 트랜스포머 아키텍처를 탐구하는 프로젝트.
유연한 지연 시간을 가진 고정확도 시나리오: 감지 정확도가 최우선 순위이며 약간 더 높은 추론 지연 시간이 허용되는 애플리케이션.
대형 객체 detect: 트랜스포머의 전역 어텐션 메커니즘이 자연스러운 이점을 제공하는 주로 중대형 객체가 있는 장면.

6 선택해야 할 때

YOLOv6 다음에 권장YOLOv6 :

산업용 하드웨어 인식 배포: 모델의 하드웨어 인식 설계와 효율적인 재매개변수화가 특정 대상 하드웨어에서 최적화된 성능을 제공하는 시나리오.
빠른 단일 단계 detect: 통제된 환경에서 실시간 비디오 처리를 위해 GPU에서 원시 추론 속도를 우선시하는 애플리케이션.
메이투안 생태계 통합: 메이투안의 기술 스택 및 배포 인프라 내에서 이미 작업 중인 팀.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.

Ultralytics 이점

올바른 모델을 선택하는 것은 단순 벤치마크 수치 이상의 것을 포함합니다. 개발자 경험, 배포 유연성, 생태계 지원 또한 동등하게 중요합니다. Ultralytics 플랫폼에 통합된 모델을 활용함으로써, 사용자는 정적인 연구 저장소에 비해 상당한 이점을 얻을 수 있습니다.

사용 편의성: 에 지정되어 있습니다. ultralytics Python 원활한 API를 제공합니다. 모델 훈련, 검증 및 내보내기는 단 몇 줄의 코드로 가능합니다.
잘 관리되는 생태계: 고립된 학술 리포지토리와 달리 Ultralytics Platform은 활발하게 업데이트됩니다. ONNX, OpenVINO, CoreML과 같은 도구에 대한 강력한 통합 기능을 자랑합니다.
훈련 효율성: Ultralytics 모델은 RTDETRv2와 같은 트랜스포머 아키텍처에 비해 훈련 중 훨씬 적은 VRAM을 소비하여, 소비자용 하드웨어에서 더 큰 배치 크기를 가능하게 합니다.
다용도성: YOLOv6-3.0의 제한적인 범위와 달리, Ultralytics 모델은 다중 모달이며, 단일 통합 프레임워크 내에서 이미지 분류, 지향성 바운딩 박스 (OBB) 및 segment를 기본적으로 지원합니다.

간소화된 배포

CLI 사용하면 에지 배포를 위한 훈련된 모델 내보내기는 다음과 같이 간단하게 실행할 수 있습니다: yolo export model=yolo11n.pt format=tensorrt.

YOLO26 등장: 궁극의 해결책

RTDETRv2와 YOLOv6.0이 각각 특화된 장점을 제공하지만, 해당 분야는 빠르게 진화하고 있습니다. 새로운 컴퓨터 비전 프로젝트를 시작하는 팀에게는 다음을 적극 권장합니다. YOLO26Ultralytics 강력히 추천합니다.

YOLO26은 산업용 CNN과 현대적 트랜스포머의 장점을 종합하면서 각각의 약점을 제거합니다:

종단 간 NMS-Free 설계: YOLOv10에서 처음 도입된 혁신을 채택하여, YOLO26은 NMS 후처리(post-processing)를 기본적으로 제거하여 RTDETRv2와 유사하게 안정적이고 예측 가능한 배포를 보장하면서도 훨씬 적은 오버헤드를 가집니다.
MuSGD 옵티마이저: Moonshot AI의 Kimi K2와 같은 고급 LLM 훈련 기술에서 영감을 받은 이 하이브리드 옵티마이저는 안정적인 훈련과 더 빠른 수렴을 보장하며, 기존 비전 트랜스포머의 악명 높은 불안정성을 극복합니다.
엣지에 최적화: 이전 세대보다 최대 43% 더 빠른 CPU 추론과 Distribution Focal Loss (DFL)의 전략적 제거를 통해 YOLO26은 GPU 가속을 사용할 수 없는 모바일 및 IoT 장치에 완벽하게 적합합니다.
ProgLoss + STAL: 이러한 고급 손실 함수는 CNN에게 역사적인 도전 과제였던 작은 객체 인식에서 주목할 만한 개선을 가져오며, YOLO26을 항공 이미지 및 로봇 공학에 이상적으로 만듭니다.

훈련 예시

직관적인 Ultralytics 최첨단 모델을 원활하게 훈련할 수 있습니다. 아래는 COCO8 YOLO26 Nano 모델을 훈련하는 방법을 보여주는 실행 가능한 예시입니다:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

요약

RTDETRv2와 YOLOv6 비교할 때, 선택은 주로 사용자의 특정 하드웨어 및 지연 시간 제약 조건에 따라 결정됩니다. RTDETRv2는 복잡한 중첩 객체 처리가 중요한 연구 환경 및 서버 측 처리에서 탁월한 성능을 발휘합니다. YOLOv6. YOLOv6 강력한 NVIDIA 장착한 고처리량 제조 라인에 여전히 강력한 선택지입니다.

그러나 트랜스포머의 NMS 구현되는 우아함과 CNN(컨볼루션 신경망)의 눈부신 속도 및 낮은 메모리 사용량을 동시에 추구하는 개발자들에게는YOLO26이 독보적인 선택입니다. Ultralytics 포괄적인 문서와 활발한 커뮤니티의 지원을 받는 YOLO26은 비전 AI 프로젝트가 견고하고 확장 가능하며 미래에도 대비할 수 있도록 보장합니다.