RTDETRv2와 YOLOv6.0: 산업 속도를 충족하는 고정밀 변압기
최적의 물체 감지 아키텍처를 선택하려면 절대 정밀도와 추론 지연 시간 사이의 절충점을 찾아야 하는 경우가 많습니다. 이 기술 비교에서는 고정밀 작업을 위해 설계된 비전 트랜스포머 기반 모델인 RTDETRv2와 산업 속도와 효율성을 위해 특별히 설계된 CNN 기반 디텍터인 YOLOv6.0을 살펴봅니다. 각 아키텍처, 성능 메트릭, 배포 특성을 분석하여 컴퓨터 비전 애플리케이션에 가장 적합한 솔루션을 파악할 수 있도록 도와드립니다.
RTDETRv2: 비전 트랜스포머로 한계를 뛰어넘다
RTDETRv2(실시간 감지 트랜스포머 v2)는 이미지 내에서 글로벌 컨텍스트를 캡처하는 트랜스포머의 성능을 활용하여 물체 감지의 중요한 진화를 보여줍니다. 로컬 피처를 처리하는 기존 CNN과 달리 RTDETRv2는 자체 주의 메커니즘을 활용하여 멀리 떨어진 객체 간의 관계를 이해하므로 복잡한 장면에 매우 효과적입니다.
저자 저자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, andi Liu
조직:바이두
날짜: 2023-04-17 (초기), 2024-07-24 (v2)
Arxiv:RT-DETR: DETR, 실시간 객체 감지에서 YOLO를 이긴다
GitHub:RT-DETR 저장소
Docs:RTDETRv2 문서화 자료
아키텍처 혁신
RTDETRv2의 아키텍처는 하이브리드 설계입니다. 이 모델은 초기 특징 추출을 위해 표준 CNN 백본 (일반적으로 ResNet 또는 HGNet)을 사용한 다음 트랜스포머 인코더-디코더를 사용합니다. 이 구조 덕분에 모델은 앵커 박스나 비최대 억제(NMS)와 같은 수작업 구성 요소가 필요 없이 멀티스케일 특징을 효과적으로 처리할 수 있습니다.
트랜스포머 이점
RTDETRv2의 비전 트랜스포머(ViT) 구성 요소는 혼잡한 장면에서 모호함을 해결하는 데 탁월한 성능을 발휘합니다. 이 모델은 전체 이미지 컨텍스트를 동시에 분석하여 오클루전이나 배경 혼잡으로 인한 오탐지를 줄입니다.
강점과 약점
강점:
- 뛰어난 정확도: 일반적으로 다음과 같은 데이터 세트에서 더 높은 평균 정밀도(mAP) 를 달성합니다. COCO 와 같은 데이터 세트에서 비슷한 크기의 CNN에 비해 더 높은 평균 정밀도(mAP)를 달성합니다.
- 앵커 프리 설계: 앵커 박스를 제거하여 탐지 파이프라인을 간소화하고 하이퍼파라미터 튜닝을 줄입니다.
- 글로벌 컨텍스트: 로컬 특징이 불충분한 밀집된 환경이나 혼란스러운 환경에서 물체를 감지하는 데 탁월합니다.
약점:
- 계산 비용: 특히 훈련 중에 훨씬 더 높은 FLOP과 GPU 메모리가 필요합니다.
- 지연 시간: "실시간"이지만, 일반적으로 동급 하드웨어에서 원시 추론 속도에서 YOLOv6 같은 최적화된 CNN을 따라갑니다.
- 데이터 부족: 트랜스포머 모델은 종종 더 큰 훈련 데이터 세트와 더 긴 훈련 일정이 필요합니다.
YOLOv6.0: 산업 스피드스터
Meituan이 개발한 YOLOv6.0은 짧은 지연 시간과 높은 처리량이라는 산업용 애플리케이션의 요구사항에 초점을 맞추고 있습니다. 기존의 1단계 객체 검출기 패러다임을 개선하여 엣지 디바이스에서 GPU에 이르는 다양한 하드웨어의 효율성을 극대화합니다.
저자: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
조직:Meituan
날짜: 2023-01-13
Arxiv:YOLOv6 v3.0: 본격적인 리로딩
GitHub:YOLOv6 리포지토리
Docs:Ultralytics YOLOv6 문서
효율성 최적화
YOLOv6.0은 "하드웨어 인식" 설계 철학을 통합합니다. 추론 중에 네트워크를 3x3 컨볼루션의 단순한 스택으로 간소화하여 다중 분기 복잡성을 없애는 효율적인 재파라미터화 백본(RepVGG 스타일)을 활용합니다. 또한 훈련 중에 자가 증류 기법을 사용하여 추론 비용을 추가하지 않고도 정확도를 높입니다.
강점과 약점
강점:
- 탁월한 속도: 지연 시간이 매우 짧아 고속 제조 라인과 로봇 공학에 이상적입니다.
- 배포 친화적: 재파라미터화된 구조는 다음과 같은 형식으로 쉽게 내보낼 수 있습니다. ONNX 및 TensorRT 와 같은 형식으로 쉽게 내보내 성능을 극대화할 수 있습니다.
- 하드웨어 효율성: GPU 컴퓨팅 유닛을 최대한 활용하도록 최적화되어 유휴 시간을 최소화합니다.
약점:
- 정확도 한계: 경쟁력이 있지만, 매우 복잡한 시각적 시나리오에서는 트랜스포머 기반 모델의 최고 정확도를 맞추기 어려울 수 있습니다.
- 제한된 범용성: 주로 탐지에 중점을 두고 있으며, 최신 프레임워크에서 볼 수 있는 인스턴스 세분화나 포즈 추정과 같은 작업에 대한 기본 지원이 부족합니다.
성능 분석: 속도 대 정밀도
배포 환경의 특정 제약 조건에 따라 RTDETRv2와 YOLOv6.0 중 하나를 선택해야 하는 경우가 많습니다. 가능한 최고의 정확도가 필요한 시나리오에서는 RTDETRv2가 우세하지만, 원시 속도와 효율성에서는 YOLOv6.0이 우세합니다.
다음 표는 주요 메트릭을 비교한 것입니다. YOLOv6.0은 비슷한 모델 규모에서 더 낮은 지연 시간(더 빠른 속도)을 달성하는 반면, RTDETRv2는 계산 집약도(FLOPs)를 희생하면서 더 높은 mAP 점수를 추구한다는 점에 주목하세요.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
교육 및 리소스 요구 사항
사용자 지정 모델을 개발할 때는 교육 환경이 크게 달라집니다.
- 메모리 사용량: RTDETRv2는 주의 메커니즘이 4차원적으로 복잡하기 때문에 상당한 GPU VRAM이 필요합니다. "대형" 또는 "X-대형" 변종을 훈련하려면 종종 하이엔드 엔터프라이즈 GPU가 필요합니다. 반면, Ultralytics YOLO 모델과 YOLOv6 일반적으로 메모리 효율이 더 높기 때문에 소비자급 하드웨어나 소규모 클라우드 인스턴스에서 훈련할 수 있습니다.
- 컨버전스: 트랜스포머 기반 모델은 일반적으로 CNN이 직관적으로 캡처하는 공간 계층 구조를 학습하는 데 더 긴 시간이 필요하므로 클라우드 컴퓨팅 비용이 증가할 수 있습니다.
이상적으로 균형 잡힌: Ultralytics 이점
RTDETRv2와 YOLOv6.0은 각자의 틈새 시장에서 뛰어난 성능을 발휘합니다, Ultralytics YOLO11 은 이 두 가지의 한계를 모두 해결하는 통합 솔루션을 제공합니다. 이 솔루션은 CNN의 사용 편의성과 속도에 트랜스포머 정확도에 필적하는 아키텍처 개선을 결합합니다.
개발자와 연구자들이 점점 더 Ultralytics 모델을 선호하는 이유:
- 다목적성: 탐지 전용인 YOLOv6 달리 Ultralytics 단일 API 내에서 이미지 분류, 세분화, 포즈 추정 및 OBB(Oriented Bounding Box) 감지를 지원합니다.
- 잘 관리된 에코시스템: Ultralytics 플랫폼은 빈번한 업데이트, 광범위한 커뮤니티 지원, MLflow, TensorBoard, Ultralytics HUB와 같은 도구와의 원활한 통합을 제공합니다.
- 사용 편의성: '로우 코드' 철학으로 몇 줄의 Python 또는 CLI 명령만으로 최첨단 모델을 훈련, 검증 및 배포할 수 있습니다.
- 성능 균형: YOLO11 실시간 추론 속도와 높은 정확도라는 최적의 지점을 제공하며, 종종 이전 YOLO 버전보다 성능이 뛰어나고 실제 시나리오에서 복잡한 트랜스포머와 일치합니다.
코드 예제
Ultralytics API의 단순함을 경험해 보세요. 다음 예는 사전 학습된 모델을 로드하고 이미지에서 추론을 실행하는 방법을 보여줍니다:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Process results
for result in results:
result.show() # Display results on screen
result.save(filename="result.jpg") # Save results to disk
결론
RTDETRv2와 YOLOv6.0은 모두 컴퓨터 비전 역사에서 인상적인 이정표입니다. RTDETRv2는 계산 비용에 관계없이 정확도가 절대적인 우선 순위인 연구 및 시나리오에 탁월한 선택입니다. YOLOv6.0은 통제된 환경에서 극한의 속도를 제공하여 산업 분야에 적합합니다.
그러나 대부분의 실제 애플리케이션에는 강력하고 다재다능하며 배포하기 쉬운 솔루션이 필요합니다, Ultralytics YOLO11 이 탁월한 선택입니다. 최첨단 성능, 낮은 메모리 사용량, 활발한 에코시스템이 결합된 이 솔루션은 개발자가 자신감을 갖고 신속하게 프로토타입에서 프로덕션으로 전환할 수 있도록 지원합니다.
다른 모델 살펴보기
다양한 아키텍처를 비교하여 프로젝트에 가장 적합한 아키텍처를 찾는 방법을 알아보세요: