YOLOv6.0 대 RTDETRv2: 산업 속도와 변압기 정밀도의 균형 맞추기
최적의 물체 감지 아키텍처를 선택하려면 추론 지연 시간과 감지 정밀도 사이의 절충점을 찾아야 하는 경우가 많습니다. 이 기술 비교에서는 이 문제에 대한 두 가지 접근 방식, 즉 산업 속도를 위해 메이투안에서 설계한 CNN 기반 모델인 YOLOv6.0과 실시간 애플리케이션에 변압기 정확도를 제공하도록 설계된 바이두의 비전 트랜스포머 (ViT) 아키텍처인 RTDETRv2를 살펴봅니다.
YOLOv6.0
저자: 추이 리, 룰루 리, 이페이 겅, 홍량 장, 멩 청, 보 장, 자이단 케, 샤오밍 쉬, 샹샹 추
조직: Meituan
날짜: 2023-01-13
아카이브: YOLOv6 v3.0: 본격적인 리로딩
GitHub: YOLOv6
Docs: Ultralytics YOLOv6 문서
YOLOv6.0은 하드웨어 효율성이 가장 중요한 산업용 애플리케이션에 맞게 특별히 설계된 단일 스테이지 디텍터 제품군의 중요한 진화를 나타냅니다. 이 아키텍처는 GPU의 처리량을 극대화하기 위해 고급 기능 융합 및 트레이닝 전략을 통합하여 아키텍처의 '풀스케일 리로딩'을 도입했습니다.
아키텍처 및 주요 기능
YOLOv6.0 아키텍처는 하드웨어 친화적인 설계에 중점을 둡니다. 이 아키텍처는 모델이 학습 중에 복잡한 특징 추출 기능을 갖추는 동시에 추론을 위해 간소화된 구조로 축소할 수 있는 효율적인 RepBackbone(Reparameterization Backbone)을 활용합니다. 주요 아키텍처 혁신은 다음과 같습니다:
- 양방향 연결(BiC): 계산상의 큰 불이익 없이 특징 융합 정확도를 향상시키는 넥의 모듈입니다.
- 앵커 지원 교육(AAT): 교육 단계에서 앵커 기반 패러다임과 앵커 프리 패러다임의 장점을 결합하여 융합을 안정화하는 전략입니다.
- 자가 증류: 이 프레임워크는 모델이 자체 예측을 통해 학습하는 교사-학생 학습 루프를 사용하여 모델 크기를 늘리지 않고도 정확도를 향상시킵니다.
강점
- 산업 효율성: 이 모델은 다음에 명시적으로 최적화되어 있습니다. TensorRT 배포에 명시적으로 최적화되어 NVIDIA GPU에서 매우 낮은 지연 시간을 제공합니다.
- 엣지에서의 짧은 지연 시간: 특정 '라이트' 변형을 사용하면 모바일 CPU 디바이스에서 우수한 성능을 발휘하여 핸드헬드 산업용 스캐너에 적합합니다.
- 양자화 지원: 양자화 인식 훈련(QAT)을 강력하게 지원하여 INT8 정밀도로 전환할 때 상당한 정확도 손실을 방지합니다.
약점
- 작업 제한: YOLOv6 주로 바운딩 박스 감지를 위해 설계되었습니다. 더 다양한 프레임워크에서 볼 수 있는 포즈 추정이나 OBB(Oriented Bounding Box) 감지와 같은 복잡한 작업에 대한 기본 지원이 부족합니다.
- 훈련의 복잡성: 자체 증류 및 특수한 재매개화 단계에 의존하면 표준 YOLO 모델에 비해 훈련 파이프라인이 더 취약해지고 사용자 지정하기가 더 어려워질 수 있습니다.
이상적인 사용 사례
- 고속 제조: 밀리초 단위의 지연 시간이 중요한 빠르게 움직이는 컨베이어 벨트에서 결함을 감지합니다.
- 임베디드 로보틱스: 컴퓨팅 리소스에 대한 예산이 엄격하게 책정된 NVIDIA Jetson과 같은 플랫폼의 내비게이션 시스템.
RTDETRv2
저자 웬위 리우, 이안 자오, 친야오 창, 쿠이 황, 관중 왕, 이 리우
조직: 바이두
날짜: 2023-04-17(원본), 2024-07-24(v2)
Arxiv: RT-DETRv2:RT-DETRv2: Bag-of-Freebies로 개선된 기준선
깃허브: RT-DETR
Docs: Ultralytics RT-DETR 문서
RTDETRv2(실시간 감지 트랜스포머 v2)는 트랜스포머가 실시간 속도를 달성할 수 있음을 증명함으로써 CNN의 지배력에 도전합니다. 이 기술은 DETR(Detection Transformer) 패러다임을 기반으로 하지만 일반적으로 주의 메커니즘과 관련된 느린 수렴과 높은 계산 비용을 해결합니다.
아키텍처 및 주요 기능
RTDETRv2는 멀티스케일 피처를 효율적으로 처리하는 하이브리드 인코더를 사용합니다. 모든 이미지 패치를 동일하게 처리하는 기존 트랜스포머와 달리 RTDETRv2는 파이프라인 초기에 관련 영역에 주의를 집중합니다.
- 효율적인 하이브리드 인코더: 규모 내 상호 작용과 규모 간 융합을 분리하여 계산 오버헤드를 줄입니다.
- IoU 쿼리 선택: 인코더 출력에서 고품질 초기 개체 쿼리를 선택하여 디코더의 초기화를 개선하고 컨버전스 속도를 높입니다.
- 앵커 프리 디자인: 비최대 억제NMS 포스트 프로세싱이 필요하지 않아 배포 파이프라인이 간소화되고 혼잡한 장면에서 지연 시간 변동성이 줄어듭니다.
강점
- 글로벌 컨텍스트 인식: 자체 인식 메커니즘을 통해 모델이 전체 이미지를 한 번에 '인식'할 수 있으므로 로컬 수신 필드에 의존하는 CNN에 비해 가려진 물체를 더 잘 감지할 수 있습니다.
- 높은 정확도 천장: 지속적으로 더 높은 mAP데이터 세트에서 주어진 모델 규모에 대해 많은 CNN과 비교했을 때 지속적으로 더 높은 점수를 달성합니다.
- NMS 없는 경우: NMS 없으면 추론 시간이 더 결정적이기 때문에 실시간 시스템에서 중요한 이점이 됩니다.
약점
- 메모리 강도: 트랜스포머는 주의 행렬의 이차적 복잡성으로 인해 훈련 및 추론 중에 훨씬 더 많은 VRAM을 필요로 합니다(RTDETR이 이를 최적화하지만).
- 데이터 부족: 비전 트랜스포머는 일반적으로 YOLOv6 같은 CNN에 비해 완전한 수렴을 위해 더 큰 데이터 세트와 더 긴 훈련 일정이 필요합니다.
이상적인 사용 사례
- 복잡한 교통 상황: 혼잡하고 혼잡한 환경에서 보행자와 차량을 감지하여 가려짐이 흔하게 발생합니다.
- 자율 주행: 감지 실패로 인한 비용이 하드웨어 요구 사항이 약간 높아지는 비용보다 더 큰 고신뢰성 인식이 필요한 애플리케이션.
성능 비교
다음 표는 YOLOv6.0과 RTDETRv2의 성능을 비교한 것입니다. RTDETRv2가 정확도의 한계를 뛰어넘는 반면, YOLOv6.0은 특히 '나노' 규모에서 원시 추론 속도에서 우위를 유지합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
분석
- 속도 대 정확도: 에 지정되어 있습니다.
YOLOv6-3.0n는 매우 가볍기 때문에(1.17ms 추론) 극도로 제약된 하드웨어에 가장 적합한 솔루션입니다. 하지만 정확성이 최우선이라면RTDETRv2-s보다 훨씬 높은 mAP (48.1)를 제공합니다.YOLOv6-3.0s(45.0)보다 추론 시간이 거의 두 배(5.03ms 대 2.66ms)나 더 길었습니다. - 스케일링 동작: 모델 크기가 커질수록 간격이 좁아집니다.
RTDETRv2-l(53. mAP)가 더 나은 성능을 발휘합니다.YOLOv6-3.0l(52. mAP)보다 더 적은 매개변수(42M 대 59.6M)를 사용하여 변압기 아키텍처의 매개변수 효율성을 보여 주지만 FLOP은 비슷하게 유지합니다. - 하드웨어적 의미: YOLOv6 장점은 하드웨어 가속기에 매우 직접적으로 매핑되는 순수한 CNN 구조에 있습니다. 이론적인 속도를 실현하기 위해서는 행렬 곱셈과 주의 연산을 효율적으로 처리할 수 있는 하드웨어가 필요합니다.
배포 고려 사항
엣지 디바이스에 배포할 때 '파라미터'가 항상 속도와 완벽하게 상관관계가 있는 것은 아니라는 점을 기억하세요. RTDETRv2는 일부 구성에서 매개변수가 더 적을 수 있지만, 고도로 최적화된 YOLOv6 컨볼루션에 비해 구형 하드웨어에서는 메모리 액세스 패턴(주의)이 느려질 수 있습니다.
학습 방법론
이 두 모델의 교육 환경은 크게 다르기 때문에 개발에 필요한 리소스에 영향을 미칩니다.
YOLOv6.0은 CNN을 위한 표준 딥 러닝 방식을 따릅니다. 따라서 훈련 일정이 짧고(일반적으로 300-400 에포크) GPU 메모리 소비가 적다는 장점이 있습니다. 자체 증류와 같은 기술은 내부적으로 처리되지만 손실 함수 계산에 복잡성을 더합니다.
트랜스포머 기반인 RTDETRv2는 일반적으로 더 많은 것을 요구합니다. CUDA 메모리를 더 많이 요구합니다. 이미지 크기에 따른 주의 메커니즘의 복잡성은 배치 크기를 줄이거나 더 강력한 GPU를 사용해야 하는 경우가 많다는 것을 의미합니다. 또한 트랜스포머는 귀납적 편향 없이 공간 관계를 완전히 학습하기 위해 훈련 범위가 길어지는 이점이 있습니다.
Ultralytics 이점
YOLOv6 RTDETR 모두 특정 틈새 시장을 위한 매력적인 기능을 제공합니다, Ultralytics YOLO11 은 두 가지의 장점을 모두 갖춘 통합 솔루션을 제공합니다. 이 솔루션은 개발자의 생산성을 위해 설계된 에코시스템 내에서 CNN의 효율성과 트랜스포머 정확도에 필적하는 최신 아키텍처의 개선 사항을 통합합니다.
왜 Ultralytics 모델을 선택해야 할까요?
- 사용 편의성: Ultralytics 훈련과 배포의 복잡성을 추상화한 Python API를 제공합니다. 3줄의 코드로 최첨단 모델을 훈련할 수 있습니다.
- 성능 균형: YOLO11 최적의 절충안을 제공하도록 설계되었습니다. 트랜스포머의 막대한 메모리 오버헤드 없이도 RTDETR을 능가하는 정확도 수준을 달성하면서 YOLOv6 필적하는 실시간 추론 속도를 제공합니다.
- 다목적성: YOLOv6 (탐지 전용)과 달리, Ultralytics 모델은 기본적으로 인스턴스 세분화, 포즈 추정, 분류 및 OBB(오리엔티드 바운딩 박스) 감지를 지원합니다.
- 잘 관리된 에코시스템: 잦은 업데이트, 광범위한 문서 및 커뮤니티 지원으로 디버깅을 혼자서 처리할 필요가 없습니다.
- 트레이닝 효율성: Ultralytics 모델은 효율적인 훈련 파이프라인으로 유명하며, 적은 하드웨어에서도 빠르게 반복할 수 있습니다.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
결론
YOLOv6.0과 RTDETRv2는 모두 컴퓨터 비전 분야에서 인상적인 성과입니다. 하드웨어가 고정되어 있고 속도가 중요한 유일한 지표인 엄격한 산업용 파이프라인에는 YOLOv6.0이 실용적인 선택입니다. 복잡한 장면에서 정확도가 중요하고 하드웨어 리소스가 풍부한 연구 및 하이엔드 애플리케이션에는 RTDETRv2가 탁월한 선택입니다.
그러나 대부분의 실제 애플리케이션에서는 그렇지 않습니다, Ultralytics YOLO11 이 여전히 최고의 선택입니다. 이 제품은 성능, 다용도성, 사용 편의성의 '스위트 스팟'을 제공하여 개념에서 생산까지의 여정을 가속화합니다. 빠른 실험이 필요한 연구원이든 수천 개의 엣지 디바이스에 배포하는 엔지니어든, Ultralytics 에코시스템은 성공을 보장하는 도구를 제공합니다.
다른 모델 살펴보기
추가 비교에 관심이 있는 경우, Ultralytics 설명서에서 이러한 리소스를 살펴보세요: