콘텐츠로 건너뛰기

RTDETRv2 대 YOLOv6.0: 실시간 트랜스포머와 산업용 CNN의 비교 평가

컴퓨터 비전 분야는 끊임없이 진화하며, 개발자들에게 객체 탐지를 위한 다양한 아키텍처 선택지를 제시합니다. 서로 다른 접근 방식을 대표하는 두 가지 주요 모델은 최첨단 비전 트랜스 포머인 RTDETRv2와 산업용 애플리케이션에 최적화된 고도로 개선된 컨볼루션 신경망(CNN) 인YOLOv6.0입니다.

이 포괄적인 기술 비교는 각 제품의 아키텍처, 성능 지표 및 이상적인 배포 시나리오를 탐구합니다. 또한 광범위한 Ultralytics 어떻게 우수한 개발자 경험을 제공하는지 살펴보고, 궁극적으로 Ultralytics YOLO26의 차세대 기능을 전망할 것입니다.

RTDETRv2: 비전 트랜스포머 접근법

바이두 연구진이 개발한 RTDETRv2는 RT-DETR 기반을 확장하여, 트랜스포머 기반 객체 탐지 분야에서 중대한 도약을 이루었습니다.

건축 하이라이트

RTDETRv2는 CNN 특징 추출기와 강력한 트랜스포머 디코더를 결합한 하이브리드 아키텍처를 활용합니다. 이 모델의 가장 두드러진 특징은 본질적으로NMS(Non-Maximum Suppression)NMS NMS 설계입니다. 후처리 단계에서NMS 제거함으로써 모델은 바운딩 박스를 직접 예측하여 배포를 단순화하고 추론 지연 시간을 안정화합니다.

RTDETRv2에 통합된 "무료 선물 꾸러미"는 전역적 주의 메커니즘이 국소적 컨볼루션보다 공간적 관계를 본질적으로 더 잘 이해하기 때문에 복잡한 장면과 중첩된 객체를 처리하는 능력을 향상시킵니다.

트랜스포머 메모리 사용량

트랜스포머는 복잡한 장면 이해에 탁월하지만, 일반적으로 CNN에 비해 훈련 중 훨씬 더 많은 CUDA 필요로 합니다. 이는 일반 소비자용 GPU에서 배치 크기를 제한하고 전체 훈련 시간을 증가시킬 수 있습니다.

RTDETR에 대해 자세히 알아보세요.

YOLOv6.0: 산업용 처리량 극대화

미투안(美团) 비전 AI 부서에서 개발된 YOLOv6.0은 GPU 가장 중요한 산업용 파이프라인을 위한 차세대 탐지기로 명시적으로 설계되었습니다.

  • 저자: 리추이, 리루루, 겅이페이, 장홍량, 첸멍, 장보, 케자이단, 쉬샤오밍, 추샹샹
  • 조직: 메이투안
  • 날짜: 2023-01-13
  • 아카이브: 2301.05586
  • GitHub: YOLOv6

건축적 초점

YOLOv6.YOLOv6 NVIDIA 같은 하드웨어 가속기에서 메모리 접근 비용을 최소화하도록 세심하게 설계된 EfficientRep 백본을 기반으로 합니다. 목 구조는 서로 다른 스케일 간 특징 융합을 개선하기 위해 양방향 연결(BiC) 모듈을 특징으로 합니다.

훈련 중에는 앵커 기반 패러다임의 이점을 활용하면서도 더 빠른 실행을 위해 앵커 프리 추론 모드를 유지하는 앵커 지원 훈련(AAT) 전략을 사용합니다. 서버급 GPU(예: T4, A100)에서는 탁월한 처리량을 달성하지만, 전용 아키텍처로 인해 CPU 에지 장치에 배포할 경우 최적화되지 않은 지연 시간이 발생할 수 있습니다.

6에 대해 자세히 알아보기

성능 비교

생산용 모델을 평가할 때 정확도(mAP)와 추론 속도, 계산 비용(FLOPs) 간의 균형은 매우 중요합니다. 아래 표는 이러한 모델들이 서로 어떻게 비교되는지 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

YOLOv6. YOLOv6 TensorRT 순수 처리 속도 면에서 우위를 점하지만, RTDETRv2는 특히 더 큰 모델 변종에서 더 나은 확장성을 보여주며 더 높은 mAP 기록합니다. 그러나 두 모델 모두 현대적인 통합 프레임워크에서 발견되는 광범위한 다용도성을 갖추지 못했습니다. YOLOv6. YOLOv6 기본적으로 탐지 전문 모델로, 인스턴스 분할이나 자세 추정 같은 작업에 대한 기본 지원이 부족합니다.

사용 사례 및 권장 사항

RT-DETR YOLOv6 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 YOLOv6 .

RT-DETR 선택해야 할 때

RT-DETR 다음에 대한 강력한 RT-DETR :

  • 트랜스포머 기반 탐지 연구: NMS 없이 엔드투엔드 객체 탐지를 위한 어텐션 메커니즘과 트랜스포머 아키텍처를 탐구하는 프로젝트들.
  • 고정밀 시나리오와 유연한 지연 시간: 탐지 정확도가 최우선이며 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: 주로 중대형 객체가 등장하는 장면으로, 트랜스포머의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는 영역.

6 선택해야 할 때

YOLOv6 다음에 권장YOLOv6 :

  • 산업용 하드웨어 인식 배포: 모델의 하드웨어 인식 설계와 효율적인 재매개변수화가 특정 대상 하드웨어에서 최적화된 성능을 제공하는 시나리오.
  • 빠른 단일 단계 탐지: 통제된 환경에서 실시간 영상 처리를 GPU 상의 순수 추론 속도를 최우선으로 하는 애플리케이션.
  • 메이투안 생태계 통합: 이미 메이투안의 기술 스택 및 배포 인프라 내에서 작업 중인 팀들.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

Ultralytics 이점

적합한 모델 선택은 단순한 벤치마크 수치 이상의 요소를 고려해야 합니다. 개발자 경험, 배포 유연성, 생태계 지원 역시 동등하게 중요합니다. Ultralytics 통합된 모델을 활용함으로써 사용자는 정적인 연구 저장소에 비해 상당한 이점을 얻을 수 있습니다.

  • 사용 편의성: 에 지정되어 있습니다. ultralytics Python 원활한 API를 제공합니다. 모델 훈련, 검증 및 내보내기는 단 몇 줄의 코드로 가능합니다.
  • 잘 관리된 생태계: 고립된 학술 저장소와 달리, Ultralytics 지속적으로 업데이트됩니다. 다음과 같은 도구에 대한 강력한 통합 기능을 자랑합니다. ONNX, OpenVINO, CoreML 같은 도구들에 대한 강력한 통합 기능을 자랑합니다.
  • 훈련 효율성: Ultralytics 일반적으로 RTDETRv2와 같은 트랜스포머 아키텍처에 비해 훈련 중 VRAM 소비량이 현저히 낮아, 소비자용 하드웨어에서 더 큰 배치 크기를 허용합니다.
  • 다용도성: YOLOv6.0의 집중된 범위와 달리, Ultralytics 단일 통합 프레임워크 내에서 이미지 분류, 방향성 바운딩 박스(OBB), 분할을 원활하게 지원하는 다중 모달 특성을 지닙니다.

간소화된 배포

CLI 사용하면 에지 배포를 위한 훈련된 모델 내보내기는 다음과 같이 간단하게 실행할 수 있습니다: yolo export model=yolo11n.pt format=tensorrt.

YOLO26 등장: 궁극의 해결책

RTDETRv2와 YOLOv6.0이 각각 특화된 장점을 제공하지만, 해당 분야는 빠르게 진화하고 있습니다. 새로운 컴퓨터 비전 프로젝트를 시작하는 팀에게는 다음을 적극 권장합니다. YOLO26Ultralytics 강력히 추천합니다.

YOLO26은 산업용 CNN과 현대적 트랜스포머의 장점을 종합하면서 각각의 약점을 제거합니다:

  • 엔드투엔드 NMS 설계: YOLOv10에서 처음 선보인 혁신적인 방식을 채택한 YOLO26은 NMS 원천적으로 제거하여 RTDETRv2와 유사한 안정적이고 예측 가능한 배포를 보장하면서도 훨씬 적은 오버헤드를 제공합니다.
  • MuSGD 최적화기: 고급 LLM 훈련 기법(예: Moonshot AI의 Kimi K2)에서 영감을 받은 이 하이브리드 최적화기는 안정적인 훈련과 더 빠른 수렴을 보장하며, 기존 비전 트랜스포머의 악명 높은 불안정성을 극복합니다.
  • 엣지 환경에 최적화: 이전 세대 대비 최대 43% 빠른 CPU 성능과 전략적인 분포 초점 손실(DFL) 제거를 통해, YOLO26은 GPU 불가능한 모바일 및 IoT 기기에 완벽하게 적합합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 CNN의 역사적 과제인 소형 물체 인식에서 주목할 만한 개선을 가져와, YOLO26을 항공 이미지와 로봇 공학에 이상적인 모델로 만듭니다.

훈련 예시

직관적인 Ultralytics 최첨단 모델을 원활하게 훈련할 수 있습니다. 아래는 COCO8 YOLO26 Nano 모델을 훈련하는 방법을 보여주는 실행 가능한 예시입니다:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

요약

RTDETRv2와 YOLOv6 비교할 때, 선택은 주로 사용자의 특정 하드웨어 및 지연 시간 제약 조건에 따라 결정됩니다. RTDETRv2는 복잡한 중첩 객체 처리가 중요한 연구 환경 및 서버 측 처리에서 탁월한 성능을 발휘합니다. YOLOv6. YOLOv6 강력한 NVIDIA 장착한 고처리량 제조 라인에 여전히 강력한 선택지입니다.

그러나 트랜스포머의 NMS 구현되는 우아함과 CNN(컨볼루션 신경망)의 눈부신 속도 및 낮은 메모리 사용량을 동시에 추구하는 개발자들에게는YOLO26이 독보적인 선택입니다. Ultralytics 포괄적인 문서와 활발한 커뮤니티의 지원을 받는 YOLO26은 비전 AI 프로젝트가 견고하고 확장 가능하며 미래에도 대비할 수 있도록 보장합니다.


댓글