기술 대결: 실시간 객체 탐지를 위한YOLO RTDETRv2
컴퓨터 비전 분야의 급속한 발전은 속도, 정확도, 계산 효율성 간의 균형을 맞추기 위해 설계된 다양한 아키텍처를 탄생시켰습니다. 이러한 과제 해결에 독창적인 접근법을 제시한 두 가지 주목할 만한 모델은YOLO RTDETRv2입니다. 두 모델 모두 실시간 추론을 위한 최첨단 솔루션을 제공하고자 하지만, 근본적으로 아키텍처 철학에서 차이가 있습니다.
이 포괄적인 가이드는 두 모델의 기술적 사양, 아키텍처 혁신 및 실제 사용 사례를 심층적으로 다루면서, Ultralytics 최첨단 YOLO26과 같은 현대적 솔루션이 배포 및 사용 편의성에 대한 업계 표준을 어떻게 재정의했는지도 탐구합니다.
모델 개요
YOLO 이해하기
알리바바 그룹 연구진이 개발한YOLO 신경망 구조 탐색(NAS)에 크게 의존하는 빠르고 정확한 객체 탐지 방식을YOLO . 기존 수작업 기반 백본을 저지연 설계로 제작된 NAS 생성 구조로 대체합니다. 또한 효율적인 RepGFPN(재매개변수화 일반화 피라미드 특징 네트워크)과 ZeroHead 설계를 통합하여 특징 집계 및 경계 상자 예측을 간소화합니다.
주요 모델 세부 사항:
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직:조직: 알리바바 그룹
- 날짜:23
- Arxiv:2211.15444v2
- GitHub:YOLO
- 문서:YOLO
RTDETRv2 이해하기
바이두의 RTDETRv2는 실시간 탐지 트랜스포머(RTDET) 기술의 획기적인 발전을 의미합니다. 기존의 컨볼루션 신경망(CNN)이 앵커 박스와 비최대 억제(NMS)에 의존하는 것과 달리, RTDETRv2는 셀프 어텐션 메커니즘을 활용해 전체 이미지를 맥락적으로 파악합니다. 이 모델은 경계 박스를 직접 출력함으로써 NMS 단계를 완전히 생략합니다. 또한 '무료 선물 가방(bag of freebies)' 훈련 전략을 도입해 추론 지연 시간을 늘리지 않으면서도 기준 정확도를 향상시킵니다.
주요 모델 세부 사항:
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜:24
- Arxiv:2407.17140
- GitHub:RT-DETR 리포지토리
- Docs:RTDETRv2 문서
비전 AI에서 트랜스포머 기술의 활용
변환기는 더 높은 계산 자원을 필요로 하지만, 전역 컨텍스트 처리 능력 덕분에 복잡한 장면 이해에 매우 효과적이며, 이는 RTDETRv2의 주요 강점이다.
성능 비교
이러한 모델을 실제 환경에 배포할 때 평균 정밀도(mAP), 추론 속도, 메모리 사용량 등의 매개변수가 매우 중요합니다. RTDETRv2와 같은 트랜스포머 기반 모델은 일반적으로YOLO 같은 경량 CNN에 비해 훈련 및 추론 과정에서 더 많은 CUDA 요구합니다.
아래는 그들의 성과 지표에 대한 상세한 비교입니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
이상적인 사용 사례
YOLO : NAS에 최적화된 백본과 소형 변종(예: DAMO-YOLOt)의 극히 낮은 매개변수 수 덕분에, 하드웨어 제약이 심한 환경에 배포하기에 매우 적합합니다. 런타임(예: ONNX 이나 특수화된 TensorRT 엔진과 같은 런타임을 사용하여 에지 컴퓨팅용 임베디드 디바이스 솔루션을 구축하는 경우,YOLO 매우 반응성이 뛰어난 프레임워크를YOLO .
RTDETRv2의 강점: RTDETRv2는 서버급 GPU가 사용 가능하고 글로벌 이미지 컨텍스트가 가장 중요한 시나리오에서 탁월한 성능을 발휘합니다. 트랜스포머 아키텍처를 통해 NMS 없이도 중첩된 바운딩 박스를 자연스럽게 해결할 수 있어, 밀집 군중 관리나 원거리 객체 간 공간적 관계가 중요한 복잡한 객체 추적에 적합한 견고한 선택지입니다.
Ultralytics : YOLO26 소개
YOLO RTDETRv2는 중요한 학술적 성과를 나타내지만, 이러한 모델들을 확장 가능하고 생산 환경에 바로 적용 가능한 애플리케이션으로 전환하는 것은 어려울 수 있습니다. 개발자들은 종종 파편화된 코드베이스, 다중 작업 학습에 대한 지원 부족, 복잡한 배포 파이프라인과 같은 문제에 직면합니다.
이것이 바로 Ultralytics 진정으로 차별화되는 지점입니다. 사용 편의성, 잘 관리된 Python , 그리고 타의 추종을 불허하는 다용도성을 최우선으로 삼음으로써 Ultralytics 개발자들이 디버깅에 소요되는 시간을 줄이고 구축에 더 많은 시간을 할애할 수 있도록 Ultralytics .
최근 출시된 Ultralytics 모델은 이러한 장점을 한 단계 더 발전시켜YOLO RTDETRv2를 모두 능가하는 획기적인 성과를 제공합니다:
- 엔드투엔드 NMS 설계: 최초 개발된 곳은 YOLOv10에서 처음 선보인 YOLO26은 본질적으로 엔드투엔드입니다. 이는 NMS 완전히 제거하여 기존 CNN보다 배포 속도를 높이고 극도로 단순화하는 동시에 RTDETRv2의 직접 출력 이점을 구현합니다.
- 최대 43% 빠른 CPU : 별도의 GPU 없이도 에지 AI 기기에서 최적화되어, 메모리 집약적인 트랜스포머에 비해 IoT 애플리케이션에 훨씬 우수한 선택지입니다.
- MuSGD 최적화기: Moonshot AI의 Kimi K2에서 영감을 받은 이 SGD 뮤온의 하이브리드 방식은 대규모 언어 모델(LLM) 훈련의 혁신을 컴퓨터 비전 분야로 가져와, 놀라울 정도로 안정적인 훈련과 더 빠른 수렴을 가능케 합니다.
- ProgLoss + STAL: 이러한 고급 손실 함수는 모델이 전통적으로 어려움을 겪어온 소형 물체 인식 분야에서 현저한 개선을 제공합니다. 이는 항공 촬영 및 드론 응용 분야에서 매우 중요합니다.
- DFL 제거: 배포 초점 손실(Distribution Focal Loss) 기능이 제거되어 수출 형식이 간소화되고 저전력 에지 장치와의 호환성이 향상되었습니다.
- 타의 추종을 불허하는 다용도성: 탐지에만 국한된 경쟁 모델과 달리, YOLO26은 방향성 경계 상자(OBB)를 위한 특수 각도 손실, 픽셀 단위 정확도를 위한 의미적 분할 손실, 자세 추정을 위한 잔차 로그 가능도 추정(RLE) 등 전반적인 작업별 개선 사항을 포함합니다.
메모리 효율성이 중요합니다
RTDETRv2와 같은 트랜스포머 기반 모델 훈련에는 막대한 CUDA 할당이 필요하며, 이는 종종 고비용의 다중GPU 요구합니다. Ultralytics YOLO 훈련과 추론 모두에서 현저히 낮은 메모리 요구 사항을 유지하여 연구자와 취미 개발자 모두에게 AI 개발의 민주화를 실현합니다.
코드 예시: 통합 Ultralytics
Ultralytics 가장 큰 장점 중 하나는 통합 API입니다. 워크플로를 변경하지 않고도 RTDETR의 PyTorch 최신 YOLO 포함한 다양한 모델을 원활하게 로드, 훈련 및 검증할 수 있습니다.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()
이러한 단순성은 맞춤형 데이터셋 훈련 및 내보내기에도 적용됩니다. Ultralytics Python 활용하면 개발자는 훈련된 가중치를 CoreML 이나 OpenVINO 과 같은 배포 플랫폼에 단일 명령어로 쉽게 푸시할 수 있습니다.
결론 및 추가 연구
YOLO RTDETRv2는 실시간 객체 탐지에서 가능성의 한계를 분명히 확장시켰습니다.YOLO 원시적인 효율성을 위해 고도로 최적화된 자동 탐색 네트워크 구조를YOLO 반면, RTDETRv2는 NMS 같은 기존 병목 현상을 제거함으로써 트랜스포머가 실시간 영역에서 경쟁할 수 있음을 입증합니다.
그러나 성능, 포괄적인 문서화, 생산 환경 적용 가능성의 궁극적인 균형을 추구하는 개발자들에게는 Ultralytics YOLO 여전히 최고의 기준으로 자리 잡고 있습니다. YOLO26의 도입으로 사용자는 트랜스포머 기반의 엔드투엔드 탐지, 대규모 언어 모델(LLM)에서 영감을 받은 훈련 효율성, 그리고 비교할 수 없는 CPU 직관적이고 견고한 생태계 안에서 모두 활용할 수 있게 되었습니다.
다음 프로젝트를 위한 모델을 평가 중이라면, EfficientDet와 RTDETR의 비교 분석을 읽어보거나 이전 세대 모델을 살펴보는 것도 도움이 될 수 있습니다. YOLO11을 살펴보거나 YOLOX와 같은 학술적 기준 모델을 검토하는 것도 도움이 될 수 있습니다. Ultralytics 가이드를 통해 오늘 바로 구축을 시작해 보세요.