Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO 대 RTDETRv2#

급격히 진화하는 컴퓨터 비전 분야에서는 속도, 정확도, 연산 효율성의 균형을 맞추도록 설계된 인상적인 아키텍처들이 다수 등장했습니다. 이러한 과제를 해결하기 위해 독창적인 접근 방식을 제시한 두 가지 뛰어난 모델이 바로 DAMO-YOLO와 RTDETRv2입니다. 두 모델 모두 실시간 추론을 위한 최첨단 솔루션을 제공하는 것을 목표로 하지만, 그 근본적인 아키텍처 철학은 서로 다릅니다.

본 종합 가이드는 두 모델의 기술 사양, 아키텍처 혁신 및 실제 사용 사례를 깊이 있게 다루며, Ultralytics Platform과 같은 현대적 솔루션과 최첨단 YOLO26이 배포 및 사용 편의성에 대한 업계 표준을 어떻게 재정의했는지 살펴봅니다.

Link to this section모델 개요#

Link to this sectionDAMO-YOLO 이해하기#

Alibaba Group 연구원들이 개발한 DAMO-YOLO는 NAS(Neural Architecture Search)에 크게 의존하는 빠르고 정확한 객체 탐지 방법을 도입했습니다. 이 모델은 기존의 수동으로 설계된 백본을 저지연을 위해 설계된 NAS 생성 구조로 대체합니다. 또한, 효율적인 RepGFPN(Reparameterized Generalized Feature Pyramid Network)과 ZeroHead 설계를 통합하여 특징 집계 및 BBox 예측을 간소화합니다.

주요 모델 세부 정보:

DAMO-YOLO에 대해 더 알아보기

Link to this sectionRTDETRv2 이해하기#

Baidu의 RTDETRv2는 실시간 탐지 Transformer(Real-Time Detection Transformers)에 있어 상당한 도약을 의미합니다. 앵커 박스와 NMS(Non-Maximum Suppression)에 의존하는 기존의 합성곱 신경망(CNN)과 달리, RTDETRv2는 셀프 어텐션 메커니즘을 사용하여 전체 이미지의 맥락을 파악합니다. 이 모델은 BBox를 직접 출력하여 NMS 후처리 단계를 완전히 우회합니다. 또한, 추론 지연 시간을 늘리지 않고 기본 정확도를 향상시키기 위해 'bag of freebies' 학습 전략을 도입했습니다.

주요 모델 세부 정보:

RTDETRv2에 대해 자세히 알아보기

비전 AI에서 Transformer 채택하기

Transformer는 더 높은 연산 자원을 필요로 하지만, 전체적인 맥락을 처리하는 능력 덕분에 복잡한 장면 이해에 매우 효과적이며, 이는 RTDETRv2의 주요 강점이기도 합니다.

Link to this section성능 비교#

실제 배포를 위해 모델을 평가할 때는 mAP(Mean Average Precision), 추론 속도, 메모리 사용량과 같은 매개변수가 매우 중요합니다. RTDETRv2와 같은 Transformer 기반 모델은 일반적으로 DAMO-YOLO와 같은 경량 CNN에 비해 학습 및 추론 과정에서 더 높은 CUDA 메모리를 요구합니다.

다음은 성능 지표에 대한 상세 비교입니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this section이상적인 사용 사례#

DAMO-YOLO가 뛰어난 점: NAS 최적화 백본과 소형 변형(DAMO-YOLOt 등)에서의 매우 낮은 매개변수 수 덕분에, 제약이 심한 하드웨어에 배포하기에 매우 적합합니다. ONNX나 엣지 컴퓨팅을 위한 특수 TensorRT 엔진 같은 런타임을 사용하여 임베디드 장치용 솔루션을 구축하는 경우, DAMO-YOLO는 매우 반응성이 뛰어난 프레임워크를 제공합니다.

RTDETRv2가 뛰어난 점: RTDETRv2는 서버급 GPU를 사용할 수 있고 전역 이미지 맥락이 중요한 시나리오에서 빛을 발합니다. Transformer 아키텍처 덕분에 NMS 없이도 겹치는 BBox를 자연스럽게 해결할 수 있어, 거리상 멀리 떨어진 객체 간의 공간적 관계가 중요한 군중 관리나 복잡한 객체 추적 분야에서 강력한 선택지입니다.

Link to this sectionUltralytics의 강점: YOLO26 소개#

DAMO-YOLO와 RTDETRv2는 학계에서 중요한 성과를 거두었지만, 이러한 모델을 확장 가능한 프로덕션 수준의 애플리케이션으로 전환하는 것은 어려울 수 있습니다. 개발자들은 종종 파편화된 코드베이스, 다중 작업 학습 지원 부족, 복잡한 배포 파이프라인 문제에 직면합니다.

이 지점에서 Ultralytics 에코시스템이 진정한 차별성을 드러냅니다. 사용 편의성, 잘 관리된 Python API, 그리고 타의 추종을 불허하는 범용성을 우선시함으로써, Ultralytics는 개발자가 디버깅 시간을 줄이고 개발에 더 많은 시간을 할애할 수 있도록 보장합니다.

최근 출시된 Ultralytics YOLO26 모델은 이러한 장점을 한 차원 더 끌어올려 DAMO-YOLO와 RTDETRv2를 모두 앞서는 혁신을 제공합니다:

  • End-to-End NMS-Free 설계: 원래 YOLOv10에서 개척된 YOLO26은 네이티브 end-to-end 방식입니다. 이는 NMS 후처리를 완전히 제거하여 배포 속도를 높이고 기존 CNN보다 훨씬 간단하게 만들면서도, RTDETRv2의 직접 출력 이점을 그대로 유지합니다.
  • 최대 43% 더 빠른 CPU 추론: 외장 GPU가 없는 엣지 AI 장치에 맞게 최적화되어, 메모리 집약적인 Transformer와 비교했을 때 IoT 애플리케이션을 위한 훨씬 우월한 선택지입니다.
  • MuSGD 옵티마이저: Moonshot AI의 Kimi K2에서 영감을 받은 이 SGD와 Muon의 하이브리드는 LLM 학습 혁신을 컴퓨터 비전에 도입하여, 놀라울 정도로 안정적인 학습과 더 빠른 수렴을 가능하게 합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 기존 모델들이 어려움을 겪었던 작은 객체 인식에서 눈에 띄는 향상을 제공합니다. 이는 항공 이미지 및 드론 애플리케이션에 매우 중요합니다.
  • DFL 제거: 내보내기 형식을 간소화하고 저전력 엣지 장치와의 호환성을 높이기 위해 Distribution Focal Loss가 제거되었습니다.
  • 비교 불가능한 범용성: 탐지 기능에만 엄격히 제한된 경쟁 모델들과 달리, YOLO26은 Oriented BBox (OBB)를 위한 특수 각도 손실, 픽셀 단위의 정확도를 위한 의미론적 세분화 손실, Pose estimation을 위한 RLE(Residual Log-Likelihood Estimation)와 같이 전반적으로 작업별 개선 사항을 포함하고 있습니다.

YOLO26에 대해 자세히 알아보기

메모리 효율성의 중요성

RTDETRv2와 같은 Transformer 기반 모델을 학습하려면 방대한 CUDA 메모리 할당이 필요하며, 종종 고가의 멀티 GPU 설정이 요구됩니다. Ultralytics YOLO 모델은 학습과 추론 모두에서 현저히 낮은 메모리 요구 사항을 유지하여, 연구자와 취미 사용자 모두를 위한 AI 개발의 대중화를 이끌고 있습니다.

Link to this section코드 예제: 통합 Ultralytics API#

Ultralytics 에코시스템의 가장 큰 장점 중 하나는 통합 API입니다. RTDETR의 PyTorch 구현과 최첨단 YOLO 모델을 포함한 다양한 모델을 워크플로우 변경 없이 원활하게 로드, 학습 및 검증할 수 있습니다.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the detected objects
results_yolo[0].show()

이러한 단순함은 맞춤형 데이터셋 학습과 내보내기까지 확장됩니다. 개발자는 Ultralytics Python 패키지를 활용하여 단일 명령어로 학습된 가중치를 CoreML이나 OpenVINO와 같은 배포 플랫폼으로 쉽게 푸시할 수 있습니다.

Link to this section결론 및 추가 탐색#

DAMO-YOLO와 RTDETRv2 모두 실시간 객체 탐지 분야에서 가능한 영역을 확장해 온 것은 부정할 수 없습니다. DAMO-YOLO는 원초적인 효율성을 위해 고도로 최적화되고 자동 탐색된 네트워크 구조를 제공하며, RTDETRv2는 NMS와 같은 전통적인 병목 현상을 제거함으로써 Transformer가 실시간 분야에서도 경쟁할 수 있음을 입증했습니다.

그러나 성능, 종합적인 문서, 프로덕션 준비 상태 사이의 궁극적인 균형을 찾는 개발자에게 Ultralytics YOLO 모델은 여전히 업계의 표준입니다. YOLO26의 도입으로 사용자들은 Transformer와 유사한 end-to-end 탐지, LLM에서 영감을 받은 학습 효율성, 타의 추종을 불허하는 CPU 속도를 모두 직관적이고 강력한 에코시스템 내에서 누릴 수 있습니다.

다음 프로젝트를 위한 모델을 평가 중이라면 EfficientDet vs RTDETR 비교 문서를 읽거나, 이전 세대인 YOLO11을 살펴보거나, YOLOX와 같은 학술적 기준을 검토하는 것도 유용할 것입니다. Ultralytics 퀵스타트 가이드를 통해 지금 바로 개발을 시작해 보십시오.

댓글