Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 대 YOLOv10#

컴퓨터 비전의 발전은 주로 속도와 정확성 사이의 균형을 맞추려는 끊임없는 노력에 의해 주도되었습니다. 전통적으로 실시간 객체 탐지 파이프라인은 겹치는 경계 상자를 필터링하기 위한 후처리 단계로서 NMS(Non-Maximum Suppression)에 의존해 왔습니다. 그러나 NMS는 대기 시간 병목 현상을 유발하고 복잡한 하이퍼파라미터 튜닝이 필요합니다. 최근 이 문제를 근본적으로 해결하기 위해 RTDETRv2와 같은 Transformer 기반 모델과 YOLOv10과 같은 CNN 기반 모델이라는 두 가지 독특한 아키텍처 접근 방식이 등장했습니다.

이 가이드는 두 모델에 대한 포괄적인 기술적 비교를 제공하며, 아키텍처, 성능 지표 및 이상적인 사용 사례를 분석합니다. 또한 Ultralytics 생태계의 최신 혁신이 어떻게 현대적인 배포를 위한 최고의 솔루션을 제공하는지 강조합니다.

Link to this sectionRTDETRv2: 실시간 탐지 트랜스포머#

RTDETRv2는 기존 RT-DETR 아키텍처를 기반으로 하며, Vision Transformer의 전역 문맥 이해 능력과 전통적으로 YOLO 모델이 우위를 점해 온 실시간 속도 요구 사항을 결합하는 것을 목표로 합니다.

주요 특징:

Link to this section아키텍처 및 학습 방법론#

RTDETRv2는 NMS를 본질적으로 회피하는 엔드투엔드 Transformer 아키텍처를 활용합니다. 이 모델은 'Bag-of-Freebies' 방식을 도입하여 이전 모델을 개선했으며, 학습 전략을 최적화하고 다중 스케일 탐지 기능을 통합했습니다. 이 모델은 CNN 백본을 사용하여 특성 맵(가장자리 및 질감과 같은 시각적 세부 사항)을 추출한 다음, Transformer 인코더-디코더 구조로 처리합니다. 이를 통해 모델은 전체 이미지 문맥을 동시에 분석할 수 있어, 객체가 밀집되어 있거나 겹쳐 있는 복잡한 장면을 이해하는 데 매우 효과적입니다.

Link to this section강점 및 약점#

강점:

  • 전역 문맥: 어텐션 메커니즘을 통해 복잡하고 어수선한 환경에서 뛰어난 성능을 발휘합니다.
  • NMS 미사용: 객체 좌표를 직접 예측하여 배포 파이프라인을 간소화합니다.
  • 높은 정확도: COCO 데이터셋에서 뛰어난 평균 정밀도(mAP)를 달성합니다.

약점:

  • 자원 집약적: Transformer 아키텍처는 일반적으로 CNN에 비해 학습 중에 훨씬 더 많은 CUDA 메모리를 필요로 하므로, 표준 하드웨어에서 미세 조정하는 데 비용이 많이 듭니다.
  • 추론 속도 가변성: 빠르긴 하지만, 전용 AI 가속기가 없는 엣지 디바이스에서는 무거운 어텐션 연산으로 인해 컴퓨터 비전의 FPS가 낮아질 수 있습니다.

RTDETRv2에 대해 더 알아보기

Link to this sectionYOLOv10: 실시간 엔드투엔드 객체 탐지#

YOLOv10은 CNN 프레임워크 내에서 오랫동안 지속되어 온 NMS 병목 현상을 직접 해결함으로써 YOLO 객체 탐지 계보의 주요 전환점을 나타냅니다.

주요 특징:

Link to this section아키텍처 및 학습 방법론#

YOLOv10의 핵심 혁신은 NMS 없는 학습을 위한 일관된 이중 할당입니다. 학습 중 두 개의 탐지 헤드를 사용합니다. 하나는 풍부한 지도 신호를 제공하기 위한 일대다(one-to-many) 할당 방식(기존 YOLO와 유사)이고, 다른 하나는 NMS를 제거하기 위한 일대일(one-to-one) 할당 방식입니다. 추론 시에는 일대일 헤드만 사용하여 엔드투엔드 프로세스를 구현합니다. 또한 저자들은 효율성과 정확성을 중시하는 전체론적 모델 설계 전략을 적용하여 다양한 구성 요소를 포괄적으로 최적화함으로써 계산상의 중복을 줄였습니다.

Link to this section강점 및 약점#

강점:

  • 극도의 속도: NMS를 제거하고 아키텍처를 최적화함으로써 YOLOv10은 매우 낮은 추론 지연 시간을 달성합니다.
  • 효율성: 다른 모델과 비슷한 정확도를 달성하는 데 더 적은 수의 파라미터와 FLOPs가 필요하여 제약이 있는 환경에 매우 적합합니다.
  • NMS 미사용 배포: 스마트 감시와 같은 엣지 애플리케이션으로의 통합을 간소화합니다.

약점:

  • 1세대 개념: 이 특정 NMS 미사용 아키텍처를 구현한 첫 번째 YOLO로서 토대를 마련했지만, YOLO11 및 YOLO26과 같은 후속 모델에서 볼 수 있는 다중 작업 범용성과 최적화의 여지를 남겼습니다.

YOLOv10에 대해 더 알아보기

Link to this section성능 비교#

프로덕션용 모델을 평가할 때는 정확도와 계산 비용 사이의 균형을 맞추는 것이 중요합니다. 아래 표는 RTDETRv2와 YOLOv10의 여러 크기 간 성능 차이를 강조합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

RTDETRv2는 강력한 정확도를 제공하지만, YOLOv10은 특히 소형 모델(Nano 및 Small)에서 대기 시간과 파라미터 효율성 측면에서 놀라운 이점을 보여주어 엣지 컴퓨팅 및 AIoT 애플리케이션에 매우 매력적입니다.

적절한 규모 선택

배치 크기와 VRAM 제약이 적은 서버급 GPU에 배포하는 경우, 더 큰 모델(예: -x 또는 -l)이 정확도를 극대화합니다. Raspberry Pi나 휴대폰과 같은 엣지 디바이스의 경우, 실시간 프레임 속도를 유지하기 위해 nano (-n) 또는 small (-s) 버전을 우선순위로 두십시오.

Link to this section활용 사례 및 권장 사항#

RT-DETR과 YOLOv10 사이의 선택은 프로젝트의 특정 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

Link to this sectionRT-DETR을 선택해야 할 때#

RT-DETR은 다음 경우에 강력한 선택지입니다:

  • Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
  • 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.

Link to this sectionYOLOv10을 선택해야 할 때#

YOLOv10은 다음 상황에 권장됩니다:

  • NMS 없는 실시간 탐지: Non-Maximum Suppression 없이 엔드 투 엔드 탐지를 수행하여 배포 복잡성을 줄이는 애플리케이션.
  • 균형 잡힌 속도-정확도 트레이드오프: 다양한 모델 스케일 전반에서 추론 속도와 탐지 정확도 사이의 강력한 균형이 필요한 프로젝트.
  • 일관된 지연 시간 애플리케이션: 로봇 공학 또는 자율 시스템과 같이 예측 가능한 추론 시간이 중요한 배포 시나리오.

Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:

  • NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
  • 소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.

Link to this sectionUltralytics의 강점: YOLO26 소개#

RTDETRv2와 YOLOv10 모두 학계에서 설득력 있는 발전을 보여주지만, 실제 환경에 배포하려면 강력하고 잘 유지 관리되는 소프트웨어 생태계가 필요합니다. Ultralytics 플랫폼은 사용 편의성, 광범위한 문서, 그리고 데이터 어노테이션 및 배포를 위한 강력한 도구를 결합하여 독보적인 개발자 경험을 제공합니다.

2026년 최고의 최첨단 기술을 찾는 개발자에게는 **Ultralytics YOLO26**을 강력히 권장합니다. 이 모델은 두 아키텍처의 장점을 종합하면서도 다음과 같은 획기적인 개선 사항을 도입했습니다.

  • 엔드투엔드 NMS 미사용 설계: YOLOv10이 개척한 개념을 바탕으로, YOLO26은 NMS 후처리를 기본적으로 제거하여 더 빠르고 간단한 배포 로직과 제로 대기 시간 변동성을 실현합니다.
  • DFL 제거: Distribution Focal Loss를 제거함으로써 YOLO26은 모델 내보내기를 간소화하고 엣지 및 저전력 디바이스와의 호환성을 크게 향상시킵니다.
  • MuSGD 옵티마이저: SGD와 Muon의 하이브리드(LLM 학습 혁신에서 영감을 받음)인 이 새로운 옵티마이저는 기존 방식에 비해 더 안정적인 학습과 훨씬 빠른 수렴을 제공합니다.
  • 최대 43% 더 빠른 CPU 추론: 전용 GPU가 없는 환경에 맞게 세심하게 최적화되어 고성능 비전 AI를 대중화합니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 드론 및 IoT 센서를 사용하는 애플리케이션에 필수적인 소형 객체 인식에서 눈에 띄는 개선을 가져옵니다.
  • 비교할 수 없는 범용성: 경계 상자에만 국한된 모델과 달리 YOLO26은 인스턴스 분할, 자세 추정, 이미지 분류OBB 탐지를 포함한 전체 작업 제품군을 지원하며, 자세 추정을 위한 RLE(Residual Log-Likelihood Estimation)와 같은 작업별 개선 사항을 완벽하게 갖추고 있습니다.

YOLO26에 대해 자세히 알아보기

Link to this sectionPython을 통한 원활한 구현#

Ultralytics Python API를 사용하여 이러한 모델을 학습하고 배포하는 과정은 마찰 없이 설계되었습니다. Transformer 위주의 아키텍처에 비해 학습 중 메모리 요구 사항이 현저히 낮아 표준 하드웨어에서도 강력한 모델을 학습할 수 있습니다.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)

Whether you are implementing security alarm systems or conducting medical image analysis, choosing a model backed by the active Ultralytics community ensures you have the tools, hyperparameter tuning guides, and continuous updates needed to succeed. While YOLOv10 and RTDETRv2 paved the way for NMS-free architectures, YOLO26 perfects the formula, offering the best balance of performance, versatility, and production readiness.

댓글