Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 대 RTDETRv2#

컴퓨터 비전 분야는 빠르게 확장되어 개발자들에게 강력한 비전 기반 애플리케이션을 구축하기 위한 수많은 선택지를 제공하고 있습니다. 실시간 객체 탐지 영역에서는 합성곱 신경망(CNN)과 비전 트랜스포머(ViT) 간의 논쟁이 그 어느 때보다 뜨겁습니다. 본 기술 비교에서는 고도로 최적화된 CNN 프레임워크의 정점인 YOLO11과 Detection Transformer 제품군의 강력한 버전인 RTDETRv2, 이 두 가지 주요 아키텍처를 심도 있게 다룹니다.

이 가이드는 아키텍처, 성능 지표 및 이상적인 배포 시나리오를 분석하여 머신러닝 엔지니어가 정보에 입각한 결정을 내릴 수 있도록 돕는 것을 목표로 합니다. 두 모델 모두 정확도의 한계를 넓히고 있지만, Ultralytics YOLO 모델은 일반적으로 실세계 프로덕션 환경에서 속도, 생태계 지원 및 사용 편의성 측면에서 우수한 균형을 제공합니다.

Link to this sectionYOLO11: 실세계 범용성의 기준#

Ultralytics에서 선보인 YOLO11은 수년간의 기초 연구를 바탕으로 구축되어 빠르고 정확하며 매우 범용적인 모델을 제공합니다. 객체 탐지, 인스턴스 분할, 이미지 분류, 자세 추정회전 바운딩 박스(OBB) 추출을 기본적으로 원활하게 처리하도록 설계되었습니다.

YOLO11에 대해 더 알아보기

Link to this section아키텍처 및 강점#

YOLO11은 세련된 CNN 백본과 고급 공간 특징 피라미드를 특징으로 하며, 자원 효율성이 뛰어납니다. 학습 및 추론 과정 모두에서 최소한의 메모리 점유율을 제공하므로 하드웨어 제약이 엄격한 환경에서 탁월한 성능을 발휘합니다. Ultralytics Platform은 YOLO11을 기본 지원하여 파편화된 MLOps 도구를 조합할 필요 없이 모델 모니터링, 데이터 주석, 클라우드 학습을 간소화합니다.

엣지 컴퓨팅을 목표로 하는 개발자에게 YOLO11은 초저지연 시간을 자랑합니다. 가벼운 특성 덕분에 Raspberry Pi부터 소비자용 모바일 폰에 이르는 다양한 기기에서 효율적으로 실행되며, 스마트 리테일, 제조 품질 관리 및 자동화된 교통 관리의 표준으로 자리 잡고 있습니다.

Link to this sectionRTDETRv2: Baidu의 실시간 Transformer#

RTDETRv2(Real-Time Detection Transformer version 2)는 트랜스포머 기반 아키텍처를 실시간 작업에 적합하게 만들려는 Baidu의 노력을 나타냅니다. 기존 RT-DETR을 기반으로 'bag-of-freebies' 방식을 통합하여 추론 지연 시간을 늘리지 않으면서 기본 정확도를 향상했습니다.

RTDETR에 대해 더 알아보기

Link to this section아키텍처 및 강점#

기존 CNN과 달리, RTDETRv2는 셀프 어텐션 메커니즘을 갖춘 인코더-디코더 아키텍처를 사용하여 이미지 전체의 전역적 맥락을 파악할 수 있습니다. 이는 가림 현상이 빈번한 혼잡한 장면에서 특히 유리합니다. RTDETRv2는 후처리 과정에서 비최대 억제(NMS)가 필요 없으며, 학습 중 헝가리안 매칭을 이용한 일대일 이분 매칭에 의존합니다.

그러나 트랜스포머 모델은 VRAM 및 CUDA 메모리를 많이 소비하는 것으로 잘 알려져 있습니다. RTDETRv2를 처음부터 학습하거나 커스텀 데이터셋에서 파인 튜닝하려면 종종 고성능 GPU 클러스터가 필요하며, 이는 Ultralytics 모델의 가벼운 학습 환경과 비교했을 때 소규모 애자일 팀에게는 진입 장벽이 될 수 있습니다.

Link to this section성능 및 지표 분석#

표준 COCO 데이터셋에서 이러한 모델을 평가할 때 매개변수, FLOPs 및 원시 정확도 사이의 명확한 트레이드오프를 관찰할 수 있습니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this section결과 분석#

표에서 볼 수 있듯이, YOLO11은 놀라운 성능 대비 크기 비율을 제공합니다. YOLO11x는 RTDETRv2-x(54.3)보다 높은 mAPval(54.7)을 달성하면서도, 매개변수(56.9M 대 76M)와 계산 FLOPs(194.9B 대 259B)를 훨씬 더 적게 사용합니다.

또한 T4 TensorRT에서 YOLO11의 추론 속도는 매우 빠릅니다. YOLO11s는 단 2.5ms 만에 추론을 완료하는 반면, 가장 작은 RTDETRv2-s는 5.03ms가 소요됩니다. 이로 인해 YOLO11은 프레임 처리 시간이 주요 병목 현상이 되는 고속 실시간 비디오 분석 스트림에 최적의 선택입니다.

트랜스포머의 비용

RTDETRv2는 어텐션 레이어를 통해 뛰어난 정확도를 달성하지만, 이러한 메커니즘은 이미지 해상도에 따라 이차적으로 확장되어 학습 및 추론 중에 더 높은 VRAM 소비를 유발합니다. YOLO11은 초효율적인 컨볼루션 블록으로 이를 우회합니다.

Link to this section학습 생태계 및 사용성#

Ultralytics 모델 채택의 핵심 이점은 주변 생태계에 있습니다. RTDETRv2를 학습하는 것은 종종 복잡한 연구 수준의 저장소를 탐색하고, 복잡한 이분 매칭 손실 가중치를 조정하며, 상당한 메모리 오버헤드를 관리하는 과정을 포함합니다.

반면, Ultralytics는 개발자 경험에 크게 집중합니다. 통합된 Python API는 복잡한 상용구 코드를 추상화하고, Weights & Biases와 같은 도구와 원활하게 통합되어 실험 추적을 지원하며, 데이터 증강을 자동으로 처리합니다.

ultralytics 패키지를 사용하여 모델을 학습하고 내보내는 방법은 다음과 같이 간단합니다:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

학습이 완료되면 YOLO11 모델을 ONNX, OpenVINO 또는 CoreML과 같은 형식으로 내보내는 데 단일 명령만 필요하므로, 비전 파이프라인이 다양한 하드웨어 백엔드에서 쉽게 확장될 수 있습니다.

다중 작업 기능

RTDETRv2는 바운딩 박스 탐지에만 집중하는 반면, YOLO11 아키텍처는 자세 추정인스턴스 분할을 기본적으로 지원하여 여러 비전 작업을 하나의 모델 제품군으로 통합할 수 있음을 기억하십시오.

Link to this section활용 사례 및 권장 사항#

YOLO11과 RT-DETR 중 무엇을 선택할지는 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.

Link to this sectionYOLO11을 선택해야 할 때#

YOLO11은 다음에 강력히 추천합니다:

  • 프로덕션 엣지 배포: 신뢰성과 활발한 유지 관리가 가장 중요한 Raspberry Pi 또는 NVIDIA Jetson과 같은 디바이스에서의 상업용 애플리케이션.
  • 다중 작업 비전 애플리케이션: 단일 통합 프레임워크 내에서 detection, segmentation, pose estimationOBB가 필요한 프로젝트.
  • 신속한 프로토타이핑 및 배포: 간소화된 Ultralytics Python API를 사용하여 데이터 수집에서 프로덕션 단계까지 빠르게 이동해야 하는 팀.

Link to this sectionRT-DETR을 선택해야 할 때#

RT-DETR 권장 대상:

  • Transformer 기반 탐지 연구: NMS 없이 엔드 투 엔드 객체 탐지를 위해 어텐션 메커니즘과 Transformer 아키텍처를 탐구하는 프로젝트.
  • 유연한 지연 시간을 가진 고정밀 시나리오: 탐지 정확도가 최우선이며, 약간 높은 추론 지연 시간이 허용되는 애플리케이션.
  • 대형 객체 탐지: Transformer의 글로벌 어텐션 메커니즘이 자연스러운 이점을 제공하는, 주로 중대형 객체가 있는 장면.

Link to this sectionUltralytics (YOLO26)를 선택해야 할 때#

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최상의 조합을 제공합니다:

  • NMS 미사용 엣지 배포: 비최대 억제 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속이 없는 디바이스에서, 최대 43% 더 빠른 YOLO26의 CPU 추론 속도가 결정적인 이점을 제공합니다.
  • 소형 객체 탐지: aerial drone imagery 또는 IoT 센서 분석과 같이 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 높여주는 어려운 시나리오.

Link to this section미래를 바라보며: YOLO26의 힘#

YOLO11은 우수한 프로덕션 선택지이지만, 최첨단 기술을 찾는 팀이라면 YOLO26을 강력히 고려해야 합니다. 2026년 1월에 출시된 YOLO26은 End-to-End NMS-Free Design(YOLOv10에서 처음 개척됨)을 핵심에 직접 통합하여 아키텍처 격차를 해소하고, 후처리 지연 시간과 배포 로직 복잡성을 완전히 제거했습니다.

YOLO26은 또한 몇 가지 혁신적인 기능을 도입했습니다:

  • MuSGD 옵티마이저: Moonshot AI의 Kimi K2의 LLM 학습 기법에서 영감을 받은 이 SGD와 Muon의 하이브리드는 매우 안정적인 학습과 획기적으로 빠른 수렴을 보장합니다.
  • DFL 제거: Distribution Focal Loss를 제거하여 더 깔끔하고 간소화된 내보내기 프로세스를 제공하며, 저전력 엣지 기기 호환성을 대폭 개선했습니다.
  • ProgLoss + STAL: 이러한 고급 손실 함수는 드론 감시, 농업 모니터링 및 IoT 엣지 센서에 필수적인 요구 사항인 소형 객체 인식에서 현저한 개선을 이끌어냅니다.
  • 최대 43% 더 빠른 CPU 추론: 전용 GPU가 없는 배포 환경을 위해 YOLO26은 CPU 실행에 맞게 특별히 최적화되었으며 이전 세대보다 훨씬 뛰어난 성능을 발휘합니다.

YOLO26에 대해 자세히 알아보기

더 광범위한 아키텍처를 탐색하는 데 관심이 있는 분들을 위해 Ultralytics 문서에서는 YOLOv8, 널리 채택된 YOLOv5, 그리고 오픈 어휘 탐지 애플리케이션을 위한 YOLO-World와 같은 전문 모델에 대한 통찰력을 제공합니다. 결론적으로, YOLO11의 검증된 안정성을 우선시하든 YOLO26의 획기적인 혁신을 선택하든, Ultralytics 생태계는 귀하의 컴퓨터 비전 솔루션을 실현하기 위한 타의 추종을 불허하는 도구를 제공합니다.

댓글