YOLO YOLO26: 차세대 실시간 객체 탐지 아키텍처 분석
컴퓨터 비전 분야는 높은 정확도와 낮은 지연 시간 추론을 균형 있게 구현하는 아키텍처에 대한 요구에 힘입어 끊임없이 진화하고 있습니다. 본 비교 분석은 YOLO Ultralytics 기술적 복잡성을 심층적으로 탐구하며, 두 아키텍처의 혁신적 설계, 훈련 방법론 및 이상적인 적용 사례를 살펴봅니다.
엣지 디바이스에 비전 모델을 배포하든, 고처리량 클라우드 파이프라인을 구축하든, 이러한 모델 간의 미묘한 차이를 이해하는 것은 현대 AI 개발에서 정보에 기반한 아키텍처 결정을 내리는 데 매우 중요합니다.
YOLO: 대규모 신경망 구조 탐색
알리바바 그룹이 개발한 YOLO 2022년 11월 23일에 공개되었습니다. 쉬셴저(徐宪哲), 장이치(江一琪), 천웨이화(陈伟华), 황이룬(黄一伦), 장위안(张元), 쑨시위(孙秀宇)가 설계한 이 모델은 신경망 아키텍처 검색(NAS)을 활용한 효율적인 아키텍처의 자동화된 발견에 중점을 두고 있습니다.
원본 연구는 ArXiv 논문에서 검토하거나 YOLO 저장소에서 소스 코드를 살펴볼 수 있습니다.
주요 아키텍처 기능
YOLO 실시간 객체 탐지의 한계를 뛰어넘기 위해 설계된 여러 기술적 혁신을YOLO :
- MAE-NAS 백본:YOLO 다목적 진화 탐색을YOLO 최적의 백본을 찾습니다. 이 NAS 접근법은 특정 하드웨어에서 탐지 정확도와 추론 속도를 엄격히 균형 잡은 아키텍처를 발견합니다.
- 효율적인 RepGFPN: 특징 융합을 크게 개선하는 헤비넥(heavy-neck) 설계로, 항공 촬영 이미지와 같은 복잡한 장면을 분석할 때 매우 유용합니다.
- 제로헤드 디자인: 최종 예측 레이어의 계산 복잡성을 최소화하는 극도로 단순화된 탐지 헤드.
- 정렬된 최적 수송 할당(AlignedOTA )과 증류:YOLO 레이블 할당 모호성을 해결하기 위해 정렬된 최적 수송 할당(AlignedOTA)을YOLO , 더 큰 교사 네트워크를 사용하여 더 작은 학생 모델의 정확도를 높이기 위한 강력한 지식 증류 강화 전략과 결합됩니다.
Ultralytics : YOLO26
2026년 1월 14일, 글렌 조커(Glenn Jocher)와 징 치우(Jing Qiu)가 Ultralytics에서 출시된 YOLO26은 접근성이 뛰어나면서도 고성능을 자랑하는 비전 AI의 정점을 보여줍니다. YOLO11 과 YOLOv10의 유산을 바탕으로, YOLO26은 에지 우선 배포, 다중 모드 유연성 및 비교할 수 없는 사용 편의성을 위해 처음부터 설계되었습니다.
YOLO26 혁신
Ultralytics 현대 컴퓨터 비전 애플리케이션을 위한 결정적인 선택이 되도록 하는 여러 획기적인 기능을 도입합니다:
- 엔드투엔드 NMS 설계: YOLO26은 비최대 억제(NMS) 후처리 단계를 원천적으로 제거합니다. YOLOv10 처음 도입된 이 엔드투엔드 접근법은 배포 파이프라인을 획기적으로 단순화하며 결정론적이며 저지연 추론을 보장합니다.
- 최대 43% 빠른 CPU : 엣지 컴퓨팅을 위해 아키텍처적으로 최적화된 YOLO26은 엣지 디바이스와 표준 CPU에서 탁월한 속도를 제공하여 배터리 구동 IoT 기기에 완벽합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련(예: Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 SGD )의 하이브리드 방식을 도입했습니다. 이는 대규모 언어 모델 훈련의 안정성을 컴퓨터 비전 분야에 적용하여 더 빠르고 안정적인 수렴을 가능하게 합니다.
- DFL 제거: 분포 초점 손실(Distribution Focal Loss)을 제거함으로써 모델 그래프가 단순화되어 다음과 같은 형식으로 원활한 내보내기가 가능해집니다. ONNX 및 TensorRT과 같은 형식으로 원활하게 내보낼 수 있습니다.
- ProgLoss + STAL: 이 고급 손실 함수는 드론 운영 및 농업에 중요한 기능인 소형 물체 인식에서 현저한 개선을 제공합니다.
작업별 향상 기능
YOLO26은 다중 모달리티에 걸쳐 특화된 개선 사항을 포함합니다: 인스턴스 분할을 위한 다중 스케일 프로토타입, 자세 추정을 위한 잔차 로그 가능도 추정(RLE), 그리고 방향성 경계 상자(OBB) 탐지에서 경계 문제를 완화하기 위한 고급 각도 손실 함수입니다.
성능 비교
이러한 모델을 평가할 때 정확도(mAP)와 계산 효율성(속도/FLOPs) 간의 균형이 가장 중요합니다. 아래 표는 업계 표준 COCO 사용하여 이들 모델을 비교한 결과를 보여줍니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
위에서 볼 수 있듯이, YOLO26은 훨씬 적은 매개변수와 FLOPs로도 지속적으로 높은 정확도를 제공하여 훈련과 추론 모두에 있어 훨씬 더 효율적인 아키텍처를 구현합니다.
훈련 효율성과 사용성
YOLO의 복잡성
YOLO 경쟁력 있는 정확도를YOLO , 그 훈련 방법론은 매우 복잡합니다. 신경망 구조 탐색(NAS)과 중대한 지식 증류에 의존한다는 것은 맞춤형 모델 훈련에 상당한 GPU 전문 지식이 필요함을 의미합니다. 거대한 교사 모델을 훈련하여 더 작은 학생 모델로 증류하는 이 다단계 과정은 맞춤형 데이터셋에서 신속한 반복을 시도하는 민첩한 엔지니어링 팀의 병목 현상이 될 수 있습니다.
간소화된 Ultralytics
반대로, Ultralytics "초보자도 쉽게" 사용할 수 있도록 설계되었습니다. 훈련, 검증, 배포의 전체 라이프사이클이 깔끔하고 통합된 Python 및 CLI 뒤에 추상화되어 있습니다. 또한 YOLO26은 훨씬 적은 CUDA 메모리를 필요로 합니다. RT-DETR와 같은 트랜스포머 기반 모델에 비해 훈련 중 CUDA 메모리 사용량이 현저히 적어, 연구자들이 소비자 등급 하드웨어에서도 최첨단 모델을 훈련할 수 있게 합니다.
Ultralytics 사용하여 YOLO26 모델을 훈련, 평가 및 내보내는 것이 얼마나 간단한지 보여주는 예시입니다:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
노코드 환경을 선호하는 팀을 위해 Ultralytics 데이터셋 주석 작업, 클라우드 기반 훈련, 원활한 배포를 위한 직관적인 인터페이스를 제공합니다.
실제 응용 분야
적합한 아키텍처 선택은 주로 대상 배포 환경과 하드웨어 제약 조건에 크게 좌우됩니다.
산업 품질 관리
고속 제조 자동화를 위해 YOLO 전용 GPU 우수한 성능을 발휘할 수 있습니다. 그러나 현대식 조립 라인에는 YOLO26이 더 적합한 선택입니다. 엔드투엔드 NMS 프리 설계는 결정론적이며 지터 없는 지연 시간을 보장하는데, 이는 시각적 데이터를 로봇 액추에이터와 실시간으로 동기화할 때 필수적입니다.
에지 AI와 모바일 기기
배터리 구동 장치에 컴퓨터 비전을 적용하려면 극도의 효율성이 요구됩니다.YOLO 특정 RepGFPN 넥에YOLO 반면, YOLO26n (나노)은 에지 컴퓨팅을 위해 특별히 최적화되었습니다. DFL 제거와 43% 더 빠른 CPU 성능으로 스마트 카메라, 모바일 애플리케이션, 보안 경보 시스템에 최적의 솔루션입니다.
다중 모드 프로젝트 요구사항
프로젝트가 단순한 객체 탐지를 넘어선 작업을 요구할 경우—예를 들어 자세 추정 기술을 활용한 스포츠 선수 동작 분석이나 인스턴스 분할을 통한 정확한 픽셀 경계 추출등—YOLO26은 단일 통합 코드베이스 내에서 이러한 모든 작업을 기본적으로 지원합니다.YOLO 경계 상자 탐지에만 엄격히YOLO .
사용 사례 및 권장 사항
YOLO YOLO26 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
YOLO 선택해야 할 때
YOLO 다음과 같은 경우에 탁월한YOLO :
- 고처리량 비디오 분석: 고정된 NVIDIA GPU 높은 FPS의 비디오 스트림을 처리하며, 배치 1 처리량이 주요 지표입니다.
- 산업용 제조 라인: 전용 하드웨어에서 엄격한 GPU 제약이 적용되는 시나리오, 예를 들어 조립 라인에서의 실시간 품질 검사.
- 신경망 구조 탐색 연구: 자동화된 구조 탐색(MAE-NAS)과 효율적인 재매개변수화 백본이 탐지 성능에 미치는 영향 연구.
YOLO26을 선택해야 할 때
YOLO26은 다음에 권장됩니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
결론
두 아키텍처 모두 딥러닝 분야에서 중요한 성과를 보여줍니다. YOLO 특정 하드웨어 벤치마크에 맞춤화된 신경망 아키텍처 검색 및 증류 기술의 힘을 흥미롭게 엿볼 수 있게 합니다.
그러나 개발자, 연구자 및 기업용으로 즉시 생산 환경에 적용 가능한 솔루션을 찾는 이들에게는 Ultralytics 탁월한 선택으로 부각됩니다. 엔드투엔드 NMS 설계, 막대한 CPU 성능 향상, 다중 모달 유연성, 그리고 Ultralytics 통합이 결합되어 오늘날 실제 컴퓨터 비전 과제 해결을 위한 가장 견고하고 실용적인 도구로 자리매김하고 있습니다.
Ultralytics 내 다른 모델을 탐색하고자 하는 사용자를 위해, 다음에 대한 포괄적인 문서가 제공됩니다. YOLO11, YOLOv8, 그리고 트랜스포머 기반의 RT-DETR.