YOLOv9 YOLO26: 현대 객체 탐지 기술에 대한 심층 분석
실시간 객체 탐지 기술은 지난 몇 년간 크게 발전했습니다. 머신러닝 실무자들이 다양한 하드웨어에 모델을 배포하려는 가운데, 적합한 아키텍처를 선택하는 것이 매우 중요합니다. 이 포괄적인 기술 가이드에서는 컴퓨터 비전 분야의 두 가지 주요 이정표인 YOLOv9(2024년 초 도입, 기울기 경로 최적화에 중점)과 Ultralytics 를 비교합니다. 후자는 2026년 초 출시된 최신 최첨단 프레임워크로, 에지 추론과 훈련 안정성을 완전히 재정의합니다.
집행 요약: 모델 계보 및 저작권
이러한 딥러닝 모델의 기원을 이해하는 것은 그 아키텍처 설계 선택과 대상 고객층에 관한 귀중한 맥락을 제공한다.
9
대만 중앙연구원 정보과학연구소의 Chien-Yao Wang과 Hong-Yuan Mark Liao가 개발한 YOLOv9는 2024년 2월 21일에 출시되었습니다. 이 모델은 이론적인 딥러닝 개념에 중점을 두며, 특히 심층 컨볼루션 신경망(CNN)의 정보 병목 현상 문제를 해결합니다.
Ultralytics YOLO26
Ultralytics의 Glenn Jocher와 Jing Qiu가 개발한 YOLO26은 2026년 1월 14일에 출시되었습니다. YOLO11 및 YOLOv8과 같은 이전 모델들의 큰 성공을 기반으로, YOLO26은 생산 준비성, 엣지 배포, 그리고 기본 엔드-투-엔드 효율성을 최우선으로 하여 처음부터 설계되었습니다.
오늘 YOLO26을 사용해 보세요
컴퓨터 비전 파이프라인을 업그레이드할 준비가 되셨나요? Ultralytics 사용하면 코드를 작성하지 않고도 클라우드에서 YOLO26 모델을 손쉽게 훈련하고 배포할 수 있습니다.
아키텍처 혁신
두 모델 모두 신경망이 시각 데이터를 처리하는 방식에 획기적인 변화를 가져왔지만, 문제에 접근하는 방식은 서로 다릅니다.
YOLOv9의 프로그래머블 그라디언트 정보
YOLOv9 해당 분야에 기여한 주요 내용은 프로그래머블 그라디언트 정보(PGI) 와 일반화된 효율적 레이어 집계 네트워크(GELAN)의 도입이다. 신경망이 깊어질수록 전방전파 과정에서 정보 손실이 발생하는 경우가 많다. PGI는 역전파 과정에서 가중치 업데이트에 사용되는 그라디언트가 정확하고 신뢰할 수 있도록 보장하여, GELAN 아키텍처가 더 적은 매개변수로 높은 정확도를 달성할 수 있게 한다.
그러나 YOLOv9 후처리 과정에서 기존의 비최대 억제(NMS)에 크게 YOLOv9 , 이는 실제 추론 시 지연 시간 병목 현상을 유발할 수 있다.
YOLO26의 에지-퍼스트 아키텍처
YOLO26은 훈련부터 실시간 배포까지 전체 파이프라인을 최적화하는 근본적으로 다른 접근법을 취합니다. 이는 최초로 도입된 엔드투엔드 NMS 설계(End-to-End NMSFree Design )를 기반으로 합니다. YOLOv10에서 최초로 도입된 NMS 프리 설계(End-to-End NMS-Free Design)를 기반으로 하여 NMS 전혀 필요하지 않습니다. 이로 인해 지연 시간이 극도로 낮아져 라즈베리 파이(Raspberry Pi )나 NVIDIA )과 같은 에지 디바이스에 최적화되어 있습니다.
또한 YOLO26은 분포 초점 손실(DFL)을 완전히 제거합니다. 이러한 구조적 변경은 ONNX 모델 내보내기를 단순화하고 저전력 마이크로컨트롤러와의 호환성을 크게 향상시킵니다.
훈련 단계에서 YOLO26은 새로운 MuSGD 최적화기를 통합합니다. 이 최적화기는 확률적 경사 하강법 ( SGD )과 뮤온(Muon)의 하이브리드 방식이며(Moonshot AI의 Kimi K2 대규모 언어 모델(LLM) 훈련 방법론에서 영감을 받음), 대규모 언어 모델(LLM) 훈련 혁신과 컴퓨터 비전 간의 격차를 해소하여 훨씬 더 안정적인 훈련과 빠른 수렴 시간을 제공합니다.
성능 및 지표 비교
널리 사용되는 COCO 벤치마킹 시 두 모델 모두 탁월한 성능을 보이지만, Ultralytics 실제 추론 속도와 매개변수 효율성 측면에서 두각을 나타냅니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
결과 분석
- 속도 및 효율성: YOLO26은 NMS-free 아키텍처와 단순화된 손실 함수를 활용하므로, 레거시 아키텍처에 비해 최대 43% 더 빠른 CPU 추론 속도를 자랑합니다. YOLO26n 모델은 TensorRT를 사용하여 NVIDIA T4 GPU에서 1.7ms의 놀라운 속도로 실행되어 실시간 비디오 스트림을 위한 최고의 선택입니다.
- 정확도: YOLO26x 모델은 비할 데 없는 57.5 mAP를 달성하여, 가장 큰 YOLOv9e 모델을 능가하면서도 더 낮은 지연 시간을 유지합니다.
- 메모리 요구 사항: Ultralytics 모델은 효율성으로 잘 알려져 있습니다. YOLO26은 복잡한 트랜스포머 기반 비전 모델에 비해 모델 훈련 및 추론 중 훨씬 적은 CUDA 메모리를 필요로 하며, 개발자들이 소비자용 하드웨어에서 더 큰 배치 크기를 활용할 수 있도록 합니다.
생태계, 사용 편의성, 그리고 다용도성
Ultralytics 진정한 강점은 사용자 경험에 있습니다. YOLOv9 GitHub 코드베이스를 활용하는 연구자들은 복잡한 환경 설정과 수동 스크립팅을 수행해야 하는 반면, YOLO26은 직관적인Python 완전히 통합되어 있습니다.
간소화된 API 예시
최신 YOLOv26 모델을 훈련하는 데는 단 몇 줄의 Python 필요합니다:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")
타의 추종을 불허하는 작업 다용도성
표준 객체 탐지에 주로 맞춤화된 YOLOv9 달리, YOLO26은 기본적으로 다양한 컴퓨터 비전 작업을 즉시 지원합니다. 이 아키텍처는 다양한 응용 분야를 위한 특정 개선 사항을 포함합니다:
- 인스턴스 segment: 완벽한 픽셀 수준 마스크를 위한 특수 semantic segmentation 손실 및 다중 스케일 프로토를 특징으로 합니다.
- 자세 추정: 잔차 로그-우도 추정(RLE)을 통합하여 골격 키포인트를 매우 정밀하게 추적합니다.
- Oriented Bounding Boxes (obb): 항공 이미지의 회전된 객체 detect에서 경계 문제를 해결하기 위해 특별히 설계된 특수 각도 손실 함수를 포함합니다.
- 이미지 분류: ImageNet 표준에 기반한 전체 이미지에 대한 견고한 분류입니다.
통합 에코시스템
모든 YOLO26 모델은 Ultralytics Platform과의 원활한 통합을 통해 내장된 데이터셋 레이블링, 능동 학습 및 즉각적인 배포 파이프라인을 제공합니다.
실제 응용 분야
이러한 모델 중 선택은 종종 배포될 환경에 달려 있습니다.
사물인터넷(IoT)과 엣지 로봇공학
로봇공학, 자율 비행 드론, 스마트 홈 IoT 기기 분야에서 YOLO26은 확실한 최강자입니다. ProgLoss + STAL의 통합은 고고도 드론을 통한 농업 모니터링에 핵심적인 소형 물체 인식 성능을 현저히 향상시킵니다. 43% 더 빠른 CPU 속도와 NMS 설계로, YOLO26은 전용 GPU 없이도 하드웨어에서 원활하게 실행됩니다.
학술 연구 및 그라디언트 분석
YOLOv9은 학계에서 여전히 높은 평가를 받는 모델입니다. 기울기 흐름의 이론적 한계를 연구하거나 PGI 개념을 기반으로 맞춤형 PyTorch 레이어를 구축하려는 연구자들은 YOLOv9의 코드베이스가 딥러닝 이론 탐구를 위한 훌륭한 기반이 될 것임을 알게 될 것입니다.
고속 제조 파이프라인
고속 컨베이어 벨트에서의 자동 결함 검사와 같은 산업 환경에서, YOLO26 모델의 초고속 TensorRT 프레임 손실을 방지하여 품질 보증 시스템의 처리량을 극대화합니다.
사용 사례 및 권장 사항
YOLOv9와 YOLO26 중 선택은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 따라 달라집니다.
9 선택해야 할 때
YOLOv9 다음과 같은 경우에 강력한 YOLOv9 :
- 정보 병목 연구: PGI(Programmable Gradient Information) 및 GELAN(Generalized Efficient Layer Aggregation Network) 아키텍처를 연구하는 학술 프로젝트.
- 그라디언트 흐름 최적화 연구: 훈련 중 깊은 네트워크 레이어에서 발생하는 정보 손실을 이해하고 완화하는 데 초점을 맞춘 연구.
- 고정확도 감지 벤치마킹: 아키텍처 비교를 위한 참조점으로 YOLOv9의 강력한 COCO 벤치마크 성능이 필요한 시나리오.
YOLO26을 선택해야 할 때
YOLO26은 다음에 권장됩니다:
- NMS-Free 엣지 배포: NMS(Non-Maximum Suppression) 후처리 복잡성 없이 일관되고 낮은 지연 시간의 추론을 요구하는 애플리케이션.
- CPU 전용 환경: 전용 GPU 가속이 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론이 결정적인 이점을 제공합니다.
- 작은 객체 detect: 항공 드론 이미지 또는 IoT 센서 분석과 같이 ProgLoss 및 STAL이 작은 객체에 대한 정확도를 크게 향상시키는 까다로운 시나리오.
결론
두 모델 모두 오픈 소스 커뮤니티에 엄청난 발전을 가져왔습니다. YOLOv9는 그래디언트 흐름에 대한 중요한 이론적 개선을 도입하여 앞으로 수년간 아키텍처에 영감을 줄 것입니다. 하지만 속도, 정확성, 배포 용이성의 완벽한 균형을 추구하는 현대 개발자, 스타트업 및 기업 팀에게는 Ultralytics YOLO26이 명확한 권장 사항입니다.
NMS를 제거하고, 강력한 MuSGD optimizer를 도입하며, detect, segmentation 및 pose 작업 전반에 걸쳐 비할 데 없는 도구 모음을 제공함으로써 YOLO26은 컴퓨터 비전 프로젝트가 오늘날 사용 가능한 가장 신뢰할 수 있고 미래 지향적인 프레임워크를 기반으로 구축되도록 보장합니다.