YOLO YOLOv9: 실시간 객체 탐지의 진화
물체 탐지 분야의 기술은 정확도, 지연 시간, 효율성의 한계를 끊임없이 확장해 나가는 연구자들에 의해 지속적으로 진화하고 있습니다. 컴퓨터 비전 커뮤니티에 큰 파장을 일으킨 두 가지 주목할 만한 아키텍처는 알리바바 그룹이 개발한 YOLOYOLOv9입니다.
두 모델 모두 실시간 탐지 과제를 해결하는 것을 목표로 하지만, 서로 다른 아키텍처 철학으로 접근합니다.YOLO 신경망 아키텍처 검색(NAS) 과 대대적인 재매개변수화를YOLO 낮은 지연 시간을 최적화하는 반면, YOLOv9 프로그래머블 그라디언트 정보(PGI) 같은 개념을 YOLOv9 딥러닝 과정 중 정보 보존을 극대화합니다.
YOLO: 신경망 구조 탐색을 통한 효율성
YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once)는 2022년 말에 소개되었으며, 산업용 애플리케이션을 위해 성능과 속도를 엄격하게 균형 잡는 데 중점을 둡니다.
- 저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속:알리바바 그룹(Alibaba Group)
날짜: 2022-11-23
Arxiv:YOLO: 실시간 객체 탐지 설계에 관한 보고서
GitHub:YOLO
주요 아키텍처 기능
YOLO 제한된 하드웨어 리소스에서 최대 성능을 끌어내기 위해 설계된 세 가지 핵심 기술을 기반으로YOLO :
- MAE-NAS 백본: 수동으로 설계된 백본과 달리,YOLO 최적의 네트워크 구조를 찾기 위해 마스크드 자동 인코더(MAE) 기반 신경망 구조 탐색(NAS)을YOLO . 이를 통해 특정 계산 제약 조건에 수학적으로 맞춤화된 구조가 도출됩니다.
- 효율적인 RepGFPN: 재매개변수화 메커니즘으로 강화된 일반화된 피라미드 네트워크 (GFPN)를 활용합니다. 이를 통해 모델은 훈련 중 복잡한 다중 스케일 특징 융합의 이점을 누리면서도 추론 시에는 더 단순하고 빠른 구조로 축소됩니다.
- ZeroHead & AlignedOTA: "ZeroHead"로 명명된 탐지 헤드는 최종 출력 계층의 계산 부담을 줄이기 위해 극도로 가볍게 유지됩니다. 또한 레이블 할당 전략인 AlignedOTA는 훈련 중 분류 및 회귀 작업 간의 정렬 불일치 문제를 해결합니다.
강점과 약점
YOLO 주요 강점은 지연 시간 대비 정확도 비율입니다. 특정 산업용 하드웨어의 경우 NAS 기반 백본이 우수한 처리량을 제공할 수 있습니다. 그러나 이 모델은 복잡한 증류 훈련 파이프라인에 의존하는데, 여기서 더 큰 '교사' 모델을 먼저 훈련시켜 작은 모델을 지도해야 하므로 신속한 반복 작업이 필요한 개발자에게는 훈련 과정이 번거로울 수 있습니다. 또한YOLO 생태계는 광범위한 YOLO 에 비해 덜YOLO , 새로운 배포 대상에 대한 지원이 제한될 수 있습니다.
YOLOv9: 프로그래머블 그라디언트를 통한 학습
YOLOv9, 2024년 초에 출시된 이 모델은 딥러닝 네트워크에서 발생하는 정보 손실 문제를 해결합니다. 컨볼루션 신경망이 깊어질수록 입력과 출력을 매핑하는 데 필요한 핵심 데이터가 종종 손실되는데, 이를 '정보 병목 현상'이라고 합니다.
- 저자: 왕천야오(Chien-Yao Wang) 및 마크 리아오홍위안(Hong-Yuan Mark Liao)
소속기관:중앙연구원 정보과학연구원
날짜: 2024-02-21
Arxiv:YOLOv9: 프로그래밍 가능한 기울기 정보를 활용하여 원하는 것을 학습하기
GitHub:WongKinYiu/yolov9
주요 아키텍처 기능
YOLOv9 정보 손실을 완화하기 위해 두 가지 획기적인 개념을 YOLOv9 :
- 프로그래머블 그라디언트 정보(PGI): PGI는 네트워크 가중치 업데이트를 위한 신뢰할 수 있는 기울기를 생성하는 보조 감독 프레임워크로, 심층 레이어가 핵심 의미 정보를 유지하도록 보장합니다. 훈련 중에만 사용되고 추론 시 제거되는 가역적 보조 분기를 포함하여 배포 시 추가 비용이 발생하지 않습니다.
- GELAN(일반화된 효율적 레이어 집계 네트워크): 이 아키텍처는 CSPNet과 ELAN의 장점을 결합합니다. GELAN은 가볍고 빠른 성능을 유지하면서 다양한 계산 블록을 지원하도록 설계되었으며, 수용 야경을 희생하지 않으면서도 매개변수 수를 엄격하게 제어할 수 있습니다.
강점과 약점
YOLOv9 정확도 면에서 YOLOv9 COCO 새로운 기준을 세웠습니다. 정보를 유지하는 능력 덕분에 다른 모델이 놓칠 수 있는 어려운 물체 탐지에 특히 뛰어납니다. 그러나 보조 분기에 의해 도입된 아키텍처 복잡성은 단순하고 모듈식 설계에 비해 맞춤형 작업에 대한 코드베이스 수정을 어렵게 할 수 있습니다. GPU에서는 매우 효과적이지만, 특정 레이어 집계는 해당 대상에 특화 설계된 모델에 비해 모든 CPU 중심 에지 디바이스에 완전히 최적화되지 않을 수 있습니다.
성능 비교
다음 표는 YOLOv9 성능 지표를 보여줍니다. 매개변수 수, 연산 부하(FLOPs), 정확도(mAP) 간의 상충 관계를 유의하십시오.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
한편 YOLOv9 일반적으로 더 높은 정점 정확도(최대 55.6% mAP)를 달성하지만, YOLO 'tiny' 변형의 경우 더 높은 매개변수 수를 대가로 소형 모델 영역에서 경쟁력 있는 성능을 제공합니다. YOLOv9t는 FLOPs 측면에서 훨씬 가볍습니다(7.7G vs 18.1G), mAP 극도로 자원이 제한된 장치에 더 적합할 수 있음을 의미합니다.
Ultralytics의 강점: YOLO26의 등장
YOLO YOLOv9 중요한 학술적 성과를 YOLOv9 , 실제 생산 환경에 집중하는 개발자들은 최첨단 성능, 사용 편의성, 배포 유연성을 모두 갖춘 솔루션을 필요로 합니다. 바로 이 점에서 Ultralytics 현대 AI 애플리케이션을 위한 탁월한 선택으로 두각을 나타냅니다.
왜 YOLO26인가요?
2026년 1월 출시된 YOLO26은 이전 세대의 유산을 계승하면서도 아키텍처와 훈련 안정성 측면에서 근본적인 변화를 도입합니다.
- 엔드투엔드 NMS 설계: 중복 경계 상자를 필터링하기 위해 일반적으로 비최대 억제(NMS) 가 필요한 YOLOv9 YOLO 달리, YOLO26은 본질적으로 엔드투엔드 방식입니다. 이는 NMS 단계를 완전히 제거하여 추론 지연 시간과 변동성을 줄이고 배포 파이프라인을 크게 단순화합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 분야의 혁신에서 영감을 받아, YOLO26은 MuSGD 최적화기를 활용합니다. SGD Muon(Moonshot AI의 Kimi K2에서 유래)의 하이브리드인 이 최적화기는 훈련 과정에 전례 없는 안정성을 제공하여 더 빠른 수렴을 보장하고 광범위한 하이퍼파라미터 튜닝의 필요성을 줄입니다.
- 에지 우선 효율성: 분포 초점 손실(DFL)을 제거하고 CPU 위해 아키텍처를 최적화함으로써 YOLO26은 최대 43% 빠른 CPU 속도를 달성합니다. 이는 GPU가 없는 라즈베리 파이 또는 휴대폰과 같은 장치에서의 에지 컴퓨팅에 이상적인 후보입니다.
- 소형 물체 탐지 성능 향상: ProgLoss + STAL (Self-Taught Anchor Learning) 도입으로 YOLO26은 드론 영상 및 IoT 센서에 필수적인 소형 물체 인식 성능이 현저히 개선되었습니다.
Ultralytics 으로 간소화된 워크플로우
복잡한 증류 파이프라인이나 수동 환경 설정을 잊으세요. Ultralytics 를 사용하면 데이터셋을 관리하고, 클라우드에서 YOLO26 모델을 훈련시키며, 단 한 번의 클릭으로 모든 형식(ONNX, TensorRT, CoreML)으로 배포할 수 있습니다.
탁월한 다용도성
YOLO 탐지YOLO , Ultralytics YOLO26이 기본적으로 다양한 작업을 지원하도록 보장합니다. 인스턴스 분할, 잔차 로그 가능도 추정(RLE)을 통한 자세 추정, 항공 측량을 위한 방향성 경계 상자(OBB) 탐지 등 어떤 작업이 필요하든 API는 일관되고 간단하게 유지됩니다.
코드 예시: Ultralytics 사용한 훈련
Ultralytics Python 고급 모델 훈련의 복잡성을 추상화합니다. YOLOv9 YOLO26 사이를 원활하게 전환할 수 있습니다.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
결론
적합한 모델 선택은 특정 제약 조건에 따라 달라집니다. NAS 아키텍처를 연구 중이거나 RepGFPN 구조의 이점을 특히 누릴 수 있는 하드웨어를 보유한 경우, YOLO 강력한 후보입니다. YOLOv9 COCO와 같은 학술 벤치마크에서 가능한 최고 정확도를 요구하는 시나리오에 탁월한 선택입니다. COCO과 같은 학술 벤치마크에서 가능한 최고 정확도를 요구하는 시나리오에 탁월한 선택입니다.
그러나 개발자와 기업이 즉시 생산 환경에 적용 가능한 솔루션을 찾는다면, Ultralytics 가장 매력적인 패키지를 제공합니다. NMS 설계, CPU , 그리고 Ultralytics 과의 통합은 과의 통합은 시장 출시 시간을 크게 단축시킵니다. 기존 모델의 이론적 강점과 MuSGD 최적화기와 같은 실용적 혁신을 결합함으로써, YOLO26은 단순한 모델이 아닌 완벽하고 미래에도 대비된 비전 솔루션을 제공합니다.