콘텐츠로 건너뛰기

YOLOv9 YOLO: 객체 탐지 모델의 기술적 비교

컴퓨터 비전의 급속한 발전은 다양한 배포 제약 조건과 정확도 요구 사항에 맞춰 설계된 강력한 아키텍처들을 다수 탄생시켰습니다. 이 분야에서 주목할 만한 두 가지 사례는 YOLOv9로, 정보 병목 현상을 견고하게 처리하는 것으로 유명하며, YOLO 신경망 구조 탐색(NAS)과 효율적인 피라미드 구조에 중점을 둔다.

이 가이드는YOLO 심층적인 기술적 비교를 제공하며, 두 모델의 아키텍처 차이점, 훈련 방법론, 그리고 이상적인 배포 시나리오를 강조합니다. 또한 Ultralytics 개발부터 생산 환경까지 원활한 전환 경로를 제공하는 방식과, YOLO26과 같은 최신 모델이 신규 프로젝트의 권장 표준이 된 이유를 살펴보겠습니다.

심층적인 아키텍처 분석

각 모델을 주도하는 핵심 메커니즘을 이해하면 다양한 지표에서 서로 다른 성능을 보이는 이유를 알 수 있다.

YOLOv9: 프로그래밍 가능한 그래디언트 정보

YOLOv9 데이터가 심층 신경망을 통과할 때 발생하는 정보 손실을 직접 해결하기 위해 YOLOv9 .

저자: 왕천야오(Chien-Yao Wang), 마크 리아오홍위안(Hong-Yuan Mark Liao)
소속 기관: 대만 중앙연구원 정보과학연구원(Institute of Information Science, Academia Sinica, Taiwan)
날짜: 2024년 2월 21일
링크:Arxiv, GitHub, Docs

9에 대해 자세히 알아보기

YOLOv9 프로그래머블 그라디언트 정보(PGI)일반화된 효율적 레이어 집계 네트워크(GELAN)를 YOLOv9 . PGI는 전방 전달 과정에서 중요한 공간적·의미적 정보가 유지되도록 하여 가중치 업데이트에 사용되는 그라디언트의 저하를 방지합니다. GELAN은 매개변수 효율성을 극대화하여 이를 보완함으로써, 기존 CNN보다 적은 연산량(FLOPs)으로 최첨단 평균 정밀도(mAP)를 달성할 수 있게 합니다.

YOLO: NAS 중심 효율성

알리바바 그룹이 개발한YOLO 자동화된 아키텍처 탐색 기술을 활용해 속도와 정확성 사이의 최적 균형을 찾는 차별화된 접근 방식을YOLO .

저자: 쉬셴저(Xianzhe Xu), 장이치(Yiqi Jiang), 천웨이화(Weihua Chen), 황이룬(Yilun Huang), 장위안(Yuan Zhang), 쑨시위(Xiuyu Sun)
소속: 알리바바 그룹
날짜: 2022년 11월 23일
링크:Arxiv, GitHub

DAMO-YOLO에 대해 자세히 알아보세요.

YOLO 효율적인 네트워크 구조를 자동 생성하기 위해 MAE-NAS(신경망 구조 탐색용 가면 자동 인코더) 백본을 기반으로YOLO . 견고한 특징 융합을 위해 RepGFPN(재매개변수화 일반화 특징 피라미드 네트워크)을 활용하고, 탐지 헤드의 계산 부담을 최소화하기 위해 "ZeroHead" 설계를 적용합니다. 또한 라벨 할당을 위한 AlignedOTA와 소형 변종 성능 향상을 위한 지식 증류 기술을 통합합니다.

컴퓨터 비전에서 NAS의 역할

신경망 구조 탐색(NAS)은 인공 신경망 설계를 자동화합니다.YOLO 같은 고효율 모델을 생성할 수 있지만, 구조 공간 탐색에 막대한 계산 자원이 필요한 경우가 많습니다. 이는 YOLOv9 같은 모델의 보다 결정론적인 설계 철학과 대조를 이룹니다.

성능 및 지표 비교

객체 탐지 모델을 선택할 때 정확도, 속도, 그리고 계산 자원의 균형을 맞추는 것이 매우 중요하다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

분석

  • 정확도 대 매개변수: YOLOv9 우수한 매개변수 대 정확도 비율을 보여줍니다. 예를 들어, YOLOv9c는 2530만 mAP 53.0%의 mAP 달성하는 반면, DAMO-YOLO1은 50.8%의 mAP 훨씬 더 많은 매개변수(4210만 개)가 필요합니다.
  • 추론 속도:YOLO 아키텍처는 T4 GPU에서 경쟁력 있는 TensorRT 속도를 제공하며, 중간 YOLOv9 약간 앞섭니다. 그러나 YOLOv9 FLOPs 및 매개변수 수 효율성은 탁월한 GPU 효율성으로 이어집니다.
  • 메모리 요구 사항: YOLOv9 포함한 Ultralytics YOLO 일반적으로 복잡한 NAS 생성 모델이나 무거운 트랜스포머 아키텍처에 비해 훈련 및 추론 시 모두 메모리 사용량이 낮아, 제한된 에지 하드웨어에 배포하기에 매우 적합합니다.

Ultralytics 에코시스템의 이점

이론적 지표도 중요하지만, 실제 구현이 프로젝트 성공을 좌우합니다. 바로 이 점에서 Ultralytics 그 포괄적인 소프트웨어 생태계가YOLO 같은 독립형 저장소를 압도합니다.

사용 편의성 및 교육 효율성 향상

사용자 지정 YOLOv9 훈련에는 최소한의 보일러플레이트만 필요합니다. Ultralytics Python 데이터 증강, 분산 훈련, 하드웨어 최적화와 같은 복잡한 프로세스를 추상화합니다.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

반대로,YOLO 활용하려면YOLO 그 고유한 훈련 파이프라인에 특화된 경직된 구성 파일과 복잡한 종속성 체인을 다루어야 하므로, 학습 곡선이 가파르게 됩니다.

작업 전반에 걸친 다양한 활용성

Ultralytics 특징은 본질적인 다용도성입니다. 표준 바운딩 박스 탐지 외에도 Ultralytics 인스턴스 세그멘테이션, 자세 추정, 이미지 분류, 방향성 바운딩 박스(OBB) 탐지 등의 작업을 원활하게 지원합니다.YOLO 2D 객체 탐지에 엄격히YOLO 다른 시각적 패러다임에 적용하려면 상당한 재설계가 필요합니다.

에지 디바이스로 내보내기

Ultralytics TensorRT와 같은 형식으로의 원클릭 모델 내보내기를 제공함으로써 배포 파이프라인을 Ultralytics . TensorRT, OpenVINO, CoreML 등의 형식으로 모델을 원클릭으로 내보낼 수 있도록 하여 대상 하드웨어에 관계없이 최대 성능을 보장합니다.

사용 사례 및 권장 사항

YOLOv9 YOLO 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라YOLO .

9 선택해야 할 때

YOLOv9 다음과 같은 경우에 강력한 YOLOv9 :

  • 정보 병목 연구: 프로그래머블 그라디언트 정보(PGI) 및 일반화된 효율적 레이어 집계 네트워크(GELAN) 아키텍처를 연구하는 학술 프로젝트.
  • 경사 흐름 최적화 연구: 훈련 과정에서 심층 신경망 레이어에서 발생하는 정보 손실을 이해하고 완화하는 데 초점을 맞춘 연구.
  • 고정밀도 탐지 벤치마킹: YOLOv9 강력한 COCO 성능이 아키텍처 비교를 위한 기준점으로 필요한 시나리오들.

YOLO 선택해야 할 때

YOLO 다음에 권장YOLO :

  • 고처리량 비디오 분석: 고정된 NVIDIA GPU 높은 FPS의 비디오 스트림을 처리하며, 배치 1 처리량이 주요 지표입니다.
  • 산업용 제조 라인: 전용 하드웨어에서 엄격한 GPU 제약이 적용되는 시나리오, 예를 들어 조립 라인에서의 실시간 품질 검사.
  • 신경망 구조 탐색 연구: 자동화된 구조 탐색(MAE-NAS)과 효율적인 재매개변수화 백본이 탐지 성능에 미치는 영향 연구.

Ultralytics YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:

  • NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
  • 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.

미래: YOLO26으로의 전환

YOLOv9 YOLO 강력한 역사적YOLO , 현대 컴퓨터 비전은 본질적으로 엔드투엔드 아키텍처로 전환되었습니다. 새로운 개발에 있어서는, YOLO26 가 권장되는 표준입니다.

2026년에 출시된 YOLO26은 전작들의 성공을 바탕으로 정확도와 배포 편의성 모두에서 획기적인 발전을 이루었습니다.

YOLO26의 주요 혁신점

  • 엔드투엔드 NMS 설계: YOLO26은 비최대 억제(NMS) 후처리 단계를 완전히 제거합니다. 이를 통해 원생적으로 엔드투엔드인 간소화된 배포 파이프라인을 구축하며, 이는 최초의 획기적인 돌파구로 YOLOv10에서 최초로 선보인 획기적인 성과입니다.
  • DFL 제거: 단순화된 내보내기와 향상된 에지/저전력 장치 호환성을 위해 분포 초점 손실(DFL)을 제거했습니다.
  • 최대 43% 빠른 CPU : 복잡한 후처리 제거 및 핵심 컨볼루션 최적화를 통해 YOLO26은 전용 GPU가 없는 엣지 컴퓨팅 환경에 특히 적합합니다.
  • MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 혁신에서 영감을 받아, YOLO26은 SGD 뮤온(MuSGD)의 하이브리드 방식을 활용하여 보다 안정적인 훈련 실행과 현저히 빠른 수렴 시간을 보장합니다.
  • ProgLoss + STAL: 이 고급 손실 함수는 소형 물체 인식에서 탁월한 성능 향상을 제공하여 YOLO26을 고고도 항공 영상 및 IoT 기기에 이상적인 솔루션으로 만듭니다.

현재 조사 중이라면 YOLO11 또는 YOLOv8 을 연구 중이라면, YOLO26으로 업그레이드함으로써 현재 이용 가능한 가장 최적화되고 최첨단 비전 AI 프레임워크를 활용할 수 있습니다.

요약

적합한 모델 선택은 특정 운영 제약 조건에 따라 달라집니다:

  • YOLO NAS 기반 최적화에 대한 흥미로운 통찰을 제공하며, RepGFPN 아키텍처가 빛을 발하는 매우 특정한 하드웨어 프로파일에서 경쟁력 있는 속도를 구현합니다.
  • YOLOv9 은 미세한 시각적 세부 사항을 보존하는 데 주력하는 연구자들에게 탁월한 선택이며, PGI 아키텍처를 활용하여 딥 네트워크에서의 정보 손실을 방지합니다.
  • Ultralytics 현대 기업 및 연구 애플리케이션을 위한 결정적인 선택입니다. 비교할 수 없는 사용 편의성, NMS 아키텍처, 그리고 최첨단 MuSGD(Multi-Scale Gradient Descent) 훈련 최적화를 통해 컴퓨터 비전 분야에서 가장 신뢰할 수 있고 정확하며 쉽게 배포 가능한 모델로 자리매김했습니다.

댓글