콘텐츠로 건너뛰기

YOLOv9 YOLO: 종합적인 기술 비교

빠르게 진화하는 컴퓨터 비전 환경에서 최적의 물체 감지 아키텍처를 선택하는 것은 프로젝트 성공의 핵심입니다. 이 분석에서는 두 가지 강력한 모델 간의 상세한 기술 비교를 제공합니다: YOLOv9과 고속 추론을 위해 설계된 알리바바 그룹의 모델인 YOLO 자세히 비교합니다. 각 모델의 고유한 아키텍처, 성능 메트릭, 이상적인 배포 시나리오를 살펴보고 개발자와 연구자가 정보에 입각한 결정을 내릴 수 있도록 안내합니다.

YOLOv9: 뛰어난 정확도를 위한 프로그래밍 가능한 그라데이션 정보

YOLOv9 심층 신경망에 내재된 정보 병목 문제를 해결하는 데 초점을 맞춘YOLO(You Only Look Once) 시리즈의 중요한 진화를 의미합니다. 중요한 입력 데이터가 네트워크 레이어 전체에 걸쳐 보존되도록 함으로써 YOLOv9 최첨단 정확도를 달성합니다.

저자: 저자: 왕치엔야오, 홍위안 마크 리아오
조직:대만 학술원 정보과학연구소
날짜: 2024-02-21
Arxiv:2402.13616
깃허브:WongKinYiu/yolov9
문서:Ultralytics YOLOv9 문서

아키텍처 및 핵심 혁신

YOLOv9 아키텍처는 딥러닝 효율성을 최적화하기 위해 설계된 두 가지 획기적인 개념을 기반으로 합니다:

  1. 프로그래밍 가능한 그라데이션 정보(PGI): PGI는 데이터가 심층 계층을 통해 전파될 때 발생하는 정보 손실 문제를 해결하는 보조 감독 프레임워크입니다. 손실 함수가 신뢰할 수 있는 그라데이션을 수신하도록 보장하여 모델이 추론 비용을 추가하지 않고도 더 효과적인 기능을 학습할 수 있도록 합니다.
  2. 일반화된 효율적인 계층 집계 네트워크(GELAN): 이 새로운 아키텍처는 CSPNet과 ELAN의 강점을 결합한 것입니다. GELAN은 매개변수 활용도와 계산 효율성을 극대화하도록 설계되어 다양한 계산 블록을 지원하는 가볍지만 강력한 백본을 제공합니다.

강점 및 에코시스템

  • 최고 수준의 정확도: YOLOv9 , 탁월한 정확도 달성 mAP 점수를 달성하여 실시간 객체 감지기의 벤치마크를 설정했습니다.
  • 매개변수 효율성: GELAN 덕분에 이 모델은 이전 모델에 비해 더 적은 수의 파라미터로 높은 성능을 제공합니다.
  • Ultralytics 통합: Ultralytics 에코시스템의 일원이 되면 YOLOv9 통합 Python API, 원활한 모델 내보내기 옵션ONNX, TensorRT, CoreML), 강력한 설명서의 이점을 누릴 수 있습니다.
  • 훈련 안정성: PGI 프레임워크는 모델 훈련 중 수렴 속도와 안정성을 크게 향상시킵니다.

약점

  • 리소스 집약도: 정확도 등급에 비해 효율적이지만, 가장 큰 변형(예: YOLOv9)은 상당한 양의 GPU 메모리가 많이 필요합니다.
  • 작업 초점: 핵심 연구는 주로 객체 감지를 대상으로 하지만, 다음과 같은 다른 Ultralytics 모델은 YOLO11 과 같은 다른 울트라태틱스 모델은 기본적으로 포즈 추정 및 OBB를 포함한 더 광범위한 작업을 지원합니다.

YOLOv9 대해 자세히 알아보기

YOLO: 속도를 위한 신경 구조 검색

YOLO 자동화된 아키텍처 설계의 힘을 입증하는 사례입니다. 알리바바에서 개발한 이 솔루션은 신경망 아키텍처 검색(NAS)을 활용하여 추론 지연 시간과 탐지 성능 간의 최적의 균형을 찾으며, 특히 산업 애플리케이션을 타깃으로 합니다.

저자 저자: Xianzhe Xu, 이치 장, 웨이화 첸, 일룬 황, 위안 장, 시우위 선
조직:알리바바 그룹
날짜: 2022-11-23
Arxiv:2211.15444
GitHub:YOLO

아키텍처 및 주요 기능

YOLO 처리량 극대화를 위한 몇 가지 기술 발전을 통해 차별화됩니다:

  • MAE-NAS 백본: 방법 인식 효율적인 신경 아키텍처 검색에서 파생된 백본 구조를 활용하여 특정 하드웨어 제약 조건에 맞게 네트워크 토폴로지를 최적화합니다.
  • 효율적인 RepGFPN: 이 모델은 목에 재파라미터화된 일반화된 특징 피라미드 네트워크를 사용하여 짧은 지연 시간을 유지하면서 특징 융합을 향상시킵니다.
  • 제로헤드: 일반적으로 최종 예측 레이어와 관련된 계산 오버헤드를 줄여주는 경량 감지 헤드 디자인입니다.
  • AlignedOTA: 훈련 중 분류와 회귀 작업 간의 정렬 불일치를 해결하는 개선된 라벨 할당 전략입니다.

강점

  • 짧은 지연 시간: YOLO 속도를 위해 설계되었기 때문에 엣지 디바이스 및 GPU에서 실시간 추론에 매우 효과적입니다.
  • 자동화된 설계: NAS를 사용하면 수동 휴리스틱에만 의존하지 않고 아키텍처를 수학적으로 조정하여 효율성을 높일 수 있습니다.
  • 앵커 프리: 앵커 프리 접근 방식을 채택하여 앵커 박스와 관련된 하이퍼파라미터 튜닝 프로세스를 간소화합니다.

약점

  • 제한된 에코시스템: Ultralytics 모델에서 사용할 수 있는 광범위한 도구에 비해, YOLO 커뮤니티가 더 작고 MLOps를 위한 기성 통합 도구가 더 적습니다.
  • 다목적성: 주로 탐지에 특화되어 있으며, 보다 포괄적인 프레임워크에서 볼 수 있는 기본 멀티태스크 기능(세분화, 분류)이 부족합니다.

DAMO-YOLO에 대해 자세히 알아보세요.

성능 분석: 속도 vs. 정확도

성능 메트릭을 비교하면 두 아키텍처 간의 장단점이 명확하게 드러납니다. YOLOv9 정보 보존을 우선시하여 정확도가 뛰어나며, 비슷한 모델 크기에서 mAP 점수에서 YOLO 능가하는 경우가 많습니다. 반대로 YOLO 원시 처리량에 중점을 둡니다.

그러나 YOLOv9 GELAN 아키텍처의 효율성은 더 나은 감지 품질을 제공하면서 속도 경쟁력을 유지할 수 있게 해줍니다. 예를 들어, YOLOv9 더 적은 매개변수(25.3M 대 42.1M)를 사용하면서도 YOLO (50.8%)에 비해 훨씬 더 높은 mAP (53.0%)를 달성합니다. 이는 모델 복잡성 측면에서 '더 적은 비용으로 더 많은 것'을 제공하는 YOLOv9 능력을 강조합니다.

성능 해석

모델을 평가할 때는 매개변수 수와 함께 부동 소수점 연산( FLOPs )을 고려하세요. 일반적으로 FLOPs 수가 적을수록 모바일 또는 엣지 AI 하드웨어에서 계산이 더 가볍고 잠재적으로 더 빠른 모델을 의미합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

이상적인 사용 사례

아키텍처의 차이에 따라 각 모델에 이상적인 배포 시나리오가 결정됩니다.

YOLOv9 애플리케이션

YOLOv9 정밀도가 중요한 애플리케이션에서 선호되는 선택입니다.

  • 의료 영상: 의료 영상 분석에서 미묘한 이상 징후를 감지하지 못하면 치명적일 수 있는 상황을 감지합니다.
  • 자율 주행 내비게이션: 물체 감지에 대한 높은 신뢰도가 요구되는 자율 주행 차량용 고급 인식 시스템입니다.
  • 세부적인 감시: 작은 물체를 식별해야 하거나 복잡한 복잡한 환경에서 작동해야 하는 보안 시스템.

YOLO 애플리케이션

YOLO 엄격한 지연 시간 예산의 제약을 받는 환경에서 탁월한 성능을 발휘합니다.

  • 고속 제조: 컴퓨터 비전 시스템이 고속 컨베이어 벨트와 보조를 맞춰야 하는 산업 라인.
  • 비디오 분석: 처리량 비용이 주요 관심사인 대량의 비디오 스트림을 처리합니다.

Ultralytics 이점

두 모델 모두 기술적으로 인상적이지만, Ultralytics 에코시스템내의 모델(예: YOLOv9 또는 최첨단 YOLO11-와 같은 모델을 선택하면 개발자와 기업에게 뚜렷한 이점을 제공합니다.

원활한 워크플로 및 사용성

Ultralytics 사용 편의성을 우선시합니다. 복잡한 상용구 코드를 추상화한 통합 인터페이스를 통해 모델에 액세스할 수 있습니다. 사용자 지정 데이터를 학습하든 추론을 실행하든, 프로세스는 일관되고 직관적입니다.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

잘 관리된 에코시스템

Ultralytics 모델은 활발한 커뮤니티와 빈번한 업데이트를 통해 지원됩니다. 다음과 같은 기능 Ultralytics 허브 와 같은 기능을 통해 웹 기반 데이터 세트 관리 및 교육이 가능하며, TensorBoardMLflow와 같은 도구와의 광범위한 통합으로 MLOps 라이프사이클을 간소화할 수 있습니다. 반면, YOLO 같은 연구 모델에는 이러한 수준의 지속적인 지원과 도구 통합이 부족한 경우가 많습니다.

다목적성 및 효율성

Ultralytics 모델은 다용도로 사용할 수 있도록 설계되었습니다. YOLO 감지에 특화되어 있는 반면, YOLO11 같은 Ultralytics 모델은 인스턴스 분할, 포즈 추정, 방향성 경계 상자(OBB) 감지까지 기능을 확장할 수 있습니다. 또한 메모리 효율성에 최적화되어 있어 다른 아키텍처에 비해 훈련 중에 필요한 CUDA 메모리가 적어 하드웨어 비용을 절감할 수 있습니다.

결론

YOLOv9 YOLO 비교해보면 두 모델 모두 AI의 빠른 발전을 확인할 수 있습니다. YOLO 순수한 속도 최적화를 위한 강력한 아키텍처를 제공합니다. 하지만 YOLOv9 은 대부분의 실용적인 애플리케이션을 위한 보다 강력한 솔루션으로 돋보입니다. 이 솔루션은 파라미터당 뛰어난 정확도를 제공하고, 고급 아키텍처를 활용하여 정보 손실을 방지하며, 번성하는 Ultralytics 에코시스템에 속해 있습니다. 성능, 사용 편의성, 장기적인 지원 간의 최상의 균형을 원하는 개발자에게는 여전히 Ultralytics 모델을 권장합니다.

다른 모델 살펴보기

문서에서 다른 최신 모델과 비교해 보세요:


댓글