YOLOv7 YOLOv9: 현대 객체 탐지 기술에 대한 심층 분석

실시간 객체 탐지 기술은 급속도로 진화해 왔으며, 각 신규 버전마다 에지 디바이스와 클라우드 서버 모두에서 가능한 한계를 넓혀 왔습니다. 컴퓨터 비전 프로젝트 아키텍처를 평가할 때 개발자들은 기존 벤치마크와 최신 혁신 기술을 자주 비교합니다. 본 종합 가이드에서는 YOLO 두 가지 중추적 이정표를 비교합니다: YOLOv7 와 YOLOv9를 비교합니다.

우리는 그들의 아키텍처 혁신, 성능 지표, 이상적인 배포 시나리오를 분석하여 귀사의 애플리케이션에 적합한 모델을 선택하는 데 도움을 드릴 것입니다. 또한 Ultralytics 이러한 모델들을 통합하여 훈련, 검증, 배포를 더 쉽게 만드는 방법도 살펴보겠습니다.

모델 계보 및 기술 사양

이러한 모델들의 기원과 설계 철학을 이해하는 것은 그들의 성능을 이해하는 데 필수적인 맥락을 제공한다. 두 모델 모두 공통된 연구 계보를 공유하지만 서로 다른 아키텍처 병목 현상을 목표로 한다.

YOLOv7: 프리비즈 백의 선구자

2022년 중반에 출시된 YOLOv7 매우 신뢰할 수 있고 고도로 최적화된 아키텍처로 YOLOv7 . 이 모델은 구조적 재매개변수화와 "훈련 가능한 프리비즈 백(trainable bag-of-freebies)" 접근법을 도입하여 평균 정밀도(mAP)를 저하시키지 않으면서도 높은 추론 속도를 유지합니다.

저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
조직:기관: 대만 학술원 정보 과학 연구소
날짜: 2022년 7월 6일
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7

아키텍처 혁신: YOLOv7은 확장 효율 계층 집계 네트워크(E-ELAN)를 특징으로 하며, 이는 카디널리티를 확장, 셔플 및 병합하여 모델이 더 다양한 특징을 학습할 수 있도록 합니다. 이 설계는 뛰어난 GPU 활용률과 추론 지연 시간을 제공합니다. 그러나 최신 반복 모델에 비해 복잡한 훈련 실행 시 상당한 메모리가 필요할 수 있습니다.

7에 대해 자세히 알아보기

YOLOv9: 정보 병목 현상 해결

동일 연구팀이 2024년 초에 선보인 YOLOv9 딥 뉴럴 네트워크에 내재된 '정보 병목 현상'을 YOLOv9 . 데이터가 깊은 층을 통과할 때 중요한 세부 정보가 종종 손실되곤 합니다. YOLOv9 근본적으로 새로운 레이어 설계를 통해 이를 YOLOv9 .

저자: Chien-Yao Wang 및 Hong-Yuan Mark Liao
조직:기관: 대만 학술원 정보 과학 연구소
날짜: 2024년 2월 21일
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9

아키텍처 혁신: YOLOv9는 프로그래밍 가능한 그라디언트 정보(PGI)와 일반화된 효율 계층 집계 네트워크(GELAN)를 도입합니다. PGI는 신뢰할 수 있는 그라디언트가 보존되고 가중치를 정확하게 업데이트하는 데 사용되도록 보장합니다. GELAN은 파라미터 효율성을 극대화하여 YOLOv9가 이전 모델보다 훨씬 적은 FLOPs로 높은 정확도를 달성할 수 있도록 합니다.

9에 대해 자세히 알아보기

성능 분석

아키텍처 선택 시 AI 엔지니어는 정확도, 추론 속도, 계산 비용 간의 균형을 고려해야 합니다. 아래 표는 표준 COCO 이러한 모델들의 성능 차이를 보여줍니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

주요 내용

파라미터 효율성: YOLOv9m은 YOLOv7l의 정확도(51.4% mAP)와 일치하며, 거의 45% 더 적은 파라미터 (20.0M 대 36.9M)를 활용합니다. 이러한 대폭적인 감소는 YOLOv9m을 메모리 제약이 있는 엣지 AI 장치에 훨씬 쉽게 배포할 수 있도록 합니다.
마이크로 배포: YOLOv9t (tiny) 변형의 도입은 실시간 제약이 절대적인 환경에서 놀라운 속도(T4 TensorRT에서 2.3ms)를 제공합니다.
최대 정확도: 정확도가 가장 중요한 애플리케이션의 경우, YOLOv9e는 detect 정확도를 55.6% mAP까지 끌어올려 YOLOv7x를 크게 능가합니다.

컴퓨터 비전 프로젝트의 미래 대비

YOLOv7 YOLOv9 , 새롭게 출시된 YOLO26은 결정적인 도약을 보여줍니다. YOLO26은 NMS( NMS 모드 선택) 가 필요 없는 원생적인 엔드투엔드 설계를 도입하여 복잡한 후처리 과정을 없애고 CPU 속도를 최대 43%까지 향상시킵니다. 새로운 MuSGD 최적화기와 강화된 ProgLoss + STAL 손실 함수를 활용함으로써, YOLO26은 비교할 수 없는 훈련 안정성과 소형 객체 탐지 정확도를 제공합니다.

Ultralytics 이점

모델 아키텍처를 선택하는 것은 첫 단계에 불과합니다. 모델을 둘러싼 소프트웨어 생태계는 프로토타입에서 프로덕션으로 얼마나 빠르게 전환할 수 있는지를 결정합니다. Ultralytics Python API를 통해 이러한 모델을 통합하면 개발자와 연구자에게 상당한 이점을 제공합니다.

사용 편의성 및 교육 효율성 향상

역사적으로 YOLOv7 훈련에는 복잡한 데이터 준비와 고도로 맞춤화된 스크립트가 YOLOv7 . Ultralytics 이러한 딥러닝 복잡성을 추상화합니다. 개발자는 최소한의 코드로 아키텍처 간 전환, 하이퍼파라미터 튜닝 실험, 지능형 데이터 증강 파이프라인 활용을 손쉽게 수행할 수 있습니다.

또한 Ultralytics 훈련 및 추론 과정에서 메모리 사용량을 Ultralytics . 무거운 트랜스포머 모델 (예: RT-DETR)과 달리 Ultralytics YOLO 훨씬 빠르게 훈련되며 CUDA 요구량이 현저히 적어 소비자용 GPU에 이상적입니다.

코드 예시: 간소화된 학습

최첨단 모델 훈련은 Ultralytics 내에서 원활하게 수행됩니다. 다음은 YOLOv9 훈련하고 검증하는 방법을 보여주는 완전히 실행 가능한 예시입니다:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

다양한 작업에 걸친 탁월한 다용도성

잘 관리된 생태계는 다양한 컴퓨터 비전 작업에 대한 접근성을 의미합니다. YOLOv7은 주로 객체 detect를 위해 구축되었지만(나중에 다른 작업을 위한 실험적 포크가 있었음), 최신 Ultralytics 모델은 다재다능함을 위해 기본적으로 구축되었습니다. 즉시 인스턴스 segment, 자세 추정, 이미지 분류 및 Oriented Bounding Box (obb) detect를 원활하게 수행할 수 있습니다.

이상적인 사용 사례 및 애플리케이션

YOLOv7 YOLOv9 사이의 선택은 YOLOv9 특정 산업 제약 조건과 하드웨어 가용성에 따라 달라집니다.

YOLOv7 활용할 시기

레거시 엣지 배포: YOLOv7의 E-ELAN 아키텍처에 맞춰 이미 고도로 튜닝되고 최적화된 하드웨어 환경의 경우, 산업용 IoT를 위한 강력한 선택으로 남아 있습니다.
교통 모니터링: YOLOv7의 높은 프레임 속도와 입증된 안정성은 스마트 도시 인프라 및 실시간 교통 관리에 탁월합니다.
로봇 통합: 동적 환경을 탐색하려면 낮은 지연 시간 처리가 필요하며, 이는 YOLOv7 변형이 집중적으로 테스트된 시나리오입니다.

YOLOv9 활용할 시기

의료 영상: YOLOv9의 PGI 아키텍처는 심층 계층을 통해 미세한 세부 정보를 보존하는 데 탁월하며, 이는 종양 detect와 같은 복잡한 의료 영상 분석 작업을 분석할 때 매우 중요합니다.
밀집 소매 분석: 소매 진열대의 밀집된 품목을 추적하고 계산하는 데 있어, YOLOv9의 특징 통합은 우수한 정확도를 제공하고 오탐(false negatives)을 줄입니다.
항공 및 드론 이미지: YOLOv9m의 파라미터 효율성은 드론에서 고해상도 이미지 처리를 가능하게 하여, 배터리 수명을 소모하지 않고 야생 동물 보호 및 농업 모니터링에 도움을 줍니다.

결론

YOLOv7과 YOLOv9 모두 컴퓨터 비전 역사에 확고한 자리를 잡았습니다. YOLOv7은 실시간 처리를 위한 필수 최적화를 도입했으며, YOLOv9는 구조적 딥러닝 병목 현상을 해결하여 파라미터 효율성을 극대화했습니다.

그러나 오늘날 새로운 프로젝트를 시작하는 개발자들에게는 Ultralytics , 특히 YOLO11 와 YOLO26과같은 차세대 모델을 활용하는 것이 속도, 정확도, 개발자 경험 간의 최적의 균형을 제공합니다. MuSGD 최적화기 도입과 더 넓은 하드웨어 호환성을 위한 분포 초점 손실(DFL) 제거와 같은 혁신을 통해 Ultralytics 비전 AI 전문가들에게 가장 접근성이 뛰어나고 강력한 도구를 Ultralytics 제공하고 Ultralytics .