YOLO YOLOv7: 실시간 객체 탐지에 대한 심층 분석

2022년은 컴퓨터 비전 발전의 중대한 전환점이 되었으며, 두 가지 매우 영향력 있는 아키텍처인 YOLO YOLOv7가 등장했습니다. 두 모델 모두 속도와 정확도 간의 상충 관계의 경계를 재정의하고자 했으나, 근본적으로 다른 공학적 철학으로 이 과제에 접근했습니다.

알리바바 그룹이 개발한YOLO 신경망 구조 탐색(NAS)과 중대한 재매개변수화를 활용하여 하드웨어에서 최대 처리량을 끌어낸다. 반면 YOLOv4의 저자들이 만든 YOLOv7 최첨단 정확도를 달성하기 위해 기울기 전파 경로와 "무료 요소 모음" 훈련 전략 최적화에 주력한다.

이 가이드는 두 모델의 아키텍처, 성능 지표, 현대 컴퓨터 비전 애플리케이션에 대한 적합성을 분석하여 엄격한 기술적 비교를 제공합니다. 또한 기존 접근법의 장점을 통합하여 사용자 친화적인 통합 프레임워크로 구현한 Ultralytics 등장으로 어떻게 환경이 변화했는지 살펴볼 것입니다.

성능 지표 및 벤치마크

이러한 아키텍처 간의 실질적 차이를 이해하려면 COCO 같은 표준 벤치마크에서의 성능을 살펴보는 것이 필수적입니다. 아래 표는 평균 정밀도(mAP), 추론 속도(지연 시간), 계산 복잡도를 기준으로 모델들을 비교합니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

데이터가 보여주듯이, YOLOv7 일반적으로 순수 정확도에서 우위를 점하며, YOLOv7 변종은 놀라운 53.1% mAP 달성합니다. 이는 의료 영상 분석이나 법의학 문서 검토처럼 정확도가 절대적으로 요구되는 시나리오에서 강력한 후보가 됩니다. 그러나 YOLO 효율성 측면에서 두각을 나타내며, 특히 "Tiny" 변종은 TensorRT 하드웨어에서 극히 낮은 지연 시간(2.32 밀리초)을 제공하여 고속 산업용 분류 작업에 적합합니다.

아키텍처 혁신

이 두 모델의 핵심적인 차이는 그들의 아키텍처가 어떻게 고안되었는지에 있다.

YOLO: NAS 접근법

YOLO 증류 강화 모델)은 신경망 구조 탐색(NAS)에 크게 의존합니다. 모든 블록을 수작업으로 설계하는 대신, 저자들은 MAE-NAS라는 방법을 활용하여 효율적인 백본 구조를 자동으로 발견했습니다.

RepGFPN: 효율적인 재매개변수화 일반화 피라미드 네트워크를 제안합니다. 이를 통해 우수한 다중 스케일 특징 융합이 가능해져 크고 작은 물체 모두를 효과적으로 탐지할 수 있습니다.
ZeroHead: 탐지 헤드의 계산 비용을 줄이기 위해YOLO "ZeroHead" 전략을YOLO 최종 레이어를 단순화함으로써 추론 과정에서 중요한 밀리초 단위의 시간을 절감합니다.
증류: 훈련 파이프라인의 핵심 부분은 대규모 교사 모델이 소규모 학생 모델을 지도하는 중대한 지식 증류를 포함하며, 이는 추론 비용을 추가하지 않고 정확도를 향상시킵니다.

YOLOv7: 기울기 경로 최적화

YOLOv7 "훈련 가능한 프리비즈 백(trainable bags-of-freebies)"에 중점을 YOLOv7 . 이는 추론 비용을 증가시키지 않으면서 훈련 중 정확도를 향상시키는 최적화 기법입니다.

E-ELAN: 확장 효율적 레이어 집계 네트워크( YOLOv7)는 YOLOv7 핵심 구조입니다. 이 구조는 가장 짧고 긴 기울기 경로를 제어함으로써 네트워크가 더 많은 특징을 학습할 수 있도록 하여 효율적인 수렴을 보장합니다.
모델 스케일링: 네트워크를 단순히 넓히거나 깊게 하는 기존 방식과 달리, YOLOv7 이러한 스케일링 속성을 YOLOv7 다양한 하드웨어 제약 조건에 최적의 균형을 유지합니다.
보조 헤드: 훈련 과정에서는 보조 헤드를 사용하여 심층 감독을 제공함으로써 중간 계층이 풍부한 특징을 학습하도록 돕습니다.

7에 대해 자세히 알아보기

현대적 대안: Ultralytics

YOLO YOLOv7 중요한 기술적 성과를 YOLOv7 , 해당 분야는 급속히 발전해 왔습니다. 2026년에 새로운 프로젝트를 시작하는 개발자들에게 Ultralytics 기존 모델들의 한계를 모두 해결하는 통합 솔루션을 제공합니다.

YOLO26은 단순한 점진적 업데이트가 아닌, 에지 우선 환경을 위해 설계된 패러다임 전환입니다. YOLOv7 높은 정확도와YOLO 효율성 목표를 YOLOv7 , 뛰어난 사용성과 현대적인 아키텍처 혁신을 제공합니다.

YOLO26의 주요 장점

엔드투엔드 NMS 설계: 중복 탐지 필터링을 위해 비최대 억제(NMS) 가 필요한 YOLOv7 달리, YOLO26은 본질적으로 엔드투엔드 구조를 갖습니다. 이는 NMS 인한 지연 시간 변동을 제거하여 실시간 로봇 공학에 필수적인 결정론적 추론 속도를 구현합니다.
MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 분야의 혁신(특히 Moonshot AI의 Kimi K2)에서 영감을 받아, YOLO26은 MuSGD 최적화기를 활용합니다. SGD 하이브리드인 이 최적화기는 컴퓨터 비전 훈련에 전례 없는 안정성을 제공하여, 모델이 더 적은 에포크로 더 빠르게 수렴할 수 있게 합니다.
에지 우선 효율성: YOLO26은 분포 초점 손실(DFL)을 제거함으로써 모델 그래프를 단순화하여 내보내기를 용이하게 합니다. 이로 인해 이전 세대에 비해 CPU 최대 43% 빨라져, GPU가 없는 라즈베리 파이(Raspberry Pi)나 휴대폰과 같은 장치에 최적의 선택이 됩니다.
ProgLoss + STAL: 프로그래머블 손실(ProgLoss)과 소프트 타겟 앵커 라벨링(STAL)의 통합은YOLO 같은 경량 모델의 전통적인 약점인 소형 객체 탐지에서 상당한 성능 향상을 제공합니다.

Ultralytics 간소화된 워크플로

연구 저장소에서 생산 환경으로의 마이그레이션은 분산된 코드베이스로 인해 종종 고통스럽습니다. Ultralytics 통합 인터페이스를 제공함으로써 이 문제를 해결합니다. YOLO26 모델을 훈련하고, track , 다음과 같은 형식으로 배포할 수 있습니다. ONNX 이나 CoreML 배포할 수 있습니다.YOLO 필요한 수동 내보내기 스크립트와 극명한 대조를 이룹니다.

YOLO26에 대해 더 알아보기

사용성 및 에코시스템

모델의 아키텍처는 이야기의 절반에 불과하다; 생태계가 그것을 얼마나 쉽게 구현할 수 있는지를 결정한다.

YOLO 주로 연구용 저장소입니다. 코드는 오픈소스이지만, 대규모 Python 쉽게 통합할 수 있는 표준화된 API가 부족합니다. 사용자는 종종 데이터 로더, 구성 파일 및 내보내기 스크립트를 수동으로 처리해야 합니다.

7 이를 개선된 문서화로 보완했지만, 여전히 보다 전통적인 스크립트 기반 워크플로에 의존하고 있습니다(train.py, detect.py)입니다.

Ultralytics 모델은 사용 편의성을 최우선으로 합니다. 이 라이브러리는 모델을 객체로 취급하는 파이썬식 API를 제공합니다. 이를 통해 기존 소프트웨어 스택에 원활하게 통합할 수 있습니다.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")

또한 Ultralytics 다용도로 유명합니다.YOLO 순수한 객체 탐지YOLO 반면, Ultralytics 이미지 분류, 인스턴스 분할, 자세 추정, 방향성 경계 상자(OBB) 탐지를 지원합니다. 이를 통해 단일 팀이 잘 관리된 단일 라이브러리로 다양한 컴퓨터 비전 작업을 처리할 수 있습니다.

훈련 효율성과 자원

현대적인 비전 모델 훈련은 자원이 많이 소모될 수 있습니다. YOLOv7 은 "bag-of-freebies" 기법으로 유명하며, 이는 모델이 매우 효과적으로 학습함을 의미하지만, 훈련 과정은 VRAM을 많이 소모할 수 있습니다. YOLO 증류(distillation)에 의존한다는 것은 훈련 중 교사 모델과 학생 모델, 즉 두 모델을 동시에 실행해야 함을 의미하며, 이는 메모리 오버헤드와 훈련 파이프라인의 복잡성을 증가시킵니다.

Ultralytics CUDA 사용량을 줄이기 위해 아키텍처를 최적화하여 메모리 요구 사항을 해결합니다. 이를 통해 개발자는 소비자용 GPU에서 더 큰 배치 크기를 사용할 수 있습니다. 또한 DFL과 같은 복잡한 구성 요소를 제거하고 MuSGD 최적화기를 도입함으로써 훈련이 안정적일 뿐만 아니라 계산 효율성도 보장됩니다.

결론

YOLO YOLOv7 모두 인공지능 분야에 획기적인 기여를 YOLOv7 . YOLOv7 수작업 최적화를 통해 정확도의 한계를 YOLOv7 ,YOLO 저지연 애플리케이션을 위한 자동화된 아키텍처 탐색의 힘을YOLO .

그러나 2026년에도 견고하고 미래에 대비한 솔루션을 찾는 개발자에게는 Ultralytics 확실한 추천입니다. YOLO 높은 정확도 유산을 NMS 탐지가 가능하고 LLM(대규모 언어 모델)에서 영감을 받은 최적화기 같은 현대적 혁신과 결합했습니다. Ultralytics 방대한 문서와 활발한 커뮤니티의 지원을 받는 YOLO26은 성능, 사용 편의성, 배포 유연성의 완벽한 균형을 제공합니다.

YOLO

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직:조직: 알리바바 그룹
날짜:23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

YOLOv7

저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
기관: 대만 중앙연구원 정보과학연구원
날짜:06
Arxiv:2207.02696
GitHub:https://github.com/WongKinYiu/yolov7