YOLOv7 YOLOv6.0: 객체 탐지에서 혁신과 속도의 균형
실시간 객체 탐지 분야의 급속한 발전 속에서 성능과 효율성을 최적화하기 위해서는 올바른 아키텍처 선택이 매우 중요합니다. 본 상세 비교에서는 YOLOv7 와 YOLOv6.YOLOv6, 이 분야에 중대한 영향을 미친 두 핵심 모델을 비교 분석합니다. 우리는 이들의 아키텍처 혁신, 벤치마크 지표, 그리고 다양한 컴퓨터 비전 작업에 대한 적합성을 분석합니다. 또한, 이러한 기반 위에 구축되어 우수한 성능과 사용성을 제공하는 차세대 모델인 YOLOv26을 소개합니다.
모델 개요
7
YOLOv7 YOLOv7은 속도와 정확도 모두에서 기존 최첨단 탐지기를 능가하도록 설계되었습니다. 추론 비용을 증가시키지 않으면서도 훈련을 최적화하는 훈련 가능한 "bag-of-freebies"를 도입합니다.
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 조직:정보 과학 연구소, 아카데미아 시니카
- 날짜: 2022년 7월 6일
- Arxiv:YOLOv7: 훈련 가능한 프리비즈 백(bag-of-freebies)이 실시간 객체 탐지기의 새로운 최고 성능을 달성하다
- GitHub:WongKinYiu/yolov7
YOLOv6-3.0
YOLOv6.YOLOv6 (일명 YOLOv6 .0)은 산업적 적용에 중점을 두고 GPU 하드웨어 처리량 최적화에 주력합니다. 이는 이전 YOLOv6 크게 개선한 "reloading" 업데이트의 일부입니다.
- 작성자: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, Xiangxiang Chu
- 조직:조직: 메이투안
- 날짜: 2023년 1월 13일
- Arxiv:YOLOv6 v3.0: 전체 규모 재로딩
- GitHub:meituan/YOLOv6
기술적 비교
두 모델 모두 실시간 성능을 목표로 하지만 서로 다른 아키텍처 철학을 통해 이를 달성합니다.
아키텍처
YOLOv7 확장 효율적 레이어 집계 네트워크(E-ELAN)를 활용합니다. 이 아키텍처는 가장 짧고 긴 기울기 경로를 제어하여 기울기 흐름을 파괴하지 않으면서 네트워크가 더 다양한 특징을 학습할 수 있게 합니다. 또한 깊이나 너비만 확장하는 것이 아니라 레이어를 연결하는 모델 확장 방식을 채택하여 확장 과정에서 최적의 구조를 유지합니다.
YOLOv6.YOLOv6 목 부분에 양방향 연결(BiC) 모듈을 채택하고 순수한 앵커 프리 설계를 적용합니다. 하드웨어 친화적 구조에 중점을 두어 GPU의 메모리 접근 비용을 최적화합니다. 버전 3.0 업데이트에서는 특히 탐지 헤드와 레이블 할당 전략을 새롭게 개선하여 수렴 속도와 최종 정확도를 향상시켰습니다.
성능 지표
다음 표는 COCO 주요 성능 지표를 비교합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
강점과 약점
YOLOv7의 강점:
- 기능 풍부성: E-ELAN 구조는 미세한 세부 사항을 포착하는 데 탁월하여 소형 객체 탐지에 유리합니다.
- 보조 헤드: "거친 단계에서 세밀한 단계로" 진행되는 리드 기반 라벨 할당 방식을 사용하여 훈련 과정 중 더 강력한 감독 기능을 제공합니다.
YOLOv7의 약점:
- 복잡성: 특정 임베디드 하드웨어에 맞게 수정하거나 간소화하기 어려운 구조일 수 있습니다.
- NMS : 표준 비최대 억제(Non-Maximum Suppression) 후처리가 필요하며, 이는 지연 시간 변동을 유발합니다.
YOLOv6.0 장점:
- 처리량: TensorRT 사용하여 Tesla T4 및 유사 GPU에서 고처리량 시나리오에 특화하여 최적화되었습니다.
- 양자화: 양자화 인식 훈련(QAT)을 염두에 두고 설계되어, 엣지 디바이스에서 INT8로 더 쉽게 배포할 수 있습니다.
YOLOv6.0의 약점:
- CPU : GPU에서는 탁월하지만, 최신 '라이트' 또는 모바일 전용 변종에 비해 순수 CPU 에서는 아키텍처 선택이 덜 최적화되어 있습니다.
실제 응용 분야
이러한 모델들 사이에서 선택하는 것은 주로 배포 하드웨어와 특정 사용 사례에 따라 달라집니다.
YOLOv6.0을 활용한 산업용 검사
고속 생산 라인에서는 처리량이 가장 중요합니다. YOLOv6.YOLOv6 컨베이어 벨트 위의 결함 감지에 자주 선호되는 선택입니다. TensorRT 호환성 TensorRT 엣지 GPU에서 초당 수백 프레임을 처리할 TensorRT 불량 제품이 빠져나가는 일이 없도록 보장합니다.
YOLOv7 활용한 복합 감시
혼잡한 장면이나 장거리 감시가 필요한 보안 애플리케이션의 경우, YOLOv7 은 매우 효과적입니다. 특징 세부사항을 유지하는 능력 덕분에 도로 손상 식별이나 교통 흐름 모니터링과 같이 물체가 작거나 부분적으로 가려질 수 있는 도시 유지 관리에 적합합니다.
배포 유연성
두 모델 모두 강력하지만, 배포 방식은 크게 다를 수 있습니다. YOLOv6 공격적인 양자화(INT8)를 활용할 수 있는 환경에 YOLOv6 반면, YOLOv7 FP16 모드에서도 높은 정확도를 유지하는 YOLOv7 .
Ultralytics 이점
YOLOv7 YOLOv6 견고한 YOLOv6 , Ultralytics 내에서 이를 활용하면 개발자와 연구자에게 뚜렷한 이점을 제공합니다. Ultralytics Python 이러한 서로 다른 모델들을 단일화된 간소화된 API 아래 통합합니다.
- 사용 편의성: 단 한 줄의 코드로 YOLOv7 훈련과 최신 아키텍처 훈련 간 전환이 가능합니다.
- 잘 관리된 생태계: Ultralytics 최신 버전과의 호환성을 보장하기 위해 자주 업데이트를 Ultralytics . PyTorch 버전 및 CUDA 호환성을 보장합니다.
- 다용도성: 표준 탐지를 넘어, 생태계는 호환 가능한 모델 계열 전반에 걸쳐 자세 추정 및 인스턴스 분할을 지원합니다.
- 훈련 효율성: Ultralytics 파이프라인은 메모리 효율성을 위해 최적화되어 있어, 소비자용 하드웨어에서 원본 연구 저장소보다 더 큰 배치 크기를 허용하는 경우가 많습니다.
코드 예제
Ultralytics 사용하면 이 모델들을 얼마나 쉽게 실험해볼 수 있는지 보여드리겠습니다:
from ultralytics import YOLO
# Load a YOLOv7 model (or swap to 'yolov6n.pt')
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
미래: YOLO26
YOLOv7 YOLOv6. YOLOv6 여전히 유능하지만, 해당 분야는 발전해 왔습니다. 2026년 1월에 출시된 YOLO26은 효율성과 성능의 새로운 기준을 제시하며, 이전 모델들의 한계를 해결합니다.
YOLO26은 에지 및 클라우드 배포 모두를 위한 궁극적인 솔루션으로 설계되었으며, 다음과 같은 특징을 갖추고 있습니다:
- 엔드투엔드 NMS 설계: YOLOv7 달리 YOLO26은 본질적으로 엔드투엔드 구조입니다. 이는 NMS 과정이 필요 없게 하여, 실시간 로봇 공학에 필수적인 더 빠르고 결정론적인 추론 지연 시간을 실현합니다.
- MuSGD 최적화기: 대규모 언어 모델(LLM) 훈련 분야의 혁신(예: Moonshot AI의 Kimi K2)에서 영감을 받아 개발된 이 하이브리드 최적화기는 SGD Muon) SGD 결합하여 훈련 과정을 안정화하고 수렴 속도를 가속화합니다.
- 최대 43% 빠른 CPU 속도: 분포 초점 손실(DFL)을 제거하고 아키텍처를 최적화함으로써 YOLO26은 CPU에서 현저히 빠른 속도를 달성하여 라즈베리 파이와 같은 에지 디바이스에 탁월한 성능을 제공합니다.
- ProgLoss + STAL: 고급 손실 함수는 기존 모델들이 종종 어려움을 겪었던 핵심 영역인 소형 객체 인식 성능을 향상시킵니다.
속도, 정확도, 배포 용이성의 최적 균형을 추구하는 개발자에게는 YOLO26로의 전환을 적극 권장합니다.
살펴볼 다른 모델
Ultralytics 내 다른 아키텍처를 탐색하고 싶다면 다음을 고려해 보세요:
- YOLO11: 이전 세대의 최첨단 기술로, 기능 간의 강력한 균형을 제공합니다.
- YOLOv10: YOLO 에서 NMS 학습이 가능한 전략의 선구자.
- RT-DETR: 정확도 면에서 탁월하지만 더 많은 GPU 필요한 트랜스포머 기반 탐지기.
Ultralytics 활용하면 특정 데이터셋을 기준으로 이러한 모델들을 손쉽게 벤치마킹하여 애플리케이션에 가장 적합한 모델을 찾을 수 있습니다.