YOLO YOLOv7: 실시간 객체 탐지기 평가
컴퓨터 비전의 급속한 발전은 정밀도와 계산 비용의 균형을 맞추도록 설계된 고효율 객체 탐지 모델을 탄생시켰다. 2022년에 소개된 두 가지 주목할 만한 모델은 YOLO YOLOv7입니다. 두 모델 모두 실시간 비전 작업의 한계를 뛰어넘는 것을 목표로 하지만, 이를 달성하는 데에는 완전히 다른 아키텍처 패러다임과 훈련 방법론을 사용합니다.
이 포괄적인 기술 비교는 두 모델의 차별화된 접근 방식을 탐구하며, 아키텍처, 배포 가능성 및 성능 지표를 분석하여 머신러닝 엔지니어가 특정 컴퓨터 비전 애플리케이션에 적합한 도구를 선택할 수 있도록 지원합니다.
모델 기원 및 메타데이터
심층적인 기술적 분석에 들어가기 전에, 이 두 컴퓨터 비전 모델의 기원을 맥락화하는 것이 필수적이다.
DAMO-YOLO
알리바바 그룹 연구진이 개발한YOLO 자동화된 아키텍처 탐색 및 정제 기술을 통해 속도와 정확도를 동시에 최적화하기 위해YOLO .
- 작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
- 조직:조직: 알리바바 그룹
- 날짜: 2022년 11월 23일
- Arxiv:2211.15444v2
- GitHub:YOLO
7
2022년 중반 최첨단 기술로 출시된 YOLOv7 배포 비용을 증가시키지 않으면서도 훈련 가능한 "bag-of-freebies"를 도입함으로써 실시간 추론을 한 단계 더 YOLOv7 .
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- 조직:기관: 대만 학술원 정보 과학 연구소
- 날짜: 2022년 7월 6일
- Arxiv:2207.02696
- 문서:7 문서
지원되는 생태계
YOLOv7 Ultralytics 내에서 공식 YOLOv7 , 통합된 API를 통해 원활한 훈련, 검증 및 내보내기가 가능합니다.
아키텍처 혁신
YOLO: NAS 및 디스틸레이션
YOLO 최대 효율을 목표로 하는 여러 첨단 기술을YOLO :
- NAS 백본: 신경망 구조 탐색(NAS)을 활용하여 지연 시간이 중요한 환경에 맞춤화된 최적의 백본(MAE-NAS)을 자동으로 설계합니다.
- 효율적인 RepGFPN: 다중 스케일 간 특징 융합 효율을 획기적으로 향상시키는 수정된 일반화된 특징 피라미드 네트워크.
- ZeroHead & AlignedOTA: 경량 감지 헤드와 최적화된 레이블 할당 전략(AlignedOTA)을 통합하여 계산 오버헤드를 줄입니다.
- 증류 강화: 훈련 과정에서 지식 증류를 적극 활용하여 매개변수 수를 늘리지 않으면서도 소형 모델 변종의 성능을 향상시킵니다.
YOLOv7: E-ELAN과 Bag-of-Freebies
YOLOv7 더 구조적인 공학적 접근법을 YOLOv7 , 기울기 경로 최적화와 견고한 훈련 전략에 중점을 두었습니다.
- E-ELAN 아키텍처: 확장 효율적 레이어 집계 네트워크(Extended Efficient Layer Aggregation Network)는 가장 짧고 긴 기울기 경로를 제어함으로써 모델이 더 다양한 특징을 학습할 수 있게 하여 효과적인 학습 수렴을 보장합니다.
- 모델 스케일링: 연결 기반 모델에 맞춤화된 복합 스케일링 방법을 도입하여 구조적 정렬을 위해 깊이와 너비를 동시에 조정합니다.
- 훈련 가능한 프리비즈 백: 동일 연결 없이 재매개변수화된 컨볼루션(RepConv)과 같은 기법 및 동적 레이블 할당 전략을 활용하여 추론 속도에 영향을 주지 않으면서 훈련 중 정확도를 향상시킵니다.
성능 분석
평균 정밀도(mAP), 속도 및 효율성을 평가할 때 두 모델 모두 인상적인 지표를 보이지만, 각각 약간 다른 세그먼트를 대상으로 합니다. YOLOv7 높은 정확도의 GPU 중점을 YOLOv7 반면,YOLO NAS 기반 구조는 공격적인 저지연 CPU 에지 배포를 목표로 합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
지표에서 볼 수 있듯이,YOLO 극도로 경량화된 변형 모델(예: 단 850만 개의 매개변수를 가진 초소형 모델)을YOLO 반면, YOLOv7 더 높은 전체 정확도 정점을 YOLOv7 , YOLOv7x는 COCO 인상적인 53.1 mAP 기록했습니다.
Ultralytics 에코시스템의 이점
이론적 아키텍처가 중요하지만, 모델의 실용성은 생태계에 의해 결정됩니다. YOLOv7 같이 Ultralytics 지원하는 모델들은 잘 관리된 생태계와 비교할 수 없는 사용 편의성의 혜택을 누립니다.
- 성능 균형: Ultralytics 추론 속도와 탐지 정확도 사이에서 지속적으로 최적의 균형을 이루며, 이는 에지 디바이스와 클라우드 기반 모델 배포 모두에 이상적입니다.
- 메모리 요구 사항: 무거운 트랜스포머 기반 모델과 달리, Ultralytics YOLO 낮은 CUDA 메모리 요구 사항을 유지합니다. 이는 더 큰 배치 크기를 허용하여 소비자 등급 하드웨어에서도 훈련 과정을 간소화합니다.
- 다용도성: Ultralytics 객체 탐지를 넘어 인스턴스 분할 및 자세 추정과 같은 작업까지 확장되어 개발자에게 완벽한 컴퓨터 비전 툴킷을 제공합니다.
교육 효율성
Ultralytics 사용하면 고도로 최적화된 데이터 로더와 사전 훈련된 가중치를 활용하여 데이터셋에서 완전히 훈련된 모델로 단 몇 분 만에 원활하게 전환할 수 있습니다.
코드 예시: Ultralytics YOLOv7 훈련
Ultralytics Python 를 사용하면 YOLOv7 컴퓨터 비전 파이프라인 YOLOv7 통합하는 것이 매우 간단합니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
새로운 표준: YOLO26 소개
YOLOv7 YOLO 2022년에 중대한 돌파구를YOLO , 비전 AI 분야는 빠르게 진화하고YOLO . 현재 신규 프로젝트를 시작하는 팀에게는 2026년 1월에 출시된 최첨단 모델인 Ultralytics 권장합니다.
YOLO26은 성능과 사용성에서 세대적 도약을 가져오며, 최첨단 혁신 기술을 통합합니다:
- 엔드투엔드 NMS 설계: YOLO26은 본질적으로 엔드투엔드 구조입니다. 비최대 억제(NMS) 후처리 단계를 제거함으로써 더 빠르고 단순한 배포 로직을 구현합니다. 이는 최초의 패러다임 전환을 주도한 YOLOv10이 주도한 패러다임 전환입니다.
- MuSGD 최적화기: Moonshot AI의 Kimi K2와 같은 대규모 언어 모델 혁신에서 영감을 받아, YOLO26은 SGD 하이브리드 방식을 활용합니다. 이 최적화기는 매우 안정적인 훈련 역학을 보장하며 수렴 속도를 획기적으로 가속화합니다.
- 최대 43% 빠른 CPU : 분포 초점 손실(DFL)의 선택적 제거와 심층적인 구조적 개선을 통해 YOLO26은 저전력 에지 컴퓨팅에 최적화되어,GPU 이전 세대를 능가하는 성능을 제공합니다.
- ProgLoss + STAL: 항공 영상, 로봇 공학 및 보안 모니터링 분야의 응용에 필수적인 소형 물체 인식 능력을 명시적으로 목표로 삼아 개선하는 첨단 손실 함수를 통합합니다.
- 작업별 개선 사항: 표준 탐지 기능을 넘어, YOLO26은 다양한 작업을 위해 맞춤화된 향상 기능을 제공합니다. 여기에는 분할을 위한 다중 스케일 프로토타이핑, 자세 추정을 위한 RLE(실시간 추적), 방향성 경계 상자(OBB)를 위한 특정 각도 손실 함수가 포함됩니다.
이상적인 사용 사례
적합한 아키텍처를 선택하는 것은 전적으로 대상 배포 환경과 프로젝트 제약 조건에 달려 있습니다.
YOLO 선택해야 할 때:
- 매우 제한적이고 자원이 부족한 에지 환경(예: 마이크로컨트롤러)에서 작업 중이며, 원시 매개변수 수를 극도로 낮게 유지해야 합니다.
- 귀사는 알리바바의 독자적인 클라우드 서비스와 특별히 통합된 자동화된 머신러닝 파이프라인을 활용하고 있습니다.
YOLOv7 선택해야 할 때:
- 기존 GPU 앵커 기반의 고정밀 추론을 위해 이미 최적화되어 있습니다.
- 귀사는 고속 자율주행 차량이나 첨단 로봇 공학과 같이 실시간 정확성이 가장 중요한 환경에서 운영하고 있습니다.
YOLO26을 선택해야 할 때 (권장):
- 새로운 컴퓨터 비전 애플리케이션을 처음부터 구축 중이며, 정밀도와 CPU 추론 속도 모두에서 최첨단 성능이 필요합니다.
- 빠르고 원활한 배포(예: CoreML로 내보내기)가 필요합니다. CoreML 또는 TensorRT) NMS 처리하지 않고도 신속하고 원활한 배포가 필요합니다.
- 클라우드 트레이닝, 데이터셋 관리 및 자동화된 배포를 위해 Ultralytics 플랫폼의 모든 기능을 활용하고자 합니다.
개발자는 Ultralytics 강력한 생태계를 활용함으로써 엔지니어링 시간을 획기적으로 단축하면서도 실제 애플리케이션에 최상위 예측 성능을 확보할 수 있습니다.