YOLOX 대 YOLOv7: 포괄적인 기술 비교
실시간 객체 탐지의 진화는 지속적인 아키텍처 혁신에 의해 주도되어 왔다. 이 여정에서 두 가지 중요한 이정표는 YOLOX와 YOLOv7입니다. 서로 1년 이내에 출시된 이 두 모델은 표준 객체 탐지 패러다임에 새로운 접근법을 도입하여 속도와 정확도 사이의 절충점을 크게 개선했습니다.
이 페이지는 YOLOv7 대한 심층적인 기술 분석을 제공하며, 두 모델의 아키텍처, 성능 지표 및 이상적인 사용 사례를 비교하여 개발자가 컴퓨터 비전 배포에 적합한 도구를 선택할 수 있도록 돕습니다.
YOLOX: 선구적인 앵커 프리 탐지
2021년 7월 메그비 연구진이 소개한 YOLOX는 기존 앵커 기반 설계에서 벗어나는 획기적인 전환을 이루었습니다. 학술 연구와 산업적 적용 간의 격차를 해소함으로써 YOLOX는 탐지 헤드를 단순화하고 전반적인 성능을 향상시켰습니다.
주요 모델 세부 사항:
- 작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- 조직조직: Megvii
- 날짜:18
- 연구 논문:arXiv:2107.08430
- 소스 코드:Megvii YOLOX GitHub
- 문서:YOLOX ReadTheDocs
아키텍처 혁신
YOLOX는 앵커 프리 접근법을 도입하여 사용자 정의 데이터셋에 필요한 설계 매개변수와 휴리스틱 조정을 획기적으로 줄였습니다. 분류와 회귀 작업을 분리하는 디커플드 헤드를 구현하여 수렴 속도와 정확도를 향상시켰습니다. 또한 YOLOX는 모델의 강건성을 높이기 위해 MixUp Mosaic과 같은 고급 데이터 증강 전략을 활용했습니다.
앵커 프리 어드밴티지
앵커 박스를 제거함으로써 YOLOX는 훈련 중 예측값과 정답 데이터 간의 교차합(IoU) 계산에 따른 연산 오버헤드를 줄여, CUDA 요구량을 낮추고 훈련 시간을 단축합니다.
YOLOv7: 훈련 가능한 Bag-of-Freebies
2022년 7월 대만 중앙연구원 정보과학연구소 연구진에 의해 공개된 YOLOv7 실시간 객체 탐지의 한계를 한층 더 YOLOv7 . 이 모델은 "훈련 가능한 프리비즈 백(trainable bag-of-freebies)" 개념을 도입하여 출시 당시 COCO 새로운 최첨단 벤치마크를 수립했다.
주요 모델 세부 사항:
- 저자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
- Organization: Institute of Information Science, Academia Sinica, Taiwan
- 날짜:06
- 연구 논문:arXiv:2207.02696
- 소스 코드:WongKinYiu YOLOv7
- 문서:Ultralytics YOLOv7
아키텍처 혁신
YOLOv7 아키텍처는 확장 효율적 레이어 집계 네트워크(E-ELAN)를 중심으로 구축되어, 모델이 기울기 경로를 저하시키지 않으면서 지속적으로 더 다양한 특징을 학습할 수 있게 합니다. 또한 YOLOv7 모델 재매개변수화 기법을 YOLOv7 , 복잡한 다중 분기 훈련 네트워크를 추론 시 더 빠른 단일 경로 네트워크로 단순화할 수 있게 합니다.
성능 비교
실제 적용을 위해 이러한 모델을 평가할 때, 다양한 규모에서의 성능을 이해하는 것이 매우 중요합니다. 아래 표는 다양한 크기의 YOLOX와 YOLOv7 대한 표준 지표를 비교합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
분석
- 정확도: YOLOv7 더 높은 mAP 을 달성합니다. 예를 들어, YOLOv7x는 53.1 mAP 달성한 mAP YOLOXx는 51.1 mAP .
- 속도: 두 모델 모두 TensorRT를 사용하여 GPU 에 최적화되어 있지만 TensorRT를 사용하여 GPU 실행에 최적화되어 있지만, YOLOv7 E-ELAN 아키텍처는 고급 애플리케이션에서 약간 더 나은 처리량을 제공합니다. 반면 YOLOX는 소형 엣지 디바이스에서 우수한 지연 시간을 유지합니다.
- 다용도성: YOLOv7 인스턴스 분할 및 자세 추정을 위한 가중치를 기본적으로 제공함으로써 바운딩 박스 이상의 기능을 YOLOv7 , 기본 YOLOX 저장소보다 더 다용도로 활용될 수 있게 되었습니다.
실제 응용 분야
이러한 모델들 사이에서 선택하는 것은 종종 특정 배포 환경에 따라 결정됩니다.
엣지 컴퓨팅과 사물인터넷
라즈베리 파이(Raspberry Pi) 나 구형 모바일 프로세서 같은 제약이 있는 에지 디바이스에는 YOLOX-Nano와 YOLOX-Tiny가 매우 매력적이다. 최소한의 매개변수와 앵커 프리(anchor-free) 특성 덕분에 저전력 환경에서 기본적인 모션 추적이나 스마트 도어벨 애플리케이션 같은 작업에 더 쉽게 배포할 수 있다.
고충실도 영상 분석
산업용 결함 검출 또는 고밀도 교통 모니터링에서 고해상도 영상을 처리하기 위해, YOLOv7 이 우수합니다. 강력한 특징 집계 기능 덕분에 물체가 부분적으로 가려지거나 크기가 크게 달라져도 높은 정확도를 유지할 수 있습니다.
사용 사례 및 권장 사항
YOLOX와 YOLOv7 사이의 선택은 특정 프로젝트 요구사항, 배포 제약 조건 및 생태계 선호도에 따라 YOLOv7 .
욜록스를 선택해야 할 때
YOLOX는 다음과 같은 경우에 탁월한 선택입니다:
- 앵커 프리 탐지 연구: 새로운 탐지 헤드나 손실 함수를 실험하기 위한 기준으로 YOLOX의 깔끔한 앵커 프리 아키텍처를 활용한 학술 연구.
- 초경량 에지 디바이스: 마이크로컨트롤러 또는 레거시 모바일 하드웨어에 배포할 때 YOLOX-Nano 변형의 극히 작은 메모리 사용량(0.91M 매개변수)이 핵심적인 요소입니다.
- SimOTA 라벨 할당 연구: 최적 수송 기반 라벨 할당 전략과 훈련 수렴에 미치는 영향을 조사하는 연구 프로젝트들.
7 선택해야 할 때
YOLOv7 다음에 권장YOLOv7 :
- 학술적 벤치마킹: 2022년 당시 최첨단 결과를 재현하거나 E-ELAN 및 훈련 가능한 프리비즈 백(bag-of-freebies) 기법의 효과를 연구하는 것.
- 재매개변수화 연구: 계획된 재매개변수화 컨볼루션 및 복합 모델 스케일링 전략 탐구
- 기존 커스텀 파이프라인: YOLOv7 특정 아키텍처를 기반으로 구축된 고도로 커스터마이징된 파이프라인을 보유한 프로젝트로, 쉽게 리팩토링할 수 없습니다.
Ultralytics YOLO26)를 선택해야 할 때
대부분의 신규 프로젝트에 대해 Ultralytics 성능과 개발자 경험의 최적 조합을 제공합니다:
- NMS 에지 배포: 복잡한 비최대 억제(NMS) 후처리 없이도 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
- CPU 전용 환경: 전용 GPU 없는 장치에서, YOLO26의 최대 43% 빠른 CPU 성능이 결정적인 이점을 제공합니다.
- 소형 물체 탐지: 항공 드론 영상이나 IoT 센서 분석과 같은 까다로운 시나리오에서 ProgLoss와 STAL이 미세한 물체의 정확도를 크게 향상시킵니다.
Ultralytics 이점
YOLOX와 YOLOv7 모두 강력한 연구용 YOLOv7 , 연구용 저장소에서 확장 가능한 생산 환경으로의 전환은 부담스러울 수 있습니다. 바로 이 점에서 Ultralytics 빛을 발합니다.
Ultralytics 통합된 Python 제공하여 모델 훈련, 검증 및 배포를 간소화되고 표준화된 작업으로 처리합니다. 기존 아키텍처에서 흔히 발생하는 복잡한 타사 종속성 관리나 맞춤형 C++ 연산자 처리의 번거로움을 피할 수 있습니다.
또한 Ultralytics YOLO Transformer 기반 탐지기와 비교하여 훈련 중 CUDA 사용량이 현저히 적습니다. RT-DETR과 비교해 훈련 중 CUDA 메모리 사용량이 현저히 적습니다. 이를 통해 실무자는 더 큰 배치 크기를 활용할 수 있어 훈련 과정이 안정화되고 맞춤형 데이터셋에서의 수렴 속도가 가속화됩니다.
지원되는 통합 기능
Ultralytics 모델을 다음과 같은 업계 표준 형식으로 내보내는 기능을 Ultralytics 지원합니다. ONNX, OpenVINO, CoreML 을 간단한 부울 플래그로 제어하여 모델 배포 과정을 크게 간소화합니다.
코드 예시: Ultralytics 사용한 훈련
Ultralytics 통해 YOLOv7 최신 아키텍처를 사용해 단 몇 줄의 코드로 모델을 쉽게 로드하고, 훈련하며, 추론을 실행할 수 있습니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on a custom dataset (e.g., COCO8)
# The API handles data loading, augmentation, and memory management automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
predictions = model("path/to/image.jpg")
predictions[0].show()
미래: Ultralytics
YOLOv7 YOLOX는 중요한 역사적 진전을 보여주지만, 최첨단 기술은 빠르게 진화하고 있습니다. 2026년 1월 출시된 Ultralytics 기존 모델들을 뛰어넘는 획기적인 패러다임을 제시합니다.
- 엔드투엔드 NMS 설계: YOLO26은 비최대 억제(NMS) 후처리 단계를 기본적으로 제거합니다. 이는 지연 시간 병목 현상을 획기적으로 줄이고 다양한 하드웨어 환경에서 결정론적 실행 시간을 보장합니다.
- 최대 43% 빠른 CPU : 분포 초점 손실(DFL)을 제거하고 네트워크 깊이를 최적화함으로써, YOLO26은 전용 GPU 부족한 에지 디바이스에 최적화되어 있습니다.
- MuSGD 최적화기: 고급 LLM 훈련 기법에서 영감을 받은 MuSGD 최적화기( SGD 뮤온의 하이브리드)는 탁월한 훈련 안정성과 더 빠른 수렴 속도를 제공합니다.
- 소형 물체 탐지 성능 향상: ProgLoss + STAL 손실 함수의 통합으로 드론 매핑 및 보안 감시에 중요한 소형 원거리 물체 인식 능력이 크게 개선되었습니다.
- 네이티브 작업 지원: YOLO26은 동일한 간소화된 API 내에서 방향성 경계 상자(OBB), 인스턴스 분할 및 자세 추정 기능을 포괄적으로 네이티브로 지원합니다.
오늘날 새로운 컴퓨터 비전 프로젝트를 시작하는 현대 개발자에게는 플랫폼에서Ultralytics 평가하는 것이 속도, 정확도, 배포 용이성의 최상의 균형을 달성하기 위한 권장 경로입니다. YOLO11 또는 YOLOv8에서 업그레이드하는 경우, 모델 문자열만 변경하면 즉시 우수한 기능을 활용할 수 있습니다.