YOLOv7 vs. YOLOX: 상세 기술 비교
컴퓨터 비전 프로젝트에서 최적의 객체 감지 모델을 선택하는 것은 매우 중요한 결정입니다. 최고의 성능을 얻으려면 다양한 아키텍처의 특정 강점과 약점을 이해하는 것이 중요합니다. 이 페이지에서는 두 가지 영향력 있는 모델인 YOLOv7과 YOLOX의 기술적 비교를 제공하며, 아키텍처의 미묘한 차이, 성능 벤치마크 및 이상적인 배포 시나리오를 자세히 설명합니다.
YOLOv7: 고정확도 및 효율적인 감지
2022년 7월에 소개된 YOLOv7은 훈련 효율성과 추론 속도를 모두 최적화하여 실시간 객체 감지기의 새로운 표준을 빠르게 설정했습니다. YOLOv7은 까다로운 애플리케이션에서 속도와 정확성의 균형을 맞추는 데 중요한 진전을 나타냅니다.
작성자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
소속: Institute of Information Science, Academia Sinica, Taiwan
날짜: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
문서: https://docs.ultralytics.com/models/yolov7/
아키텍처 및 주요 기능
YOLOv7은 논문에 자세히 설명된 여러 아키텍처 혁신을 도입했습니다. 핵심 구성 요소는 E-ELAN(Extended Efficient Layer Aggregation Network)으로, 그래디언트 경로를 방해하지 않고 네트워크의 학습 능력을 향상시켜 특징 추출을 개선합니다. 또한, 이 모델은 연결 기반 모델에 적합한 고급 스케일링 기술을 사용하고 "trainable bag-of-freebies"를 활용합니다. 이는 계획된 재파라미터화 컨볼루션 및 Coarse-to-fine auxiliary loss와 같이 추론 비용을 증가시키지 않으면서 정확도를 향상시키는 훈련 개선 사항입니다. 이러한 기능을 통해 YOLOv7은 경쟁력 있는 모델 크기로 객체 감지에서 최첨단 결과를 얻을 수 있습니다.
성능 및 사용 사례
YOLOv7은 빠른 추론과 높은 정확도가 모두 요구되는 시나리오에서 뛰어난 성능을 보입니다. 인상적인 mAP와 속도 지표 덕분에 실시간 비디오 분석, 자율 주행 시스템 및 고해상도 이미지 처리와 같은 애플리케이션에 적합합니다. 스마트 시티 환경에서는 YOLOv7을 사용하여 교통 관리를 하거나 즉각적인 위협 감지를 위한 보안 시스템을 강화할 수 있습니다.
강점과 약점
- 강점: 감지 정확도와 추론 속도 간의 강력한 균형을 제공합니다. 추론 중 계산 요구 사항을 크게 늘리지 않고 더 나은 성능을 위해 고급 학습 기술("bag-of-freebies")을 사용합니다. 아키텍처에는 E-ELAN과 같은 최첨단 모듈이 통합되어 있습니다.
- 약점: 아키텍처 및 학습 과정은 YOLOv5와 같은 더 간단한 모델에 비해 더 복잡할 수 있습니다. 더 큰 YOLOv7 모델을 학습하려면 상당한 컴퓨팅 리소스가 필요하지만 추론은 여전히 빠릅니다.
YOLOX: 앵커 프리의 탁월함
2021년 Megvii에서 소개한 YOLOX는 앵커 프리(anchor-free) 설계로 차별화되어 훈련 프로세스를 단순화하고 일반화 성능을 향상시키는 것을 목표로 합니다. 미리 정의된 앵커 박스에서 벗어나 YOLOX는 객체 위치를 직접 예측하여 객체 감지에 대한 다른 접근 방식을 제공합니다.
저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
소속: Megvii
날짜: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
문서: https://yolox.readthedocs.io/en/latest/
아키텍처 및 주요 기능
YOLOX는 몇 가지 주요 아키텍처 혁신을 채택했습니다. 앵커 프리(anchor-free) 접근 방식은 앵커 박스의 필요성을 없애 설계 복잡성과 계산 비용을 줄입니다. 이를 통해 다양한 객체 크기 및 종횡비에 더 잘 적응할 수 있어 COCO와 같은 다양한 데이터 세트에서 성능이 향상될 수 있습니다. 또한 분류 및 지역화를 위한 디커플드 헤드를 사용하여 더 빠른 수렴과 향상된 정확도에 기여합니다. YOLOX는 MixUp 및 Mosaic과 같은 강력한 데이터 증강 기술과 SimOTA(Simplified Optimal Transport Assignment)라는 고급 레이블 할당 전략을 활용하여 훈련 효율성을 더욱 향상시킵니다.
성능 및 사용 사례
YOLOX는 속도와 정확도 사이에서 좋은 균형을 이룹니다. 앵커 프리가 특징이므로 객체 스케일이 크게 다른 애플리케이션에 특히 적합합니다. 로보틱스 및 엣지 AI 배포와 같이 효율적이고 정확한 감지가 필요한 작업에 강력한 경쟁자입니다. 예를 들어 제조에서 YOLOX는 다양한 객체 모양에 대한 견고성을 활용하여 결함 감지를 위한 품질 검사에 사용할 수 있습니다.
강점과 약점
- 강점: 앵커 프리 디자인은 구현 및 훈련 파이프라인을 간소화합니다. 강력한 데이터 증강 및 앵커 프리 방식은 새로운 데이터 세트에 대한 일반화(generalization)를 향상시킵니다. 분리된 헤드(decoupled head)와 앵커 프리 특성은 효율적인 추론에 기여합니다.
- 약점: 효율적이지만 특히 YOLOv7의 최적화된 버전 또는 YOLOv8과 같은 최신 Ultralytics 모델에 비해 모든 YOLO 모델 중에서 가장 빠르지는 않을 수 있습니다. 또한 통합된 Ultralytics 에코시스템의 일부가 아니므로 Ultralytics HUB와 같은 도구와의 원활한 통합이 부족할 수 있습니다.
성능 및 벤치마크: YOLOv7 vs. YOLOX
두 모델을 비교할 때 YOLOv7은 일반적으로 더 큰 모델에 대해 더 높은 정확도(mAP)를 달성하여 출시 당시 실시간 감지기의 최첨단을 달성했습니다. 반면에 YOLOX는 매우 작은 YOLOX-Nano에서 큰 YOLOX-X에 이르기까지 더 넓은 범위의 확장 가능한 모델을 제공합니다. YOLOX의 앵커 프리 설계는 단순성과 일반화에 장점을 제공할 수 있는 반면 YOLOv7의 "bag-of-freebies" 접근 방식은 추론 오버헤드를 추가하지 않고 정확도를 최대화합니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4 TensorRT10 (ms) |
파라미터 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
결론 및 권장 사항
YOLOv7과 YOLOX는 모두 강력한 객체 탐지 모델이며, 이 분야에 상당한 기여를 했습니다. YOLOv7은 실시간 속도로 가능한 가장 높은 정확도를 달성하는 것이 주요 목표인 애플리케이션에 탁월한 선택입니다. YOLOX는 일반화에 탁월하고 다양한 컴퓨팅 예산에 적합한 확장성이 뛰어난 모델 제품군을 제공하는 매력적인 앵커 프리 대안을 제공합니다.
그러나 가장 현대적이고 다재다능하며 사용자 친화적인 프레임워크를 찾는 개발자와 연구자에게는 YOLOv8 및 Ultralytics YOLO11과 같은 최신 Ultralytics YOLO 모델이 더 매력적인 선택인 경우가 많습니다. 이러한 모델은 다음과 같은 몇 가지 주요 이점을 제공합니다.
- 사용 편의성: 간단한 Python API, 광범위한 문서 및 간단한 CLI 명령어를 통해 간소화된 사용자 경험을 제공합니다.
- 잘 관리되는 에코시스템: 활발한 개발, 강력한 오픈 소스 커뮤니티, 잦은 업데이트, 그리고 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 제공합니다.
- 다양성: 분할(segmentation), 분류(classification), 자세 추정(pose estimation) 및 방향 객체 탐지(oriented object detection, OBB)를 포함하여 객체 탐지 이상의 여러 비전 작업을 지원합니다.
- 성능 균형: 속도와 정확도 간의 뛰어난 절충점으로 에지 장치에서 클라우드 서버에 이르기까지 다양한 실제 시나리오에 적합합니다.
- 학습 효율성: 효율적인 학습 프로세스, 즉시 사용 가능한 사전 학습된 가중치, 더 빠른 수렴 시간을 제공합니다.
다른 모델 살펴보기
더 자세한 내용을 알아보려면 YOLOv7, YOLOX 및 기타 관련 모델과 관련된 다음 비교를 살펴보십시오.
- YOLOv7 vs. YOLOv8
- YOLOv5 vs. YOLOX
- RT-DETR vs. YOLOv7
- YOLOv10 및 YOLO11과 같은 최신 모델을 살펴보세요.