콘텐츠로 건너뛰기

YOLOX 대 YOLOv7: 기술 비교

적합한 객체 감지 모델을 선택하는 것은 성능, 속도 및 배포 가능성에 직접적인 영향을 미치므로 모든 컴퓨터 비전 프로젝트에서 중요한 결정입니다. 이 페이지에서는 YOLO 제품군에서 두 가지 영향력 있는 모델인 YOLOX와 YOLOv7 간의 자세한 기술 비교를 제공합니다. 정보에 입각한 선택을 할 수 있도록 아키텍처 차이점, 성능 벤치마크 및 이상적인 사용 사례를 살펴보겠습니다.

YOLOX: 앵커 프리의 탁월함

YOLOX는 이전 YOLO 버전에 비해 성능을 향상시키면서 감지 파이프라인을 단순화하는 것을 목표로 하는 고성능의 anchor-free detector로 소개되었습니다. 이 디자인 철학은 훈련 과정을 간소화하여 학술 연구와 산업 응용 간의 간극을 좁힙니다.

저자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
소속: Megvii
날짜: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
문서: https://yolox.readthedocs.io/en/latest/

아키텍처 및 주요 기능

YOLOX는 이전 모델과 차별화되는 몇 가지 주요 아키텍처 혁신으로 두각을 나타냅니다.

  • Anchor-Free Design: 미리 정의된 앵커 박스를 제거함으로써 YOLOX는 설계 파라미터 수와 앵커 튜닝과 관련된 복잡성을 줄입니다. 이를 통해 모델의 유연성이 향상되고 특히 COCO와 같은 데이터 세트에서 다양한 모양과 크기를 가진 객체에 대한 일반화 성능이 향상됩니다.
  • Decoupled Head: 분류와 위치 추정을 동시에 수행하는 결합된 헤드와 달리 YOLOX는 분리된 헤드를 사용합니다. 이러한 분리는 두 작업 간의 충돌을 해결하여 학습 중 더 빠른 수렴과 더 높은 정확도를 제공하는 것으로 나타났습니다.
  • 고급 데이터 증강: 이 모델은 강력한 데이터 증강 기술(MixUp 및 Mosaic 포함)을 활용하여 견고성을 향상시키고 과적합을 방지합니다. 이러한 기술에 대한 자세한 내용은 데이터 증강 가이드에서 확인할 수 있습니다.
  • SimOTA 레이블 할당: YOLOX는 SimOTA(Simplified Optimal Transport Assignment)라는 고급 레이블 할당 전략을 도입합니다. 훈련 효율성을 향상시키고 모델이 더 나은 특징을 학습하는 데 도움이 되는 훈련을 위해 긍정적 샘플을 동적으로 할당합니다.

강점과 약점

강점:

  • 단순화된 파이프라인: 앵커 프리 방식은 앵커 클러스터링 및 튜닝의 필요성을 없애 학습 및 배포 프로세스를 간소화합니다.
  • 강력한 일반화: 앵커 프리 설계와 강력한 데이터 증강의 조합은 모델이 새로운 도메인과 데이터 세트에 잘 일반화되도록 도와줍니다.
  • 우수한 성능 균형: YOLOX는 다양한 모델 크기에서 속도와 정확도 사이의 견고한 균형을 제공합니다.

약점:

  • 최신 모델에 의한 성능 저하: YOLOX는 효율적이지만 YOLOv7 및 후속 Ultralytics 모델과 같은 최신 아키텍처에 의해 속도와 정확도가 능가되었습니다.
  • 생태계 제한 사항: YOLOX는 Ultralytics와 같은 통합 생태계의 일부가 아니므로 배포 및 MLOps가 더 어려워질 수 있습니다. Ultralytics HUB와 같은 도구와의 원활한 통합이 부족합니다.

YOLOX에 대해 자세히 알아보세요

YOLOv7: 속도와 정확도의 정점

YOLOv7은 출시되자마자 실시간 객체 감지기 분야에서 새로운 최첨단 기술을 확립하여 속도와 정확성 모두에서 놀라운 개선을 보여주었습니다. 이는 여러 아키텍처 최적화 및 훈련 전략을 도입하여 달성했습니다.

작성자: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
소속: Institute of Information Science, Academia Sinica, Taiwan
날짜: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
문서: https://docs.ultralytics.com/models/yolov7/

아키텍처 및 주요 기능

YOLOv7의 뛰어난 성능은 고급 아키텍처 구성 요소와 훈련 개선에 뿌리를 두고 있습니다.

  • E-ELAN (Extended Efficient Layer Aggregation Network): backbone의 핵심 모듈인 이 모듈은 gradient 경로를 제어하여 네트워크가 더 다양한 특징을 학습할 수 있도록 하며, gradient 흐름을 방해하지 않고 학습을 향상시킵니다.
  • 학습 가능한 Bag-of-Freebies: YOLOv7은 추론 비용을 늘리지 않고 정확도를 향상시키는 일련의 학습 방법을 도입합니다. 여기에는 학습 프로세스를 안내하는 Coarse-to-Fine Lead Guided Training 및 보조 헤드와 같은 기술이 포함됩니다.
  • 모델 스케일링: 이 모델은 연결 기반 아키텍처에 최적화된 깊이와 너비를 위한 복합 스케일링 방법을 도입하여 다양한 모델 크기에서 효율적인 성능을 보장합니다.
  • 재매개변수화된 컨볼루션: YOLOv7은 성능을 향상시키기 위해 모델 재매개변수화를 사용하며, 이 기술은 이후 현대적인 네트워크 설계에서 널리 사용되고 있습니다.

강점과 약점

강점:

  • 탁월한 속도-정확도 균형: YOLOv7은 높은 mAP와 빠른 추론 속도 간의 뛰어난 균형을 제공하므로 실시간 애플리케이션에 이상적입니다.
  • 학습 효율성: "bag-of-freebies" 접근 방식을 통해 효율적인 학습으로 높은 정확도를 달성할 수 있습니다.
  • 검증된 성능: 표준 데이터 세트에서 실시간 객체 검출기의 새로운 벤치마크를 확립했습니다.

약점:

  • 아키텍처 복잡성: E-ELAN, 보조 헤드 및 기타 기능의 조합으로 인해 아키텍처가 더 단순한 모델보다 더 복잡해집니다.
  • 리소스 집약적 학습: 더 큰 YOLOv7 모델을 학습하려면 상당한 컴퓨팅 리소스와 GPU 메모리가 필요할 수 있습니다.
  • 제한적인 활용성: 공식 저장소에는 포즈 추정과 같은 작업에 대한 커뮤니티 기반 확장 기능이 있지만, 최신 Ultralytics 모델과 같은 본질적인 멀티태스크 프레임워크는 아닙니다.

YOLOv7에 대해 자세히 알아보세요

성능 비교: YOLOX vs. YOLOv7

성능을 비교할 때 두 모델 모두 다양한 계산 예산에 맞게 다양한 크기를 제공합니다. YOLOX는 Nano에서 X까지 확장 가능한 제품군을 제공하는 반면, YOLOv7은 더 큰 변형으로 최고 수준의 성능을 제공하는 데 중점을 둡니다.

모델 크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

표에서 YOLOv7 모델이 일반적으로 더 높은 mAP 점수를 달성한다는 것을 알 수 있습니다. 예를 들어, YOLOv7l은 훨씬 적은 파라미터(36.9M vs. 99.1M)와 FLOP(104.7B vs. 281.9B)로 정확도(51.4% vs. 51.1%)에서 YOLOXx를 능가하며 T4 GPU에서 훨씬 빠릅니다. 이는 YOLOv7의 뛰어난 아키텍처 효율성을 강조합니다.

Ultralytics YOLO 모델이 선호되는 선택인 이유

YOLOX와 YOLOv7은 중요한 발전이었지만, 최신 Ultralytics YOLO 모델 (예: YOLOv8YOLO11)은 더욱 현대적이고 다재다능하며 사용자 친화적인 경험을 제공합니다.

  • 사용 편의성: Ultralytics 모델은 간소화된 Python API, 광범위한 문서 및 학습, 검증 및 배포를 간단하게 만드는 간단한 CLI 명령어를 특징으로 하며, 개발자를 염두에 두고 설계되었습니다.
  • 잘 관리되는 에코시스템: 활발한 개발, 대규모 오픈 소스 커뮤니티, 잦은 업데이트, 그리고 엔드 투 엔드 MLOps를 위한 Ultralytics HUB와 같은 도구와의 원활한 통합을 통해 강력한 에코시스템의 이점을 누리십시오.
  • 다재다능함: YOLOv8 및 YOLO11과 같은 모델은 객체 탐지, 분할, 분류, 자세 추정방향이 지정된 객체 탐지(OBB)를 즉시 지원하는 진정한 멀티태스킹 프레임워크입니다.
  • 성능 및 효율성: Ultralytics 모델은 속도와 정확도의 뛰어난 균형을 제공하고 효율적인 메모리 사용을 위해 최적화되어 있으며 에지 장치에서 클라우드 서버에 이르기까지 광범위한 하드웨어에 적합합니다.

결론

YOLOX와 YOLOv7은 모두 컴퓨터 비전에서 가능한 것의 경계를 넓힌 강력한 객체 감지 모델입니다. YOLOX는 감지 파이프라인을 단순화하는 혁신적인 앵커 프리 디자인으로 칭찬할 만합니다. YOLOv7은 뛰어난 속도와 정확성으로 두각을 나타내므로 까다로운 실시간 애플리케이션에 적합합니다.

그러나 오늘날 개발자와 연구자에게 YOLOv8 및 YOLO11과 같은 Ultralytics 모델은 다음 단계로 나아가는 것을 의미합니다. 이러한 모델은 뛰어난 성능, 더 큰 다재다능함, 보다 포괄적이고 사용자 친화적인 생태계를 제공하므로 최신 고성능 비전 AI 솔루션을 구축하는 데 권장되는 선택입니다.

기타 모델 비교

더 자세한 정보를 얻으려면 다른 모델 비교를 살펴보십시오.



📅 1년 전에 생성됨 ✏️ 1개월 전에 업데이트됨

댓글