콘텐츠로 건너뛰기

YOLOv5 OLOX: 아키텍처 변화와 성능 지표

객체 감지의 환경은 추론 속도와 감지 정확도 간의 최적의 균형을 위해 다양한 아키텍처가 경쟁하면서 빠르게 발전해 왔습니다. 이 여정에서 중요한 두 가지 이정표는 다음과 같습니다. YOLOv5와 Megvii의 연구 중심 모델인 YOLOx가 있습니다. 두 모델 모두 "You Only Look Once" 계보에서 비롯되었지만, 아키텍처 철학, 특히 앵커 기반 탐지 메커니즘과 앵커 없는 탐지 메커니즘에 관한 아키텍처 철학은 크게 다릅니다.

이 비교에서는 두 모델의 기술 사양, 아키텍처 차이점, 성능 메트릭을 살펴보고 개발자와 연구자가 컴퓨터 비전 프로젝트에 적합한 도구를 선택하는 데 도움을 줍니다.

Ultralytics YOLOv5: 엔지니어링 표준

2020년에 출시된 YOLOv5 실용적인 물체 감지를 위한 업계 표준으로 빠르게 자리 잡았습니다. 주로 학술 연구 프로젝트였던 이전 버전과 달리 YOLOv5 사용성, 배포 용이성, 실제 성능에 중점을 두고 설계되었습니다. 더 많은 사람들이 사용자 지정 모델을 교육하고 배포할 수 있도록 간소화된 PyTorch 워크플로우를 도입했습니다.

YOLOv5 앵커 기반 아키텍처를 사용하여 사전 정의된 앵커 박스를 활용하여 객체 위치를 예측합니다. 학습 전에 사용자 지정 데이터 세트에 맞게 앵커 모양을 진화시키는 '자동 앵커' 기능을 통합하여 최적의 수렴을 보장합니다. 이 모델은 신속한 특징 추출 및 집계에 최적화된 CSPNet 백본과 PANet 넥을 특징으로 합니다. 이 모델의 주요 강점은 뛰어난 추론 속도와 낮은 메모리 사용량으로, 엣지 컴퓨팅과 모바일 애플리케이션에 이상적입니다.

YOLOv5에 대해 자세히 알아보세요

욜록스: 앵커 없는 경쟁자

Megvii가 2021년에 출시한 YOLO 앵커가 없는 디자인을 채택하여 YOLO 제품군의 경계를 넓히고자 했습니다. 이 접근 방식은 사전 정의된 앵커 박스가 필요하지 않고 대신 물체의 중심과 크기를 직접 예측합니다. 이러한 변화는 디자인 프로세스를 간소화하고 다양한 물체 모양에 대한 일반화를 개선하기 위한 것이었습니다.

YOLOX는 분류와 회귀 작업을 서로 다른 분기로 분리하는 분리형 헤드 아키텍처를 도입했습니다. 이를 통해 이론적으로 모델은 객체가 무엇인지, 어디에 있는지 식별하기 위한 뚜렷한 특징 표현을 학습할 수 있습니다. 또한 SimOTA (단순화된 최적 전송 할당)라는 고급 라벨 할당 전략을 사용하여 훈련 중에 양성 샘플을 동적으로 할당합니다. 이러한 혁신은 정확도를 높이는 데 기여하지만, 계산 복잡성이 증가하는 경우가 많습니다.

YOLOX에 대해 자세히 알아보세요

최신 기술을 찾고 계신가요?

YOLOv5 OLOX는 컴퓨터 비전 역사에서 중요한 발자취를 남겼지만, 이 분야는 빠르게 변화하고 있습니다. YOLO11은 두 모델에 비해 뛰어난 정확도와 속도를 제공하며, 탐지, 세분화, 포즈 추정 등을 지원하는 정교한 아키텍처를 특징으로 합니다.

성능 분석: 속도 vs. 정확도

YOLOv5 YOLOX를 비교할 때, 일반적으로 추론 지연 시간 대 절대 정밀도를 중심으로 절충점을 찾습니다. YOLOv5 특히 하드웨어 가속기, 즉 TensorRT 및 ONNX 런타임을 사용하는 하드웨어 가속기에서 특히 속도에 최적화되어 있습니다. 아래 데이터에서 볼 수 있듯이, YOLOv5 모델은 동급 모델 크기에서 훨씬 더 낮은 지연 시간(더 빠른 속도)을 보여줍니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

주요 내용

  • 추론 속도: YOLOv5 속도 면에서 결정적인 우위를 점합니다. 예를 들어, YOLOv5n은 1.12ms에 불과한 TensorRT 지연 시간을 달성하여 NVIDIA Jetson과 같은 엣지 디바이스에서 고FPS 비디오 처리에 매우 적합합니다. 반면, 가장 작은 YOLOX 모델은 CPU 대한 비교 가능한 벤치마크 데이터가 부족하며, 일반적으로 비슷한 정확도 계층에서 GPU 지연 시간이 더 높습니다.
  • 정확도(mAP): YOLOX가 약간 더 높은 경향을 보입니다. mAP 점수가 약간 더 높은 경향이 있으며, 특히 더 큰 변종에서 더 높습니다(YOLOX-x 51.1점, YOLOv5x 50.7점). 이는 앵커가 없는 디자인과 디커플링 헤드 덕분에 물체 변형을 더 잘 처리할 수 있기 때문입니다. 그러나 이러한 한계적인 이점은 종종 훨씬 더 높은 연산 오버헤드(FLOPs)라는 대가를 치르게 됩니다.
  • 효율성: YOLOv5 모델은 일반적으로 주어진 추론 속도에 대해 더 적은 수의 FLOP을 필요로 합니다. YOLOv5 결합형 헤드 설계는 하드웨어 친화적이므로 CPU와 GPU 모두에서 더 빠르게 실행할 수 있습니다.

심층적인 아키텍처 분석

근본적인 차이점은 각 모델이 탐지 문제에 접근하는 방식에 있습니다.

YOLOv5 (앵커 기반): YOLOv5 미리 정의된 앵커 박스 세트를 활용합니다. 학습하는 동안 모델은 객체에 맞게 이러한 상자를 조정하는 방법을 학습합니다. 이 방법은 객체의 크기와 그리드 셀 크기 간의 상관관계에 의존합니다.

  • 장점: 안정적인 교육, 확립된 방법론, 표준 데이터 세트에서 뛰어난 성능.
  • 단점: 이색적인 데이터 세트의 앵커에 대한 하이퍼파라미터 조정이 필요합니다( YOLOv5 자동 앵커가 이를 완화하지만).

YOLOX (앵커 프리): YOLOX는 물체 감지를 점 회귀 문제로 처리합니다. 그리드 셀의 중심에서 물체의 경계까지의 거리를 예측합니다.

  • 장점: 디자인 파라미터의 수를 줄임(조정할 앵커가 없음), 불규칙한 종횡비에서 더 나은 일반화 가능성.
  • 단점: 훈련 중 수렴 속도가 느려질 수 있으며, 분리된 헤드는 추론 지연 시간을 증가시키는 레이어를 추가합니다.

사용자 경험 및 에코시스템

의 가장 큰 특징 중 하나는 Ultralytics YOLOv5 의 가장 큰 특징은 강력한 에코시스템입니다. YOLOX가 강력한 학문적 기반을 제공하는 반면, YOLOv5 개발자를 위해 설계된 제품 지원 프레임워크를 제공합니다.

사용 편의성

YOLOv5 '처음부터 끝까지' 단순하다는 평을 받고 있습니다. 데이터 주석부터 모델 학습 및 배포에 이르기까지, Ultralytics 에코시스템은 모든 단계를 간소화합니다. 몇 줄의 코드로 모델을 로드할 수 있으며, 다음과 같은 형식으로 자동 내보내기를 지원합니다. TFLite, CoreMLONNX.

import torch

# Load a pretrained YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

다용도성 및 유지 관리

Ultralytics 모델은 단순히 탐지만 하는 것이 아닙니다. 이 프레임워크는 이미지 분류와 인스턴스 세분화를 지원하며 여러 작업을 위한 통합 API를 제공합니다. 이러한 다목적성은 주로 탐지에 중점을 두는 YOLOX와 같은 연구 전용 리포지토리에는 부족한 경우가 많습니다. 또한, Ultralytics 적극적인 유지 관리를 통해 최신 버전의 PyTorch 및 CUDA 호환성을 보장하므로 시간이 지남에 따라 '코드 썩음'이 줄어듭니다.

이상적인 사용 사례

  • 다음과 같은 경우 Ultralytics YOLOv5 선택합니다:

    • 엣지 디바이스(라즈베리 파이, 휴대폰)에서 실시간 성능이 필요합니다.
    • 배포의 용이성을 우선시하고 TensorRT, CoreML 또는 TFLite 내보내기를 위한 기본 지원이 필요합니다.
    • 안정적이고 잘 문서화된 프레임워크와 활발한 커뮤니티 지원을 선호합니다.
    • 짧은 지연 시간이 중요한 보안 감시 또는 자율 주행과 관련된 애플리케이션입니다.
  • 다음과 같은 경우 YOLOX를 선택합니다:

    • 앵커 없는 아키텍처에 대한 학술 연구를 진행하고 계십니다.
    • 추론 속도에 관계없이 대회 또는 벤치마크에 절대 최대 mAP 필요합니다.
    • 앵커 기반 방법이 명백하게 실패한 특수한 데이터 집합(예: 극단적인 종횡비)이 있는데 자동 앵커로 문제를 해결하지 못했습니다.

결론

YOLOv5 OLOX는 모두 컴퓨터 비전의 역사에서 중요한 위치를 차지하고 있습니다. YOLO 제품군에서 앵커 프리 디텍터의 실행 가능성을 입증한 YOLO 학술 연구의 강력한 기준을 제시했습니다. 그러나 대부분의 실용적인 애플리케이션의 경우, Ultralytics YOLOv5 는 탁월한 속도와 효율성, 개발자 친화적인 에코시스템으로 인해 여전히 최고의 선택입니다.

지금 새로운 프로젝트를 시작하시는 분들께는 YOLO11. 이 솔루션은 사용 YOLOv5속도라는 YOLOv5강점을 기반으로 하면서도 정확성과 다용도성 면에서 YOLOv5 YOLOX를 능가하는 최신 아키텍처의 발전된 기능을 통합하고 있습니다.

기타 모델 비교

Ultralytics 모델을 현업의 다른 아키텍처와 비교하여 살펴보세요:


댓글