YOLOv5 대 YOLOX: 종합 기술 비교

실시간 컴퓨터 비전의 발전은 속도와 정확성의 한계를 넓히는 다양한 아키텍처와 함께 수많은 이정표를 세워왔습니다. 이 분야에서 영향력이 큰 두 모델은 YOLOv5YOLOX입니다. 두 모델 모두 객체 탐지 분야에서 높은 성능으로 유명하지만, 아키텍처 측면에서는 근본적으로 다른 접근 방식을 취합니다.

본 가이드는 두 모델에 대한 심층적인 기술 분석을 제공하며, 개발자와 연구자가 비전 AI 프로젝트에 적합한 도구를 선택할 수 있도록 아키텍처, 성능 지표, 학습 방법론, 그리고 이상적인 배포 시나리오를 비교합니다.

모델 개요 및 아키텍처 차이점

Ultralytics YOLOv5

Ultralytics에서 선보인 YOLOv5는 성능, 사용 편의성, 메모리 효율성 간의 뛰어난 균형 덕분에 빠르게 업계 표준이 되었습니다. PyTorch 프레임워크를 기반으로 구축된 YOLOv5는 앵커 기반(anchor-based) 아키텍처를 사용합니다. 이 모델은 미리 정의된 바운딩 박스 모양을 활용해 객체 위치를 예측하며, 이는 표준 객체 탐지 작업에 매우 효과적입니다.

YOLOv5의 가장 큰 장점 중 하나는 잘 관리된 생태계입니다. 방대한 문서, 매우 간단한 Python API, 그리고 Ultralytics Platform과의 네이티브 통합을 자랑합니다. 이를 통해 개발자는 데이터셋 라벨링부터 학습, 그리고 ONNXTensorRT와 같은 형식으로의 내보내기까지 원활하게 전환할 수 있습니다.

YOLOv5에 대해 더 알아보기

생태계적 이점

Ultralytics YOLO 모델은 복잡한 Transformer 기반 대안들과 비교할 때 일반적으로 학습 중 훨씬 적은 GPU 메모리를 사용합니다. 이러한 낮은 메모리 점유율 덕분에 YOLOv5는 소비자용 하드웨어로 작업하는 연구자들도 쉽게 접근할 수 있습니다.

Megvii YOLOX

Megvii 연구진이 개발한 YOLOX는 YOLO 제품군에 앵커 프리(anchor-free) 설계를 도입함으로써 다른 길을 택했습니다. 앵커 박스를 제거함으로써 YOLOX는 탐지 헤드를 단순화하고 학습 중 수동 조정이 필요한 휴리스틱 매개변수의 수를 크게 줄였습니다.

또한 YOLOX는 분류와 회귀 작업을 서로 다른 네트워크 분기로 분리하는 디커플드 헤드(decoupled head)를 통합하고, SimOTA 라벨 할당 전략을 활용합니다. 이러한 혁신은 학술 연구와 산업 응용 간의 간극을 메워주며, 특히 객체 크기가 매우 다양한 환경에서 YOLOX를 매우 효과적으로 만듭니다.

YOLOX에 대해 더 알아보기

성능 및 지표

컴퓨터 비전 모델을 평가할 때는 mAP(mean Average Precision)와 추론 속도 사이의 트레이드오프가 매우 중요합니다. 두 모델 모두 다양한 하드웨어 제약 조건에 맞추기 위해 다양한 크기(Nano부터 Extra-Large까지)를 제공합니다.

모델크기
(픽셀)
mAPval
50-95
속도
CPU ONNX
(ms)
속도
T4 TensorRT10
(ms)
파라미터
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOXx가 약간 더 높은 최고 정확도(51.1 mAP)를 달성하지만, YOLOv5는 CPU 및 GPU 하드웨어 전반에 걸쳐 훨씬 더 강력하고 철저하게 검증된 배포 파이프라인을 제공합니다. YOLOv5의 TensorRT 속도는 엣지 컴퓨팅 장치에 최적화되어 있음을 보여주며, 실시간 영상 분석을 위한 매우 신뢰할 수 있는 선택지가 됩니다.

훈련 방법론 및 사용성

개발자 경험은 이 두 아키텍처 간에 상당한 차이가 있습니다.

YOLOX 접근 방식

YOLOX를 학습시키려면 일반적으로 원본 저장소를 복제하고, 특정 종속성을 관리하며, 복잡한 명령줄 스크립트를 실행해야 합니다. MegEngine을 통한 혼합 정밀도 학습 및 다중 노드 설정과 같은 고급 기능을 지원하지만, 신속한 프로토타이핑이 필요한 개발자에게는 학습 곡선이 가파를 수 있습니다.

Ultralytics의 강점

반면, Ultralytics는 매우 효율적인 사용자 경험을 최우선으로 합니다. ultralytics Python 패키지를 사용하면 최소한의 보일러플레이트 코드만으로 모델을 로드, 학습 및 검증할 수 있습니다. Ultralytics는 복잡한 데이터 증강, 하이퍼파라미터 진화, 학습률 스케줄링을 자동으로 처리합니다.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

또한 YOLOv5의 범용성은 표준 객체 탐지를 넘어, 동일한 통합 API 내에서 이미지 분류인스턴스 세그멘테이션에 대한 강력한 지원을 제공합니다.

간소화된 배포

학습이 완료되면 YOLOv5 모델을 CoreML, TFLite 또는 OpenVINO로 내보내는 것은 model.export(format="onnx")를 실행하는 것만큼 간단합니다. 이는 연구 중심 저장소에서 흔히 요구되는 타사 변환 스크립트가 필요 없게 합니다.

실제 적용 사례

이 모델들 중에서 선택하는 것은 귀하의 배포 환경과 기술적 요구 사항에 달려 있습니다:

  • 소매 및 재고 관리: NVIDIA Jetson과 같은 엣지 장치에서 실시간 제품 인식이 필요한 애플리케이션의 경우 YOLOv5가 매우 적합합니다. 최소한의 메모리 점유율과 빠른 TensorRT 추론 속도 덕분에 프레임 손실 없이 다중 카메라 추적을 구현할 수 있습니다.
  • 학술 연구 및 맞춤형 아키텍처: YOLOX는 연구 커뮤니티에서 높은 평가를 받습니다. 디커플드 헤드와 앵커 프리 특성 덕분에 새로운 라벨 할당 전략을 실험하려는 엔지니어들이나 기존 앵커 박스가 잘 일반화되지 않는 데이터셋으로 작업하는 연구자들에게 훌륭한 기준 모델이 됩니다.
  • 농업 AI: 드론을 통한 과일 탐지나 잡초 식별과 같은 정밀 농업 작업의 경우, Ultralytics Platform을 사용하여 YOLOv5 모델을 학습하고 배포하는 편의성 덕분에 도메인 전문가들이 딥러닝 엔지니어링 배경 없이도 AI 솔루션을 구현할 수 있습니다.

사용 사례 및 권장 사항

YOLOv5와 YOLOX 중 선택하는 것은 특정 프로젝트 요구 사항, 배포 제약 조건 및 생태계 선호도에 달려 있습니다.

YOLOv5를 선택해야 할 때

YOLOv5는 다음과 같은 경우에 강력한 선택입니다:

  • 검증된 프로덕션 시스템: YOLOv5의 오랜 안정성 기록, 광범위한 문서화 및 방대한 커뮤니티 지원이 가치 있게 평가되는 기존 배포 환경.
  • 자원 제약이 있는 학습 환경: GPU 자원이 제한적인 환경에서 YOLOv5의 효율적인 학습 파이프라인과 낮은 메모리 요구사항이 유리한 경우.
  • 광범위한 내보내기 형식 지원: ONNX, TensorRT, CoreML, TFLite를 포함한 다양한 형식으로 배포해야 하는 프로젝트.

YOLOX를 선택해야 할 때

YOLOX는 다음에 권장됩니다:

  • 앵커 프리 탐지 연구: 새로운 탐지 헤드나 손실 함수를 실험하기 위해 YOLOX의 깔끔한 앵커 프리 아키텍처를 베이스라인으로 사용하는 학술 연구.
  • 초경량 엣지 장치: YOLOX-Nano 모델의 매우 작은 풋프린트(0.91M 파라미터)가 필수적인 마이크로컨트롤러나 레거시 모바일 하드웨어에 배포할 때.
  • SimOTA 레이블 할당 연구: 최적 운송(optimal transport) 기반 레이블 할당 전략과 그것이 학습 수렴에 미치는 영향을 조사하는 연구 프로젝트.

Ultralytics(YOLO26)를 선택해야 할 때

대부분의 신규 프로젝트에서 Ultralytics YOLO26은 성능과 개발자 경험의 최적의 조합을 제공합니다:

  • NMS-free 엣지 배포: Non-Maximum Suppression 후처리의 복잡성 없이 일관되고 낮은 지연 시간의 추론이 필요한 애플리케이션.
  • CPU 전용 환경: 전용 GPU 가속기가 없는 장치에서 YOLO26의 최대 43% 더 빠른 CPU 추론 속도가 결정적인 이점을 제공합니다.
  • 소형 객체 탐지: 항공 드론 이미지나 IoT 센서 분석과 같은 도전적인 시나리오에서 ProgLoss와 STAL이 작은 객체에 대한 정확도를 크게 향상시킵니다.

비전 AI의 미래: YOLO26의 등장

YOLOv5와 YOLOX 모두 컴퓨터 비전 역사에 확고한 자리를 잡았지만, 해당 분야는 빠르게 발전하고 있습니다. 오늘날 새로운 프로젝트를 시작하는 개발자들에게 Ultralytics는 최신 주력 모델인 YOLO26을 탐색해 볼 것을 강력히 권장합니다.

2026년 1월에 출시된 YOLO26은 성능과 사용성 모두에서 거대한 도약을 이뤘습니다. 이 모델은 획기적인 엔드 투 엔드 NMS 프리 설계를 도입하여 Non-Maximum Suppression 후처리를 완전히 제거했습니다. 이는 지연 시간 가변성을 크게 줄이고 저전력 장치에서의 배포 로직을 단순화합니다.

또한 YOLO26은 LLM 학습 혁신에서 영감을 받은 SGD와 Muon의 하이브리드인 새로운 MuSGD Optimizer를 활용하여 놀랍도록 안정적이고 빠른 수렴을 가능하게 합니다. DFL 제거(내보내기 단순화 및 엣지/저전력 장치 호환성 향상을 위해 Distribution Focal Loss 제거)를 통해 YOLO26은 최대 43% 더 빠른 CPU 추론을 달성하며, 현대 엣지 컴퓨팅, 로봇 공학 및 IoT 애플리케이션을 위한 최고의 모델로서의 입지를 굳혔습니다. 또한 ProgLoss + STAL은 IoT, 로봇 공학 및 항공 영상에 중요한 소형 객체 인식의 현저한 개선과 함께 향상된 손실 함수를 제공합니다. 이전 버전에 관심이 있는 사용자는 YOLO11을 고려할 수 있지만, YOLO26이 현재 독보적인 최첨단 선택지입니다.

결론

YOLOv5와 YOLOX는 모두 뛰어난 객체 탐지 기능을 제공합니다. YOLOX는 2021년에 앵커 프리 설계가 기존 방식을 경쟁하고 능가할 수 있음을 입증하며 아키텍처의 영역을 넓혔습니다. 그러나 YOLOv5는 독보적인 사용 편의성, 방대한 생태계, 그리고 학습 중 낮은 메모리 요구 사항으로 인해 여전히 지배적인 위치를 유지하고 있습니다.

대다수의 상업용 애플리케이션의 경우, Ultralytics 생태계는 원시 데이터셋에서 배포된 프로덕션 모델까지 가장 빠른 경로를 제공합니다. 검증된 YOLOv5를 사용하든 최첨단 YOLO26으로 업그레이드하든, 개발자들은 비전 AI를 접근 가능하고 효율적이며 성능이 뛰어나게 만들도록 설계된 프레임워크의 이점을 누릴 수 있습니다.

댓글