DAMO-YOLO vs. YOLOX: 기술 비교

빠르게 진화하는 컴퓨터 비전 환경에서 올바른 객체 감지 모델을 선택하는 것은 모든 AI 프로젝트의 성공을 위해 매우 중요합니다. 이 문서에서는 영향력 있는 두 가지 아키텍처를 심층적으로 비교합니다: 알리바바 그룹에서 개발한 다모욜로(YOLO)와 메그비에서 개발한 욜록스(YOLOX)입니다. 두 모델 모두 속도와 정확성의 한계를 뛰어넘으며 이 분야에 큰 공헌을 해왔습니다. 각 모델의 고유한 아키텍처, 성능 지표, 이상적인 사용 사례를 살펴보고 정보에 입각한 결정을 내릴 수 있도록 도와드리겠습니다.

YOLO: 고속 추론에 최적화됨

YOLO 정확도 저하 없이 GPU 하드웨어의 낮은 지연 시간을 우선시하는 실시간 물체 감지의 비약적인 발전을 나타냅니다. 알리바바의 연구원들이 개발한 이 기술은 최첨단 신경망 설계 원칙을 통합하여 속도와 정확도의 놀라운 절충점을 달성합니다.

기술 세부 사항:

작성자: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
조직:조직: 알리바바 그룹
날짜: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
Docs:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

아키텍처 및 혁신

YOLO 아키텍처는 효율성을 극대화하기 위해 설계된 몇 가지 혁신적인 기술을 기반으로 합니다:

신경 구조 검색(NAS): 이 모델은 MAE-NAS를 활용하여 가장 효율적인 백본 구조를 자동으로 검색하여 GiraffeNet이라는 특징 추출기를 생성합니다. 이 접근 방식은 네트워크 깊이와 폭이 특정 하드웨어 제약 조건에 맞게 최적화되도록 합니다.
RepGFPN 넥: 다중 규모 특징 융합을 처리하기 위해 YOLO 재파라미터화로 강화된 일반화된 특징 피라미드 네트워크(GFPN)를 사용합니다. 이를 통해 빠른 추론 속도를 유지하면서 다양한 규모에 걸쳐 풍부한 정보 흐름이 가능합니다.
제로헤드: 분류와 회귀 작업을 분리하지만 기존의 분리된 헤드에 비해 계산 부담을 크게 줄여주는 경량 감지 헤드입니다.
AlignedOTA: 분류 및 회귀 목표 간의 불일치를 해결하여 모델이 학습 중에 가장 관련성이 높은 샘플로부터 학습하도록 보장하는 새로운 레이블 할당 전략입니다.

강점 및 이상적인 사용 사례

YOLO 실시간 성능이 타협할 수 없는 시나리오에서 탁월한 성능을 발휘합니다. 아키텍처 최적화를 통해 높은 처리량이 필요한 산업용 애플리케이션에 가장 적합한 솔루션입니다.

산업 자동화: 밀리초가 중요한 제조 라인에서 고속으로 결함을 감지하는 데 적합합니다.
스마트 시티 감시: 교통 관리 및 안전 모니터링을 위해 여러 비디오 스트림을 동시에 처리할 수 있습니다.
로보틱스: 시각적 데이터를 즉시 처리하여 자율 로봇이 복잡한 환경을 탐색할 수 있도록 지원합니다.

DAMO-YOLO에 대해 자세히 알아보세요.

욜록스: 닻을 내리지 않는 선구자

욜록스는 앵커 기반 메커니즘에서 벗어나 YOLO 시리즈에서 중요한 전환점을 마련했습니다. Megvii가 개발한 이 제품은 탐지 파이프라인을 단순화하고 일반화를 개선한 앵커 프리 설계를 도입하여 2021년에 성능의 새로운 표준을 세웠습니다.

기술 세부 사항:

작성자: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
조직조직: Megvii
날짜: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:https://github.com/Megvii-BaseDetection/YOLOX
Docs:https://yolox.readthedocs.io/en/latest/

주요 아키텍처 기능

욜록스는 이전 YOLO 버전에서 흔히 발생하는 문제를 해결하는 강력한 디자인 철학으로 차별화됩니다:

Anchor-Free Mechanism: 미리 정의된 anchor boxes를 제거함으로써 YOLOX는 앵커 튜닝의 복잡성을 피하고 휴리스틱 하이퍼파라미터의 수를 줄입니다. 이는 다양한 데이터 세트에서 더 나은 성능으로 이어집니다.
분리형 헤드: 이 모델은 분류와 로컬라이제이션 작업을 별도의 분기로 분리합니다. 이러한 분리는 각 작업이 최적의 기능을 독립적으로 학습할 수 있도록 함으로써 수렴 속도와 정확도를 향상시킵니다.
SimOTA 라벨 할당: 레이블 할당을 최적 전송 문제로 취급하는 고급 전략입니다. SimOTA는 양성 샘플을 기준 진실에 동적으로 할당하여 혼잡한 장면과 폐색을 처리하는 모델의 능력을 향상시킵니다.
강력한 데이터 증강: YOLOX는 모자이크 및 MixUp 같은 기술을 활용하여 견고성을 높이고 훈련 중 과적합을 방지합니다.

강점 및 이상적인 사용 사례

YOLOX는 높은 정확도와 안정성으로 유명하므로 정밀도가 가장 중요한 애플리케이션에 신뢰할 수 있는 선택입니다.

자율 주행: 차량 인식 시스템이 보행자와 장애물을 안전하게 식별하는 데 필요한 고정밀 물체 감지 기능을 제공합니다.
리테일 분석: 복잡한 리테일 환경에서 진열대 모니터링 및 재고 관리를 위한 정확한 감지 기능을 제공합니다.
연구 기준선: 앵커가 필요 없는 깔끔한 구현으로 새로운 탐지 방법론에 대한 학술 연구의 훌륭한 기준이 될 수 있습니다.

YOLOX에 대해 자세히 알아보세요

성능 분석

다음 표는 다양한 모델 규모에 걸쳐 YOLO YOLOX를 직접 비교한 것입니다. 이 메트릭은 COCO 데이터 세트에서 모델 복잡성(매개변수 및 FLOP), 추론 속도, 탐지 정확도mAP) 간의 상충 관계를 강조합니다.

모델	크기 ^(픽셀)	mAP^val 50-95	속도 ^{CPU ONNX (ms)}	속도 ^{T4 TensorRT10 (ms)}	파라미터 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

주요 내용

지연 시간 우위: YOLO 비슷한 정확도 수준에서 GPU 추론 속도 측면에서 YOLOX보다 지속적으로 우수한 성능을 발휘합니다. 예를 들어, DAMO-YOLO는 3.45ms에 46. mAP 달성하는 반면, YOLOXm은 훨씬 더 높은 FLOP으로 46. mAP 도달하는 데 5.43ms가 필요합니다.
효율성: NAS에 최적화된 YOLO 백본은 더 나은 파라미터 효율을 제공합니다.
최고 정확도: 최고 정확도(51. mAP)에 있어서는 여전히 강력한 경쟁자이지만, 높은 계산 비용(281.9억 플롭스)이 발생합니다.
경량 옵션: YOLOX-Nano는 매우 가볍기 때문에(0.91M 매개변수) 리소스 제약이 심한 마이크로컨트롤러에 적합하지만 정확도는 크게 떨어집니다.

GPU 최적화

YOLO 재파라미터화와 효율적인 넥 구조를 많이 사용하므로 특히 다음과 같은 경우에 적합합니다. TensorRT 병렬 연산 기능을 최대한 활용할 수 있는 NVIDIA GPU에 배포하는 데 특히 적합합니다.

Ultralytics 이점

YOLO YOLOX는 강력한 기능을 제공하지만, 특히Ultralytics YOLO 모델, 즉YOLO11-는 최신 컴퓨터 비전 개발을 위한 탁월한 종합 솔루션을 제공합니다. Ultralytics 원시 성능뿐만 아니라 머신 러닝 작업의 전체 라이프사이클을 다루는 에코시스템을 구축해 왔습니다.

왜 Ultralytics 선택해야 할까요?

개발자와 연구자들은 몇 가지 강력한 이유로 점점 더 Ultralytics 모델로 눈을 돌리고 있습니다:

탁월한 사용 편의성: Ultralytics Python API는 단순성을 위해 설계되었습니다. 최첨단 모델을 로드하고 훈련을 시작하려면 몇 줄의 코드만 있으면 되므로 학술 리포지토리에서 흔히 요구하는 복잡한 구성 파일에 비해 진입 장벽이 크게 낮아집니다.
잘 관리된 에코시스템: 정체되는 많은 연구 프로젝트와 달리, Ultralytics 모델은 번성하는 커뮤니티와 활발한 개발로 지원됩니다. 정기적인 업데이트를 통해 최신 PyTorch 버전, 내보내기 형식 및 하드웨어 가속기와의 호환성을 보장합니다.
다용도성: Ultralytics 모델은 바운딩 박스에만 국한되지 않습니다. 기본적으로 단일 프레임워크 내에서 인스턴스 세분화, 포즈 추정, 이미지 분류, OBB(지향 객체 감지) 등 다양한 작업을 지원합니다.
성능 균형: Ultralytics YOLO 모델은 속도와 정확성 사이의 '스위트 스팟'에 도달하도록 설계되었습니다. 이들은 종종 더 높은 mAP 점수를 경쟁사보다 더 높게 달성하는 동시에 CPU와 GPU 모두에서 더 빠른 추론 시간을 유지합니다.
훈련 효율성: 최적화된 데이터 로더와 사전 조정된 하이퍼파라미터를 통해 Ultralytics 모델을 매우 효율적으로 훈련할 수 있습니다. 사용자는 다음에서 사전 학습된 가중치를 활용할 수 있습니다. COCO 에서 사전 학습된 가중치를 활용하여 더 빠르게 컨버전스를 달성하여 귀중한 컴퓨팅 시간과 에너지를 절약할 수 있습니다.
메모리 효율성: Ultralytics 모델은 일반적으로 무거운 트랜스포머 기반 아키텍처나 구형 CNN에 비해 훈련 및 추론 중에 메모리 사용량이 적기 때문에 엣지 디바이스를 포함한 더 다양한 하드웨어에서 액세스할 수 있습니다.

원활한 워크플로 예시

이 Python 예제를 통해 Ultralytics 워크플로우의 단순함을 경험해 보세요:

from ultralytics import YOLO

# Load the YOLO11 model (pre-trained on COCO)
model = YOLO("yolo11n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

YOLO11에 대해 자세히 알아보세요

결론

YOLO YOLOX는 모두 물체 감지의 역사에서 확고한 입지를 다져왔습니다. YOLO 밀리초 단위의 지연 시간이 중요한 특수한 고처리량 GPU 애플리케이션에 탁월한 선택입니다. YOLOX는 연구 커뮤니티에서 잘 알려진 견고하고 정확한 앵커 프리 검출기로 남아 있습니다.

그러나 대부분의 실제 애플리케이션에서는 그렇지 않습니다, Ultralytics YOLO11 이 최고의 선택입니다. 최첨단 성능, 멀티태스크 다용도성, 사용자 친화적이고 잘 관리된 에코시스템의 조합으로 개발자는 강력한 솔루션을 보다 빠르고 효율적으로 구축할 수 있습니다. 클라우드에 배포하든 엣지에 배포하든, Ultralytics 오늘날의 경쟁이 치열한 AI 환경에서 성공하는 데 필요한 도구를 제공합니다.

다른 비교 살펴보기

객체 감지 환경을 더 자세히 이해하려면 이러한 모델이 다른 최신 아키텍처와 어떻게 비교되는지 살펴보세요:

DAMO-YOLO vs. YOLOX: 기술 비교

YOLO: 고속 추론에 최적화됨

아키텍처 및 혁신

강점 및 이상적인 사용 사례

욜록스: 닻을 내리지 않는 선구자

주요 아키텍처 기능

강점 및 이상적인 사용 사례

성능 분석

주요 내용

Ultralytics 이점

왜 Ultralytics 선택해야 할까요?

원활한 워크플로 예시

결론

다른 비교 살펴보기

댓글