YOLO YOLOv8: 기술 심층 분석
물체 감지의 환경은 끊임없이 진화하고 있으며, 연구자와 엔지니어들은 속도, 정확성, 계산 효율성이라는 상반된 요구 사이에서 균형을 맞추기 위해 노력하고 있습니다. 컴퓨터 비전 커뮤니티에서 큰 파장을 일으킨 두 가지 대표적인 아키텍처는 알리바바 그룹에서 개발한 YOLOYOLOv8와 Ultralytics.
이 기술 비교에서는 두 모델의 아키텍처 혁신, 성능 메트릭, 실제 사용성을 살펴봅니다. YOLO 신경망 아키텍처 검색(NAS)과 같은 새로운 연구 개념을 도입한 반면, Ultralytics YOLOv8 교육부터 배포까지 워크플로우를 간소화하는 강력하고 사용자 친화적인 에코시스템을 제공하는 데 중점을 둡니다.
성능 분석: 속도 및 정확도
실제 시나리오에서 이러한 모델이 어떻게 비교되는지 이해하기 위해 표준 COCO 데이터 세트에서 성능을 분석합니다. 아래 메트릭은 평균 평균 정밀도mAP, 다양한 하드웨어에서의 추론 속도, 모델 복잡성 간의 상충 관계를 강조합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
주요 내용
데이터는 배포 대상에 따라 뚜렷한 이점을 보여줍니다:
- 엣지 성능: 에지 성능 YOLOv8n (나노) 모델은 리소스가 제한된 환경을 위한 확실한 리더입니다. 단 320만 개의 파라미터와 8.7B FLOPs로 CPU GPU 모두에서 가장 빠른 추론 속도를 달성합니다. 따라서 메모리와 전력이 부족한 모바일 애플리케이션이나 IoT 기기에 이상적입니다.
- 최고의 정확도: 정밀도가 가장 중요한 애플리케이션에 적합합니다, YOLOv8x 는 53.9%의 가장 높은 mAP 달성합니다. YOLO 모델도 성능이 우수하지만, 가장 큰 YOLOv8 변형은 감지 정확도의 한계를 더욱 확장합니다.
- 레이턴시 트레이드오프: YOLO NAS에 최적화된 백본에 의해 구동되는 전용 GPU(예: T4)에서 인상적인 처리량을 보여줍니다. 그러나 Ultralytics YOLOv8 CPU를 비롯한 다양한 하드웨어에서 우수한 균형을 유지하여 보다 폭넓은 배포 유연성을 보장합니다.
YOLO: 연구 중심의 혁신
YOLO 알리바바 그룹의 연구 이니셔티브의 산물입니다. 이 이름은 '발견, 모험, 모멘텀, 전망'의 약자로, 새로운 건축의 경계를 탐구하는 데 초점을 맞추고 있습니다.
저자 저자: Xianzhe Xu, 이치 장, 웨이화 첸, 일룬 황, 위안 장, 시우위 선
조직:알리바바 그룹
날짜: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO
건축 하이라이트
YOLO 지연 시간과 정확도 사이의 균형을 최적화하기 위해 몇 가지 고급 기술을 통합합니다:
- MAE-NAS 백본: 신경 구조 검색(NAS)을 활용하여 효율적인 네트워크 구조를 자동으로 발견하며, 특히 MAE-NAS라는 방법을 활용합니다.
- RepGFPN 목: 고도로 매개변수화된 일반화된 특징 피라미드 네트워크(GFPN)를 사용하여 다양한 스케일 레벨 간의 정보 흐름을 극대화하여 다양한 거리의 물체 감지를 개선합니다.
- 제로헤드: 이 모델은 무거운 목의 균형을 맞추기 위해 가벼운 '제로헤드'를 사용하여 최종 감지 단계에서 계산 부담을 줄입니다.
- AlignedOTA: 학습 중에 분류 및 회귀 작업을 정렬하여 모델이 보다 효과적으로 수렴하도록 돕는 동적 라벨 할당 전략입니다.
Ultralytics YOLOv8: 에코시스템 표준
YOLOv8 사용성, 다용도성, 최첨단 성능에 중점을 두고 YOLO 아키텍처를 개선한 제품입니다. 순수 연구용 모델과 달리 YOLOv8 개발자를 위한 제품으로 설계되어 잘 관리된 에코시스템과 통합의 용이성을 강조합니다.
저자 저자: 글렌 조처, 아유시 차우라시아, 징 치우
조직:Ultralytics
날짜: 2023-01-10
문서:Ultralytics YOLOv8
아키텍처의 강점
- 앵커 프리 감지: YOLOv8 앵커 박스를 제거하여 개발자가 조정해야 하는 하이퍼파라미터의 수를 줄이고 훈련 프로세스를 간소화합니다.
- C2f 모듈: 이 아키텍처는 C3 모듈을 C2f로 대체하여 가벼운 설치 공간을 유지하면서 더 풍부한 기울기 흐름 정보를 제공합니다.
- 분리된 헤드: 헤드에서 분류와 회귀 작업을 분리하여 모델이 더 높은 위치 정확도를 달성합니다.
- 통합 프레임워크: 가장 강력한 아키텍처 특징은 단일 코드베이스 내에서 인스턴스분할, 포즈 추정, 분류, OBB(방향성 객체 감지)등 여러 비전 작업을 기본적으로 지원한다는 점입니다.
알고 계셨나요?
Ultralytics 다음과 같은 최적화된 포맷으로 모델을 내보낼 수 있는 원활한 경로를 제공합니다. ONNX, TensorRT, CoreML및 OpenVINO. 이 내보내기 기능을 사용하면 학습된 모델을 거의 모든 하드웨어 플랫폼에서 효율적으로 실행할 수 있습니다.
사용성 및 개발자 경험
두 모델 간의 가장 큰 차이점은 사용 편의성과 주변 에코시스템에 있습니다.
Ultralytics YOLO 모델은 '제로 투 히어로' 경험으로 유명합니다. 개발자는 간단한 PIP 설치만으로 강력한 CLI Python API에 액세스할 수 있습니다. 따라서 복잡한 환경 설정이 필요한 리서치 리포지토리에 비해 진입 장벽이 크게 낮아집니다.
교육 효율성
Ultralytics 모델은 훈련 효율성을 위해 설계되었습니다. CUDA 메모리를 효율적으로 활용하여 배치 크기를 늘리거나 소비자용 GPU에서 훈련할 수 있습니다. 또한 고품질의 사전 훈련된 가중치를 사용할 수 있어 컨버전스를 가속화하여 귀중한 컴퓨팅 시간과 에너지를 절약할 수 있습니다.
다음은 단 세 줄의 Python YOLOv8 모델을 로드하고 예측하는 방법에 대한 실행 가능한 완전한 예제입니다:
from ultralytics import YOLO
# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")
# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
for result in results:
result.show()
반면, YOLO 강력한 성능을 제공하지만 일반적으로 더 많은 수동 구성과 연구용 프레임워크에 대한 친숙함이 필요하므로 신속한 프로토타이핑이나 상업적 통합에는 접근성이 떨어집니다.
결론 결론: 올바른 도구 선택하기
YOLO YOLOv8 모두 컴퓨터 비전 분야에서 뛰어난 업적입니다.
YOLO 신경 아키텍처 검색에 관심이 있는 연구자나 사용자 정의 백본이 완전히 최적화된 하드웨어에 특별히 배포하는 연구자에게 탁월한 선택입니다.
하지만 대부분의 개발자, 연구자 및 기업에게는 그렇지 않습니다, Ultralytics YOLOv8 (및 최신 YOLO11)은 뛰어난 가치 제안을 제공합니다:
- 다목적성: 하나의 프레임워크에서 감지, 세분화, 포즈, OBB를 처리할 수 있습니다.
- 사용 편의성: 타의 추종을 불허하는 문서, 간단한 API, 강력한 커뮤니티 지원.
- 배포: 내보내기 모드에 대한 광범위한 지원은 휴대폰에서 클라우드 서버에 이르기까지 모든 것을 포괄합니다.
- 성능 균형: 특히 CPU 및 엣지 디바이스에서 뛰어난 속도 대비 정확도 비율을 제공합니다.
최신 트렌드를 놓치지 않으려는 분들을 위해 다음을 확인해 보시기 바랍니다. YOLO11의 강점을 바탕으로 효율성과 정확성을 더욱 높인 YOLOv8 추천합니다.
다른 모델 비교 살펴보기
컴퓨터 비전 프로젝트에 대해 가장 현명한 결정을 내릴 수 있도록 다음과 같은 추가 세부 비교 정보를 살펴보세요: