YOLOv9 RTDETRv2: 객체 감지를 위한 기술 비교
올바른 객체 감지 아키텍처를 선택하는 것은 컴퓨터 비전 개발에서 중요한 결정이며, 개발자는 종종 정밀도, 추론 지연 시간 및 계산 오버헤드 간의 절충점을 비교해야 합니다. 이 분석에서는 다음과 같은 종합적인 기술 비교를 제공합니다. YOLOv9과 고충실도 감지를 위해 설계된 트랜스포머 기반 모델인 RTDETRv2를 종합적으로 비교합니다.
YOLOv9: CNN 효율성의 재정의
YOLOv9 은 심층 신경망에 내재된 정보 병목 문제를 해결하는 데 중점을 둔YOLOYou Only Look Once) 시리즈에서 크게 진화한 제품입니다. 새로운 아키텍처 개념을 도입하여 YOLO 제품군의 특징인 가벼운 설치 공간을 유지하면서 최첨단 성능을 달성했습니다.
- 저자: Chien-Yao Wang, Hong-Yuan Mark Liao
- 조직:기관: 대만 학술원 정보 과학 연구소
- 날짜: 2024-02-21
- Arxiv:arXiv:2402.13616
- GitHub:WongKinYiu/yolov9
- 문서:Ultralytics YOLOv9 문서
핵심 아키텍처
YOLOv9 두 가지 주요 혁신이 도입되었습니다: 프로그래밍 가능한 그라디언트 정보(PGI) 와 일반화된 효율적인 레이어 집계 네트워크(GELAN)입니다. PGI는 딥 레이어를 통해 전파되는 데이터 정보 손실 문제를 해결하여 모델 업데이트를 위해 신뢰할 수 있는 그라데이션 정보가 보존되도록 합니다. GELAN은 매개변수 활용을 최적화하여 기존 컨볼루션 아키텍처에 비해 더 적은 부동소수점 연산(FLOP)으로 더 높은 정확도를 달성할 수 있습니다.
Ultralytics 에코시스템 통합
YOLOv9 Ultralytics 에코시스템에 완전히 통합되어 개발자가 교육, 검증 및 배포 도구에 원활하게 액세스할 수 있도록 합니다. 이러한 통합을 통해 사용자는 다음과 같은 간단한 API를 활용할 수 있습니다. YOLO11 및 YOLOv8에 사용된 것과 동일한 간단한 API를 활용할 수 있어 고급 컴퓨터 비전 작업에 대한 진입 장벽이 크게 낮아집니다.
RTDETRv2: 트랜스포머 챌린저
RTDETRv2는 실시간 감지 트랜스포머RT-DETR의 성공을 기반으로 동적 스케일 처리와 훈련 안정성을 향상시키기 위해 기준선을 개선했습니다. 트랜스포머 기반 모델로서 자체 주의 메커니즘을 활용하여 글로벌 컨텍스트를 캡처하므로 복잡한 장면에서 객체를 구별하는 데 유리할 수 있습니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2024-07-24
- Arxiv:arXiv:2407.17140
- GitHub:RT-DETR 깃허브 리포지토리
핵심 아키텍처
로컬 패치에서 이미지를 처리하는 CNN과 달리 RTDETRv2는 트랜스포머 백본을 사용하여 이미지 특징을 처리합니다. 이 접근 방식을 통해 모델은 이미지의 멀리 떨어진 부분 간의 관계를 이해할 수 있으므로 복잡한 환경에서 정확도를 향상시킬 수 있습니다. 그러나 이 전역 주의 메커니즘은 일반적으로 특히 훈련 중에 메모리와 계산 비용이 더 많이 듭니다.
성능 비교
다음 데이터는 COCO 데이터 세트에서 다양한 모델 크기의 성능 메트릭을 강조합니다. 이 비교는 평균 정밀도mAP, 추론 속도, 계산 복잡성에 중점을 두고 있습니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
메트릭 분석
- 최고 정확도: YOLOv9e 모델은 55.6%의 mAP 달성하여 가장 큰 RTDETRv2-x 모델(54.3% mAP)을 능가하는 놀라운 성과를 거두었습니다. 이는 YOLOv9 아키텍처 혁신이 CNN과 트랜스포머 간의 격차를 효과적으로 좁히고 심지어 최고 수준의 정확도까지 뛰어넘는다는 것을 보여줍니다.
- 효율성: YOLOv9 파라미터당 지속적으로 더 높은 성능을 제공합니다. 예를 들어, YOLOv9c는 25.3M개의 파라미터와 102.1B FLOPs만으로 53.0%의 mAP 달성하는 반면, 동급의 RTDETRv2-l은 42M개의 파라미터와 136B FLOPs가 있어야 53.4%의 mAP 도달할 수 있습니다. 이러한 효율성 덕분에 YOLOv9 훨씬 더 가볍게 저장하고 더 빠르게 실행할 수 있습니다.
- 추론 속도: 실시간 애플리케이션에서는 속도가 매우 중요합니다. YOLOv9 같은 더 작은 YOLOv9 변형은 지연 시간이 매우 짧기 때문에( TensorRT 2.3ms) RTDETRv2 모델이 너무 무거울 수 있는 엣지 AI 배포에 이상적입니다.
교육 효율성 및 에코시스템
개발자에게 가장 중요한 요소 중 하나는 사용자 지정 데이터 세트에서 모델을 미세 조정하는 데 필요한 교육 및 리소스의 용이성입니다.
메모리 요구 사항
RTDETRv2와 같은 트랜스포머 기반 모델은 자기 주의 메커니즘의 복잡성으로 인해 훈련 중 메모리 소모가 많은 것으로 악명이 높습니다. 따라서 대용량 VRAM을 갖춘 하이엔드 엔터프라이즈 GPU가 필요한 경우가 많습니다. 이와는 대조적으로 YOLOv9 은 CNN의 메모리 효율을 유지하여 소비자용 하드웨어에서도 훈련할 수 있습니다. 이처럼 진입 장벽이 낮기 때문에 최첨단 객체 감지에 대한 접근이 대중화됩니다.
Ultralytics 이점
Ultralytics 에코시스템 내에서 모델을 선택하면 원시 성능 메트릭 이상의 뚜렷한 이점을 얻을 수 있습니다:
- 사용의 용이성: Ultralytics Python API는 복잡한 교육 루프를 몇 줄의 코드로 추상화합니다.
- 잘 관리된 에코시스템: 잦은 업데이트를 통해 최신 PyTorch 버전, 내보내기 형식ONNX, TensorRT, CoreML) 및 하드웨어 드라이버와의 호환성을 보장합니다.
- 다용도성: RTDETRv2는 주로 오브젝트 디텍터이지만, Ultralytics 프레임워크는 모델 제품군 전반에서 인스턴스 분할, 포즈 추정, 방향성 경계 상자(OBB) 감지 등 다양한 작업을 지원합니다.
코드 예제
YOLOv9 훈련은 Ultralytics 패키지를 사용하면 간단합니다. 다음 코드 스니펫은 사전 학습된 모델을 로드하고 사용자 지정 데이터 집합에서 학습하는 방법을 보여 줍니다:
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
내보내기 기능
Ultralytics 모델을 다양한 형식으로 쉽게 내보내 배포할 수 있습니다. 예를 들어, 더 폭넓은 호환성을 위해 ONNX 내보낼 수 있습니다:
model.export(format="onnx")
이상적인 사용 사례
YOLOv9 선택해야 할 때
특히 속도, 정확성, 리소스 효율성의 균형이 필요한 대부분의 컴퓨터 비전 애플리케이션에YOLOv9 권장합니다.
- 엣지 배포: NVIDIA 젯슨이나 라즈베리 파이와 같은 디바이스는 YOLOv9 낮은 FLOP과 파라미터 수의 이점을 누릴 수 있습니다.
- 실시간 비디오 분석: 보안 피드와 트래픽 모니터링 시스템에는 YOLOv9 제공하는 높은 프레임 속도가 필요합니다.
- 리소스가 제한된 훈련: 대규모 GPU 클러스터에 액세스할 수 없는 팀도 최첨단 모델을 미세 조정할 수 있습니다.
RTDETRv2를 고려해야 하는 경우
RTDETRv2는 틈새 시나리오에 적합합니다:
- 글로벌 컨텍스트가 중요합니다: 오클루전이 높거나 멀리 떨어진 픽셀의 컨텍스트가 분류에 꼭 필요한 장면.
- 하드웨어는 무제한입니다: 메모리 및 컴퓨팅 제약이 무시할 수 있는 서버급 GPU에 배포할 수 있습니다.
- 앵커 프리 선호: 앵커가 없는 순수 트랜스포머 기반 아키텍처를 실험하고자 하는 연구자.
결론
RTDETRv2가 물체 감지에서 트랜스포머의 잠재력을 보여준다면, 대부분의 개발자와 연구자에게는 YOLOv9 실용적인 선택으로 떠오르고 있습니다. 훨씬 더 나은 효율성, 낮은 메모리 사용량, 빠른 추론 속도와 함께 더 높은 최고 정확도(55.6% mAP)를 제공합니다. 강력한 지원, 방대한 문서, 사용 편의성을 제공하는 Ultralytics 에코시스템과 결합하면 YOLOv9 프로토타입에서 프로덕션까지 더욱 간소화된 경로를 제공합니다.
컴퓨터 비전 기술의 최신 기술을 살펴보고 싶다면 다음을 확인해 보시기 바랍니다. YOLO11를 통해 속도와 정확성의 한계를 한층 더 넓혀보세요.
다른 모델 살펴보기
- YOLO11: 세분화 및 포즈 추정 등 다양한 작업에 최적화된 YOLO 시리즈의 최신 버전입니다.
- YOLOv8: 안정성과 광범위한 커뮤니티 지원으로 유명한 매우 인기 있고 다재다능한 모델입니다.
- RT-DETR: Ultralytics 프레임워크 내에서 원래 실시간 탐지 트랜스포머 구현을 살펴보세요.