YOLOv7과 RTDETRv2: 상세 모델 비교
컴퓨터 비전 프로젝트에서 올바른 물체 감지 모델을 선택하는 것은 매우 중요합니다. 이 페이지에서는 정보에 입각한 결정을 내리는 데 도움이 되는 두 가지 최신 모델인 YOLOv7과 RTDETRv2의 기술적 비교를 제공합니다. 두 모델의 아키텍처 차이점, 성능 지표, 이상적인 애플리케이션에 대해 자세히 살펴봅니다.
모델 | 크기 (픽셀) |
mAPval 50-95 |
속도 CPU ONNX (ms) |
속도 T4TensorRT10 (ms) |
매개변수 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: 실시간 효율성 전문가
대만 학술원 정보과학연구소의 왕치엔야오, 알렉세이 보흐코브스키, 홍위안 마크 리아오가 2022년 7월에 발표한 YOLOv7은 물체 감지 작업의 속도와 효율성이 뛰어나다는 평가를 받고 있습니다. 이 모델은 정확도를 크게 떨어뜨리지 않으면서도 빠른 추론을 우선시하는 기존 YOLO 모델의 아키텍처를 개선했습니다.
아키텍처 및 주요 기능
YOLOv7의 아키텍처는 컨볼루션 신경망(CNN)을 기반으로 구축되었으며 최적화된 성능을 위해 몇 가지 주요 기능을 통합하고 있습니다:
- E-ELAN(확장된 효율적인 계층 집계 네트워크): 특징 추출 효율을 향상시켜 모델이 더 효과적으로 학습할 수 있도록 합니다.
- 모델 스케일링: 복합 스케일링 기술을 사용하여 모델 깊이와 너비를 조정하여 다양한 컴퓨팅 리소스와 성능 요구 사항에 맞게 유연하게 조정할 수 있습니다.
- 보조 헤드 훈련: 학습 중에 보조 손실 헤드를 사용하여 네트워크 학습을 심화시키고 전반적인 정확도를 개선합니다.
이러한 아키텍처 선택 덕분에 YOLOv7은 속도와 정확성 사이의 강력한 균형을 달성할 수 있어 실시간 애플리케이션에 적합합니다. 자세한 내용은 Arxiv의 YOLOv7 논문과 공식 YOLOv7 GitHub 리포지토리를 참조하세요.
성능 지표
YOLOv7은 짧은 지연 시간이 중요한 시나리오에서 탁월한 성능을 발휘하도록 설계되었습니다. 성능은 다음과 같은 특징이 있습니다:
- mAPval50-95: COCO 데이터 세트에서 최대 53.1%의 mAP를 달성합니다.
- 추론 속도(T4 TensorRT10): 6.84ms의 빠른 속도로 실시간 처리가 가능합니다.
- 모델 크기(매개변수): 36.9M 매개변수부터 시작하여 효율적인 배포를 위한 컴팩트한 모델 크기를 제공합니다.
사용 사례 및 강점
YOLOv7은 특히 리소스가 제한된 디바이스에서 실시간 객체 감지가 필요한 애플리케이션에 적합합니다:
- 로보틱스: 로봇 탐색 및 상호 작용을 위한 빠른 인식 제공.
- 감시: 보안 시스템에서 실시간 모니터링 및 분석을 지원합니다. YOLOv8 보안 경보 시스템을 강화하는 방법을 알아보세요.
- 엣지 디바이스: 컴퓨팅 성능이 제한된 엣지 디바이스(예: NVIDIA Jetson 또는 Raspberry Pi)에 배포합니다.
빠른 속도와 상대적으로 작은 모델 크기로 다양한 하드웨어 플랫폼에 배포할 수 있는 것이 주요 강점입니다. YOLOv7의 아키텍처와 기능에 대한 자세한 내용은 YOLOv7 문서에서 확인하세요.
RTDETRv2: 변압기 효율을 통한 정확도 향상
2024년 7월, Baidu의 Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu가 소개한 RTDETRv2(실시간 감지 트랜스포머 버전 2)는 객체 감지를 위해 비전 트랜스포머(ViT) 를 통합하여 다른 접근 방식을 취하고 있습니다. YOLO CNN 기반과 달리 RTDETRv2는 트랜스포머를 활용하여 글로벌 이미지 컨텍스트를 캡처하므로 실시간 성능을 유지하면서 잠재적으로 더 높은 정확도를 이끌어낼 수 있습니다.
아키텍처 및 주요 기능
RTDETRv2의 아키텍처는 다음과 같이 정의됩니다:
- 비전 트랜스포머(ViT) 백본: 트랜스포머 인코더를 사용하여 전체 이미지를 처리하고 복잡한 장면을 이해하는 데 중요한 장거리 종속성을 캡처합니다.
- 하이브리드 CNN 특징 추출: 초기 특징 추출을 위한 CNN을 트랜스포머 레이어와 결합하여 글로벌 컨텍스트를 효과적으로 통합합니다.
- 앵커 프리 탐지: 사전 정의된 앵커 박스가 필요하지 않아 탐지 프로세스가 간소화되고, 모델 유연성이 향상되며, 복잡성이 감소합니다.
이 트랜스포머 기반 설계를 통해 RTDETRv2는 특히 복잡하고 어수선한 환경에서 뛰어난 정확도를 달성할 수 있습니다. 비전 트랜스포머에 대한 자세한 내용은 비전 트랜스포머(ViT) 용어집 페이지에서 확인할 수 있습니다. RTDETRv2 논문은 Arxiv에서 확인할 수 있으며, 공식 GitHub 리포지토리에서 구현 세부 사항을 확인할 수 있습니다.
성능 지표
RTDETRv2는 경쟁력 있는 속도를 유지하면서 정확성을 우선시하며 다음과 같은 성능 지표를 제공합니다:
- mAPval50-95: 최대 54.3%의 mAPval50-95를 달성하여 물체 감지 시 높은 정확도를 보여줍니다.
- 추론 속도(T4 TensorRT10): 5.03ms부터 시작하여 적절한 하드웨어에서 실시간 기능을 보장합니다.
- 모델 크기(매개변수): 20M 매개변수부터 시작하여 다양한 배포 요구 사항에 맞는 다양한 모델 크기를 제공합니다.
사용 사례 및 강점
RTDETRv2는 높은 정확도가 가장 중요하고 계산 리소스를 사용할 수 있는 애플리케이션에 이상적입니다:
- 자율주행 차량: 안전한 주행을 위해 안정적이고 정확한 환경 인식을 제공합니다. 자율 주행 차량의 AI와 관련 애플리케이션에 대해 알아보세요.
- 의료 영상: 의료 이미지에서 정확한 이상 징후를 감지하여 진단 및 치료 계획을 지원합니다. 의료 분야 에서의 AI에 대해 자세히 알아보세요.
- 고해상도 이미지 분석: 위성 이미지 분석이나 산업 검사 등 대용량 이미지에 대한 상세한 분석이 필요한 작업.
RTDETRv2의 강점은 강력한 특징 추출과 높은 정확도를 가능하게 하는 트랜스포머 아키텍처에 있으며, 복잡한 탐지 작업에 탁월합니다. 자세한 내용은 RT-DETR GitHub README에서 확인할 수 있습니다.
결론
YOLOv7과 RTDETRv2는 각각 고유한 강점을 지닌 강력한 물체 감지 모델입니다. YOLOv7은 속도와 효율성이 요구되는 실시간 애플리케이션에서 탁월한 성능을 발휘하는 반면, RTDETRv2는 트랜스포머 기반 아키텍처를 통해 정확성을 우선시합니다. 시간에 민감한 작업을 위한 속도 또는 상세한 분석을 위한 정확도 등 프로젝트의 특정 요구 사항에 맞게 선택해야 합니다.
다른 비교 및 모델에 대해서도 관심을 가질 수 있습니다: