RT-DETRv2 YOLOv10: 물체 감지를 위한 기술 비교
최적의 객체 감지 모델을 선택하려면 정확도, 지연 시간, 리소스 소비 간의 균형이 주어진 애플리케이션에 가장 적합한 것을 결정하는 진화하는 아키텍처의 환경을 탐색해야 합니다. 이 기술 비교에서는 다음을 분석합니다. RT-DETRv2와 고정밀 작업을 위해 설계된 트랜스포머 기반 모델인 YOLOv10와 유명한 YOLO 제품군의 효율성에 초점을 맞춘 진화형 모델입니다. 아키텍처 혁신, 성능 메트릭 및 배포 특성을 검토하여 개발자가 특정 요구 사항에 맞는 이상적인 솔루션을 선택할 수 있도록 안내합니다.
RT-DETRv2: 최적화된 비전 트랜스포머
RT-DETRv2 는 원래 CNN 기반 탐지기의 지배력에 도전하기 위해 개발된 실시간 탐지 트랜스포머 시리즈의 중요한 반복입니다. 바이두의 연구원들이 개발한 이 모델은 추가 추론 비용을 들이지 않고도 학습 안정성과 성능을 향상시키기 위해 '백 오브 프리비'를 통합합니다.
- 작성자: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
- 조직조직: Baidu
- 날짜: 2024-07-24
- Arxiv:https://arxiv.org/abs/2407.17140
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
아키텍처 및 강점
RT-DETRv2 하이브리드 인코더와 확장 가능한 비전 트랜스포머(ViT) 백본을 활용합니다. 로컬 수신 필드를 사용하여 이미지를 처리하는 기존의 컨볼루션 신경망(CNN)과 달리, 트랜스포머 아키텍처는 자체 주의 메커니즘을 활용하여 글로벌 컨텍스트를 캡처합니다. 이를 통해 모델은 멀리 떨어진 물체 간의 관계를 효과적으로 식별하고 복잡한 오클루전을 처리할 수 있습니다. "v2"의 개선 사항은 동적 쿼리 선택을 최적화하고 사용자가 속도와 정확도 사이의 균형을 미세 조정할 수 있는 유연한 학습 전략을 도입하는 데 중점을 둡니다.
이 아키텍처는 효과적이기는 하지만 본질적으로 상당한 컴퓨팅 리소스를 필요로 합니다. 셀프 어텐션 레이어는 강력하지만, 순수 CNN 기반 대안에 비해 훈련과 추론 과정에서 메모리 소비가 높습니다.
YOLOv10: 실시간 효율성의 표준
YOLOv10 은 NMS 트레이닝 전략과 전체적인 효율성-정확성 중심의 설계를 도입하여 한 번만 보고 끝내는 패러다임의 한계를 뛰어넘습니다. 칭화대학교 연구진이 개발한 이 솔루션은 경쟁력 있는 탐지 성능을 유지하면서 지연 시간을 최소화하도록 특별히 설계되었습니다.
- 저자: Ao Wang, Hui Chen, Lihao Liu 외
- 조직:조직: 칭화 대학교
- 날짜: 2024-05-23
- Arxiv:https://arxiv.org/abs/2405.14458
- GitHub:https://github.com/THU-MIG/yolov10
아키텍처 및 강점
YOLOv10 가장 큰 특징은 일관된 이중 할당 전략을 통해 비최대 억제(NMS) 를 제거한다는 점입니다. 기존의 객체 감지기는 하나의 객체에 대해 여러 개의 바운딩 박스를 예측하는 경우가 많기 때문에 중복을 걸러내기 위해 NMS 후처리가 필요합니다. 이 단계는 추론 대기 시간에 병목 현상을 일으킵니다. YOLOv10 이러한 요구 사항을 제거하여 진정한 엔드투엔드 배포를 가능하게 합니다.
또한, 이 아키텍처는 공간 채널 디커플링 다운샘플링과 순위 가이드 블록 설계를 통해 파라미터 수와 부동 소수점 연산(FLOP)을 크게 줄여줍니다. 따라서 YOLOv10 매우 가볍고 엣지 AI 디바이스와 같이 리소스가 제약된 환경에 적합합니다.
NMS 추론
NMS 제거하면 실시간 애플리케이션의 판도를 바꿀 수 있습니다. 배포 파이프라인의 복잡성을 줄이고 씬에서 감지된 오브젝트 수에 관계없이 추론 시간이 결정론적으로 유지되도록 합니다.
성능 분석
두 모델을 직접 비교하는 경우, YOLOv10 은 특히 성능 스펙트럼의 높은 끝단에서 속도와 정확도의 균형을 맞추는 데 탁월한 능력을 보여줍니다. RT-DETRv2 강력한 결과를 제공하는 반면, YOLOv10 일관되게 더 낮은 지연 시간을 달성하고 더 적은 수의 매개변수로 비슷하거나 더 나은 mAP (평균 평균 정밀도)를 제공합니다.
아래 표는 COCO 데이터 세트의 성능 메트릭을 강조하고 있습니다. 특히, YOLOv10x는 정확도(54.4% 대 54.3%)에서 RT-DETRv2 능가하는 동시에 훨씬 더 빠르고(12.2ms 대 15.03ms) 훨씬 적은 수의 매개변수(56.9M 대 76M)를 필요로 합니다.
| 모델 | 크기 (픽셀) | mAPval 50-95 | 속도 CPU ONNX (ms) | 속도 T4 TensorRT10 (ms) | 파라미터 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
속도와 효율성
YOLOv10 아키텍처 효율성은 모든 규모에서 분명하게 드러납니다. 나노(n) 및 스몰(s) 버전은 모바일 CPU와 IoT 디바이스에 적합한 초고속 추론 속도를 제공합니다. 예를 들어, YOLOv10n은 T4 GPU 1.56ms로 실행되며, 이는 가장 작은 RT-DETRv2 변형보다 훨씬 빠른 속도입니다.
정확도 대 컴퓨팅
RT-DETRv2 트랜스포머 백본을 활용하여 특히 중소형 모델 크기에서 높은 정확도를 달성합니다. 그러나 이는 FLOP과 파라미터 수가 상당히 증가하는 대가를 치릅니다. YOLOv10 이 격차를 효율적으로 해소하며, 더 큰 YOLOv10 모델은 더 낮은 계산 공간을 유지하면서 트랜스포머 모델과 일치하거나 그 정확도를 능가하므로 다양한 하드웨어에 더 다양하게 활용할 수 있습니다.
학습, 사용성 및 생태계
개발자를 위한 중요한 차별화 요소는 교육 및 배포의 용이성입니다. Ultralytics 에코시스템은 YOLOv10 같은 모델 작업을 획기적으로 간소화하는 통합 인터페이스를 제공합니다.
사용 편의성
RT-DETRv2 훈련에는 복잡한 구성 파일과 트랜스포머 아키텍처에 맞춘 특정 환경 설정이 필요한 경우가 많습니다. 반면, YOLOv10 Ultralytics Python API에 직접 통합되어 있어 사용자가 몇 줄의 코드만으로 훈련, 검증 또는 추론을 시작할 수 있습니다.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
메모리 요구 사항
RT-DETRv2 같은 트랜스포머 기반 모델은 메모리 집약적인 것으로 알려져 있습니다. 자체 주의 메커니즘은 시퀀스 길이에 따라 4제곱으로 확장되므로 훈련 중에 높은 VRAM 사용량을 초래합니다. 최적화된 CNN 아키텍처를 갖춘 YOLOv10 훨씬 적은 CUDA 메모리를 필요로 하므로 사용자는 더 큰 배치 크기를 훈련하거나 더 적은 하드웨어를 사용할 수 있습니다.
잘 관리된 에코시스템
Ultralytics 모델을 선택하면 강력한 에코시스템에 액세스할 수 있습니다. 여기에는 지속적인 업데이트, 광범위한 문서화, Ultralytics HUB와 같은 MLOps 도구 및 다양한 내보내기 형식ONNX, TensorRT, CoreML)과의 원활한 통합이 포함됩니다. 이러한 지원 구조는 프로젝트를 연구 단계에서 생산 단계로 효율적으로 옮기는 데 매우 유용합니다.
이상적인 사용 사례
RT-DETRv2
- 학술 연구: 비전 작업에서 트랜스포머 기능을 연구하고 최첨단 방법과 벤치마킹하는 데 이상적입니다.
- 하이엔드 서버 배포: 하드웨어 리소스가 풍부하고 상세한 의료 이미지 분석과 같이 트랜스포머 주의도 맵의 특정 특성이 유용한 시나리오에 적합합니다.
YOLOv10
- 실시간 엣지 AI: 지연 시간이 짧고 모델 크기가 작아 트래픽 관리와 같은 작업을 위해 NVIDIA Jetson 또는 Raspberry Pi와 같은 엣지 디바이스에 배포하는 데 적합합니다.
- 로봇 공학: NMS 설계는 자율 로봇의 제어 루프에 필요한 결정론적 지연 시간을 제공합니다.
- 상업용 애플리케이션: 리테일 분석부터 안전 모니터링까지, 속도와 정확성의 균형을 통해 하드웨어 비용을 절감하여 ROI를 극대화합니다.
결론
동안 RT-DETRv2 는 인상적인 정확도로 물체 감지 분야에서 트랜스포머의 잠재력을 보여줍니다, YOLOv10 은 대부분의 실제 애플리케이션에서 보다 실용적이고 다양한 용도로 사용할 수 있는 솔루션으로 부상하고 있습니다. 훨씬 낮은 연산 요구 사항으로 최첨단 성능을 제공하는 이 솔루션은 Ultralytics 에코시스템이 제공하는 사용 편의성과 결합되어 효율성과 확장성을 목표로 하는 개발자에게 탁월한 솔루션이 될 수 있습니다.
컴퓨터 비전 기술의 절대적인 최신 기술을 찾는 분들을 위해 다음을 살펴보는 것도 좋습니다. YOLO11는 세분화 및 포즈 추정 등 광범위한 작업에서 훨씬 더 빠른 속도와 정확도를 위해 아키텍처를 더욱 개선한 제품입니다.
다른 모델 살펴보기
이러한 추가 비교를 통해 객체 감지 환경에 대한 이해의 폭을 넓혀보세요: