YOLO . RTDETRv2: Gerçek Zamanlı Algılama Mimarileri
Optimum nesne algılama mimarisini seçmek, çıkarım gecikmesinden dağıtım maliyetlerine kadar her şeyi etkileyen çok önemli bir karardır. Mevcut durumu sorgulayan iki yenilikçi model, Alibaba'nın YOLO ve Baidu'nun RTDETRv2'dir.YOLO , Sinirsel Mimari Arama (NAS) ve verimli yeniden parametreleştirmeyeYOLO , RTDETRv2, DETR paradigmasını iyileştirerek gerçek zamanlı dönüştürücülerin sınırlarını zorlamaktadır.
Bu kılavuz, mimarileri, performans ölçütleri ve eğitim metodolojileri hakkında derinlemesine teknik analizler sunarak, bilgisayar görme gereksinimlerinize en uygun modeli belirlemenize yardımcı olur. Ayrıca, yeni nesil Ultralytics 'nin bu yaklaşımların en iyilerini tek bir, kullanımı kolay çerçeve içinde nasıl sentezlediğini de inceliyoruz.
DAMO-YOLO'ya Genel Bakış
YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO), düşük gecikme süresi ve yüksek doğruluğun vazgeçilmez olduğu endüstriyel uygulamaların özel ihtiyaçlarını karşılamak için Alibaba Group tarafından geliştirilmiştir. Performanstan ödün vermeden modeli sıkıştırmak için tasarlanmış bir dizi teknoloji sunar.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:DAMO-YOLO Makalesi
GitHub:tinyvision/DAMO-YOLO
YOLO26 hakkında daha fazla bilgi edinin
Temel Mimari Yenilikler
YOLO , verimlilik için özel olarak tasarlanmış çeşitli "ücretsiz hediye paketleri" ileYOLO :
- Sinir Mimarisi Arama (NAS): Manuel olarak tasarlanmış omurgalara sahip modellerden farklı olarak,YOLO , backbone için en verimli yapıyı otomatik olarak keşfetmek için NAS'ıYOLO backbone MAE-NAS) ve kayan nokta işlemleri (FLOP'lar) ile doğruluk arasındaki dengeyi optimize eder.
- Verimli RepGFPN: Yeniden parametrelendirmeyi kullanan genelleştirilmiş Özellik Piramidi Ağı (RepGFPN) kullanır. Bu, eğitim sırasında kullanılan karmaşık yapıların, çıkarım sırasında daha basit ve daha hızlı konvolüsyonlarla birleştirilmesini sağlar.
- ZeroHead: Son tahmin katmanlarıyla genellikle ilişkili olan hesaplama yükünü en aza indiren hafif bir algılama kafası.
- AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluk sorunlarını çözen optimize edilmiş bir etiket atama stratejisi.
RTDETRv2 Genel Bakış
RTDETRv2 (Real-Time Detection Transformer v2), hız açısından YOLO gerçekten rakip olan ilk transformatör tabanlı dedektör olan orijinal RT-DETR başarısını temel alır. Baidu tarafından geliştirilen bu teknoloji, yakınsama hızını ve esnekliği artırırken, Non-Maximum Suppression (NMS) son işlemine olan ihtiyacı ortadan kaldırmayı amaçlamaktadır.
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 17 Nisan 2023 (v1), Temmuz 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
RT-DETR hakkında daha fazla bilgi edinin
Temel Mimari Yenilikler
RTDETRv2, pratik görme görevleri için transformatör mimarisini iyileştirir:
- Hibrit Kodlayıcı: CNN backbone , ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayıran verimli bir hibrit kodlayıcı backbone birleştirerek, standart öz-dikkat mekanizmalarının yüksek hesaplama maliyetini ortadan kaldırır.
- IoU sorgu seçimi: Bu mekanizma, Birleşim Üzerine Kesişim (IoU) puanlarına göre yüksek kaliteli ilk nesne sorguları seçerek daha hızlı eğitim yakınsamasına yol açar.
- Esnek Dağıtım: Önceki sürümden farklı olarak, RTDETRv2 esnek giriş şekillerini ve TensorRTiçin geliştirilmiş optimizasyonu destekler, bu da onu çeşitli donanım arka uçları için daha uygun hale getirir.
- NMS: Bir dizi nesneyi doğrudan tahmin ederek, NMS neden olduğu gecikme varyansını ortadan kaldırır; bu, gerçek zamanlı video analizi için kritik bir avantajdır.
Performans Karşılaştırması
Bu mimarileri karşılaştırırken, farklı donanım yapılandırmaları arasında ortalama hassasiyet (mAP) ve çıkarım hızı arasındaki dengeyi incelemek çok önemlidir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analiz
- Doğruluk: RTDETRv2 genellikle daha yüksek mAP elde eder, özellikle orta ve büyük varyantlarda. "X" modeli, en büyükYOLO geride bırakarak etkileyici bir %54,3 mAP ulaşır. Bu, onu tıbbi görüntüleme veya kusur tespiti gibi yüksek doğruluk gerektiren uygulamalar için uygun hale getirir.
- Hız:YOLO , TensorRT optimize edilmiş donanımda ham verimlilikte mükemmeldir. Yeniden parametrelendirilmiş CNN mimarisi, RTDETRv2'deki dönüştürücü bloklarından doğal olarak daha donanım dostudur, bu da "Tiny" ve "Small" varyantları için daha düşük gecikme süresi sağlar.
- Parametre Verimliliği:YOLO , benzer performans kademeleri için daha az parametreye sahip olmaYOLO , bu da depolama alanı kısıtlı uç cihazlar için avantajlı olabilir.
Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?
YOLO RTDETRv2 özel güçlü yönler sunarken, geliştiriciler genellikle karmaşık eğitim süreçleri, sınırlı platform desteği ve parçalı dokümantasyon gibi zorluklarla karşılaşmaktadır. Ultralytics , en son yenilikleri sorunsuz, kullanıcı odaklı bir ekosisteme entegre ederek bu sorunları çözmektedir.
Entegre Mükemmellik
YOLO26, CNN'lerin hızını transformatörlerin uçtan uca basitliği ile birleştirerek, dağıtımı basitleştiren ve hem CPU GPU önceki modellerden daha üstün performans gösteren NMS bir tasarım sunar.
1. Üstün Kullanıcı Deneyimi ve Ekosistem
Ultralytics ayırt edici özelliği şudur: kullanım kolaylığı. Araştırma veri depoları genellikle karmaşık ortam kurulumları gerektirirken, YOLO26 birkaç saniye içinde kurulup çalıştırılabilir. ultralytics paket. Ultralytics Platform web tabanlı veri seti yönetimi, tek tıklamayla eğitim ve otomatik dağıtım sağlayarak bunu daha da geliştirir.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. Uçtan Uca NMS Mimari
YOLO26, RTDETRv2 ile ortak bir özellik olan, yerel uçtan uca NMS tasarımı benimser, ancak bunu yüksek düzeyde optimize edilmiş bir CNN çerçevesi içinde uygular. Bu çığır açan gelişme, dağıtım süreçlerinde sıkça karşılaşılan bir darboğaz olan Maksimum Baskılama (Non-Maximum Suppression) ihtiyacını ortadan kaldırır. NMS ortadan kaldırarak, YOLO26 tutarlı çıkarım süreleri sağlar ve OpenVINO ve CoreML gibi araçlarla entegrasyonu basitleştirir.
3. Eğitim Verimliliği ve İstikrarı
YOLO26, görme görevlerine benzeri görülmemiş bir istikrar getiren, SGD Muon'un (LLM eğitiminden esinlenerek) bir karışımı olan MuSGD Optimizer'ı sunar. Bu, RTDETRv2 gibi dönüştürücü tabanlı modellerin sıklıkla gerektirdiği karmaşık programlara kıyasla daha hızlı yakınsama ve daha az hiperparametre ayarlaması sağlar.
4. Kenar Öncelikli Optimizasyon
Raspberry Pi veya NVIDIA gibi uç cihazlara dağıtım yapan geliştiriciler için YOLO26, %43'e kadar daha hızlı CPU sunar. Dağıtım Odak Kaybı'nın (DFL) kaldırılması, dışa aktarım için model grafiğini daha da basitleştirerek, dönüştürücülerdeki hesaplama ağırlıklı dikkat mekanizmalarına kıyasla düşük güçlü hızlandırıcılarla daha iyi uyumluluk sağlar.
5. Görevler Arasında Çok Yönlülük
Birçok özel dedektörün aksine, YOLO26 gerçek bir çoklu görev öğrenicidir. Tek bir kod tabanında nesne algılama, örnek segmentasyonu, poz tahmini, sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) görevlerini destekler.
Kullanım Durumu Önerileri
- YOLO seçin: Belirli NVIDIA TensorRT tek dağıtım hedefi olduğu endüstriyel denetim görevlerinde çalışıyorsanız ve basit algılama görevleri için mutlak en düşük gecikme süresine ihtiyacınız varsa.
- RTDETRv2'yi seçin: Tıkanıklık içeren karmaşık sahneler için yüksek doğrulukta algılama ihtiyacınız varsa ve transformatörlerin hesaplama maliyetinin kabul edilebilir olduğu güçlü GPU'lara erişiminiz varsa. NMS çıkarımın katı bir gereklilik olduğu ancak transformatör mimarisini tercih ettiğiniz durumlarda da bu seçenek güçlü bir adaydır.
- Ultralytics seçin, eğer: En son teknolojiye sahip doğruluk, NMS hız ve CPU, GPU ve mobil cihazlara kolayca dağıtılabilme özelliği ile en iyi genel performansı istiyorsanız. Sağlam belgeleri, aktif topluluk desteği ve Ultralytics ile entegrasyonu, onu üretim sistemleri için en geleceğe dönük seçim haline getirir.
Sonuç
Nesne algılama alanında çok sayıda seçenek bulunmaktadır. YOLO, verimlilik açısından Nöral Mimari Arama'nın gücünü gösterirken, RTDETRv2 gerçek zamanlı dönüştürücülerin potansiyelini ortaya koymaktadır. Ancak Ultralytics , bu gelişmeleri bir araya getirerek öne çıkmaktadır. NMS çıkarım, kenar optimize edilmiş hız ve LLM'den ilham alan eğitim istikrarı sunan bu ürün, sektörün en geliştirici dostu ekosisteminde yer almaktadır.
Bir sonraki projesine başlamaya hazır olanlar için, YOLO26 belgelerini incelemek, minimum sürtünmeyle SOTA sonuçları elde etmek için önerilen ilk adımdır.
Daha Fazla Okuma
- YOLO Metrikleri hakkında bilgi edinin
- Nesne Algılama Veri Kümelerini Keşfedin
- Model Dışa Aktarma ve Dağıtım Kılavuzu
- Karşılaştırma: YOLO26 ile YOLOv10