YOLO . RTDETRv2: Gerçek Zamanlı Algılama Mimarileri

Optimum nesne algılama mimarisini seçmek, çıkarım gecikmesinden dağıtım maliyetlerine kadar her şeyi etkileyen çok önemli bir karardır. Mevcut durumu sorgulayan iki yenilikçi model, Alibaba'nın YOLO ve Baidu'nun RTDETRv2'dir.YOLO , Sinirsel Mimari Arama (NAS) ve verimli yeniden parametreleştirmeyeYOLO , RTDETRv2, DETR paradigmasını iyileştirerek gerçek zamanlı dönüştürücülerin sınırlarını zorlamaktadır.

Bu kılavuz, mimarileri, performans ölçütleri ve eğitim metodolojileri hakkında derinlemesine teknik analizler sunarak, bilgisayar görme gereksinimlerinize en uygun modeli belirlemenize yardımcı olur. Ayrıca, yeni nesil Ultralytics 'nin bu yaklaşımların en iyilerini tek bir, kullanımı kolay çerçeve içinde nasıl sentezlediğini de inceliyoruz.

DAMO-YOLO'ya Genel Bakış

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO), düşük gecikme süresi ve yüksek doğruluğun vazgeçilmez olduğu endüstriyel uygulamaların özel ihtiyaçlarını karşılamak için Alibaba Group tarafından geliştirilmiştir. Performanstan ödün vermeden modeli sıkıştırmak için tasarlanmış bir dizi teknoloji sunar.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:DAMO-YOLO Makalesi
GitHub:tinyvision/DAMO-YOLO

YOLO26 hakkında daha fazla bilgi edinin

Temel Mimari Yenilikler

YOLO , verimlilik için özel olarak tasarlanmış çeşitli "ücretsiz hediye paketleri" ileYOLO :

Sinir Mimarisi Arama (NAS): Manuel olarak tasarlanmış omurgalara sahip modellerden farklı olarak,YOLO , backbone için en verimli yapıyı otomatik olarak keşfetmek için NAS'ıYOLO backbone MAE-NAS) ve kayan nokta işlemleri (FLOP'lar) ile doğruluk arasındaki dengeyi optimize eder.
Verimli RepGFPN: Yeniden parametrelendirmeyi kullanan genelleştirilmiş Özellik Piramidi Ağı (RepGFPN) kullanır. Bu, eğitim sırasında kullanılan karmaşık yapıların, çıkarım sırasında daha basit ve daha hızlı konvolüsyonlarla birleştirilmesini sağlar.
ZeroHead: Son tahmin katmanlarıyla genellikle ilişkili olan hesaplama yükünü en aza indiren hafif bir algılama kafası.
AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluk sorunlarını çözen optimize edilmiş bir etiket atama stratejisi.

RTDETRv2 Genel Bakış

RTDETRv2 (Real-Time Detection Transformer v2), hız açısından YOLO gerçekten rakip olan ilk transformatör tabanlı dedektör olan orijinal RT-DETR başarısını temel alır. Baidu tarafından geliştirilen bu teknoloji, yakınsama hızını ve esnekliği artırırken, Non-Maximum Suppression (NMS) son işlemine olan ihtiyacı ortadan kaldırmayı amaçlamaktadır.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 17 Nisan 2023 (v1), Temmuz 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

RT-DETR hakkında daha fazla bilgi edinin

Temel Mimari Yenilikler

RTDETRv2, pratik görme görevleri için transformatör mimarisini iyileştirir:

Hibrit Kodlayıcı: CNN backbone , ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayıran verimli bir hibrit kodlayıcı backbone birleştirerek, standart öz-dikkat mekanizmalarının yüksek hesaplama maliyetini ortadan kaldırır.
IoU sorgu seçimi: Bu mekanizma, Birleşim Üzerine Kesişim (IoU) puanlarına göre yüksek kaliteli ilk nesne sorguları seçerek daha hızlı eğitim yakınsamasına yol açar.
Esnek Dağıtım: Önceki sürümden farklı olarak, RTDETRv2 esnek giriş şekillerini ve TensorRTiçin geliştirilmiş optimizasyonu destekler, bu da onu çeşitli donanım arka uçları için daha uygun hale getirir.
NMS: Bir dizi nesneyi doğrudan tahmin ederek, NMS neden olduğu gecikme varyansını ortadan kaldırır; bu, gerçek zamanlı video analizi için kritik bir avantajdır.

Performans Karşılaştırması

Bu mimarileri karşılaştırırken, farklı donanım yapılandırmaları arasında ortalama hassasiyet (mAP) ve çıkarım hızı arasındaki dengeyi incelemek çok önemlidir.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analiz

Doğruluk: RTDETRv2 genellikle daha yüksek mAP elde eder, özellikle orta ve büyük varyantlarda. "X" modeli, en büyükYOLO geride bırakarak etkileyici bir %54,3 mAP ulaşır. Bu, onu tıbbi görüntüleme veya kusur tespiti gibi yüksek doğruluk gerektiren uygulamalar için uygun hale getirir.
Hız:YOLO , TensorRT optimize edilmiş donanımda ham verimlilikte mükemmeldir. Yeniden parametrelendirilmiş CNN mimarisi, RTDETRv2'deki dönüştürücü bloklarından doğal olarak daha donanım dostudur, bu da "Tiny" ve "Small" varyantları için daha düşük gecikme süresi sağlar.
Parametre Verimliliği:YOLO , benzer performans kademeleri için daha az parametreye sahip olmaYOLO , bu da depolama alanı kısıtlı uç cihazlar için avantajlı olabilir.

Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?

YOLO RTDETRv2 özel güçlü yönler sunarken, geliştiriciler genellikle karmaşık eğitim süreçleri, sınırlı platform desteği ve parçalı dokümantasyon gibi zorluklarla karşılaşmaktadır. Ultralytics , en son yenilikleri sorunsuz, kullanıcı odaklı bir ekosisteme entegre ederek bu sorunları çözmektedir.

Entegre Mükemmellik

YOLO26, CNN'lerin hızını transformatörlerin uçtan uca basitliği ile birleştirerek, dağıtımı basitleştiren ve hem CPU GPU önceki modellerden daha üstün performans gösteren NMS bir tasarım sunar.

1. Üstün Kullanıcı Deneyimi ve Ekosistem

Ultralytics ayırt edici özelliği şudur: kullanım kolaylığı. Araştırma veri depoları genellikle karmaşık ortam kurulumları gerektirirken, YOLO26 birkaç saniye içinde kurulup çalıştırılabilir. ultralytics paket. Ultralytics Platform web tabanlı veri seti yönetimi, tek tıklamayla eğitim ve otomatik dağıtım sağlayarak bunu daha da geliştirir.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. Uçtan Uca NMS Mimari

YOLO26, RTDETRv2 ile ortak bir özellik olan, yerel uçtan uca NMS tasarımı benimser, ancak bunu yüksek düzeyde optimize edilmiş bir CNN çerçevesi içinde uygular. Bu çığır açan gelişme, dağıtım süreçlerinde sıkça karşılaşılan bir darboğaz olan Maksimum Baskılama (Non-Maximum Suppression) ihtiyacını ortadan kaldırır. NMS ortadan kaldırarak, YOLO26 tutarlı çıkarım süreleri sağlar ve OpenVINO ve CoreML gibi araçlarla entegrasyonu basitleştirir.

3. Eğitim Verimliliği ve İstikrarı

YOLO26, görme görevlerine benzeri görülmemiş bir istikrar getiren, SGD Muon'un (LLM eğitiminden esinlenerek) bir karışımı olan MuSGD Optimizer'ı sunar. Bu, RTDETRv2 gibi dönüştürücü tabanlı modellerin sıklıkla gerektirdiği karmaşık programlara kıyasla daha hızlı yakınsama ve daha az hiperparametre ayarlaması sağlar.

4. Kenar Öncelikli Optimizasyon

Raspberry Pi veya NVIDIA gibi uç cihazlara dağıtım yapan geliştiriciler için YOLO26, %43'e kadar daha hızlı CPU sunar. Dağıtım Odak Kaybı'nın (DFL) kaldırılması, dışa aktarım için model grafiğini daha da basitleştirerek, dönüştürücülerdeki hesaplama ağırlıklı dikkat mekanizmalarına kıyasla düşük güçlü hızlandırıcılarla daha iyi uyumluluk sağlar.

5. Görevler Arasında Çok Yönlülük

Birçok özel dedektörün aksine, YOLO26 gerçek bir çoklu görev öğrenicidir. Tek bir kod tabanında nesne algılama, örnek segmentasyonu, poz tahmini, sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) görevlerini destekler.

Kullanım Durumu Önerileri

YOLO seçin: Belirli NVIDIA TensorRT tek dağıtım hedefi olduğu endüstriyel denetim görevlerinde çalışıyorsanız ve basit algılama görevleri için mutlak en düşük gecikme süresine ihtiyacınız varsa.
RTDETRv2'yi seçin: Tıkanıklık içeren karmaşık sahneler için yüksek doğrulukta algılama ihtiyacınız varsa ve transformatörlerin hesaplama maliyetinin kabul edilebilir olduğu güçlü GPU'lara erişiminiz varsa. NMS çıkarımın katı bir gereklilik olduğu ancak transformatör mimarisini tercih ettiğiniz durumlarda da bu seçenek güçlü bir adaydır.
Ultralytics seçin, eğer: En son teknolojiye sahip doğruluk, NMS hız ve CPU, GPU ve mobil cihazlara kolayca dağıtılabilme özelliği ile en iyi genel performansı istiyorsanız. Sağlam belgeleri, aktif topluluk desteği ve Ultralytics ile entegrasyonu, onu üretim sistemleri için en geleceğe dönük seçim haline getirir.

Sonuç

Nesne algılama alanında çok sayıda seçenek bulunmaktadır. YOLO, verimlilik açısından Nöral Mimari Arama'nın gücünü gösterirken, RTDETRv2 gerçek zamanlı dönüştürücülerin potansiyelini ortaya koymaktadır. Ancak Ultralytics , bu gelişmeleri bir araya getirerek öne çıkmaktadır. NMS çıkarım, kenar optimize edilmiş hız ve LLM'den ilham alan eğitim istikrarı sunan bu ürün, sektörün en geliştirici dostu ekosisteminde yer almaktadır.

Bir sonraki projesine başlamaya hazır olanlar için, YOLO26 belgelerini incelemek, minimum sürtünmeyle SOTA sonuçları elde etmek için önerilen ilk adımdır.

YOLO . RTDETRv2: Gerçek Zamanlı Algılama Mimarileri

DAMO-YOLO'ya Genel Bakış

Temel Mimari Yenilikler

RTDETRv2 Genel Bakış

Temel Mimari Yenilikler

Performans Karşılaştırması

Analiz

Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?

1. Üstün Kullanıcı Deneyimi ve Ekosistem

2. Uçtan Uca NMS Mimari

3. Eğitim Verimliliği ve İstikrarı

4. Kenar Öncelikli Optimizasyon

5. Görevler Arasında Çok Yönlülük

Kullanım Durumu Önerileri

Sonuç

Daha Fazla Okuma

Yorumlar