RTDETRv2 ve YOLOv6.0: Transformer Hassasiyeti Endüstriyel Hızla Buluşuyor
Modern nesne algılama alanını keşfetmek, ham hız ile karmaşık sahne anlayışını dengelemek gerektirir. Bu teknik karşılaştırma, iki etkili mimariyi inceler: Real-Time Detection Transformer'ın sofistike bir evrimi olan RTDETRv2 ve endüstriyel verimlilik için optimize edilmiş CNN tabanlı bir güç merkezi olan YOLOv6.YOLOv6.
Yönetici Özeti
RTDETRv2, Non-Maximum Suppression (NMS) olmadan karmaşık ve dağınık ortamlarda üstün performans göstermek için görsel dönüştürücülerin küresel bağlam yeteneklerinden yararlanırken, YOLOv6.YOLOv6 agresif niceleme ve mimari ayarlamalar yoluyla özel GPU saniye başına kare sayısını (FPS) en üst düzeye çıkarmaya odaklanmaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
RTDETRv2: Transformer Evrimi
RTDETRv2 (Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), dönüştürücü tabanlı algılamayı gerçek zamanlı uygulamalar için uygulanabilir hale getirme konusunda önemli bir adımdır. Orijinal RT-DETR'nin başarısını temel alan bu yineleme, dinamik girdileri işlemek için esnek bir ızgara tabanlı yaklaşım getiriyor ve yakınsama hızını önemli ölçüde artırıyor.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 17 Nisan 2023 (v1), Temmuz 2024 (v2 güncellemesi)
- Bağlantılar:Arxiv | GitHub
RT-DETR hakkında daha fazla bilgi edinin
Mimari ve İnovasyon
RTDETRv2'nin temel gücü, hibrit kodlayıcı ve belirsizliği en aza indiren sorgu seçiminde yatmaktadır. Uzun menzilli bağımlılıklarla mücadele eden geleneksel CNN'lerden farklı olarak, dönüştürücü backbone , modelin bir görüntünün uzak kısımlarına aynı anda "dikkat etmesini" backbone .
- Izgara Kutusu Bağlama Mekanizması: Standart DETR'lerin öğrenilmiş nesne sorgularından farklı olarak, RTDETRv2 sorguları ızgara kutuları kullanarak başlatır, böylece optimizasyon ortamı daha düzgün ve yakınsama daha hızlı hale gelir.
- Bag-of-Freebies: v2 güncellemesi, geliştirilmiş veri artırma stratejileri ve optimize edilmiş kayıp fonksiyonları dahil olmak üzere birçok eğitim iyileştirmesi içerir ve Small modelinin doğruluğunu 48,1 mAP yükseltir.
- NMS Çıkarım: Tasarım gereği, dönüştürücüler bir dizi benzersiz nesneyi doğrudan tahmin eder. Bu, CNN tabanlı modellerde genellikle gecikme varyansı ve hiperparametre ayarlama sorunlarına yol açan bir son işlem adımı olan Maksimum Dışı Bastırma (NMS) ihtiyacını ortadan kaldırır.
Transformatör Avantajı
RTDETRv2 gibi dönüştürücü modelleri, nesnelerin önemli ölçüde üst üste bindiği kalabalık sahnelerde üstün performans gösterir. Görüntünün tamamını yerel olarak değil, küresel olarak işledikleri için, konvolüsyon tabanlı dedektörleri sıklıkla karıştıran örtülme sorunlarına daha az eğilimlidirler.
YOLOv6.0: Endüstri Uzmanı
Genellikle "YOLOv6 .0: Tam Ölçekli Yeniden Yükleme" olarak anılan YOLOv6, donanımın standartlaştırıldığı ve verimliliğin ön planda olduğu endüstriyel uygulamalar için özel olarak tasarlanmıştır. Meituan'ın görsel işleme ekibi tarafından geliştirilen bu yazılım, TensorRT kullanarak NVIDIA T4 GPU'larda performansı önceliklendirir.
- Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, ve diğerleri.
- Kuruluş:Meituan
- Tarih: 13 Ocak 2023
- Bağlantılar:Arxiv | GitHub
YOLOv6 hakkında daha fazla bilgi edinin.
Teknik Mimari
YOLOv6.0, "EfficientRep" backbone geliştiren, tamamen CNN tabanlı bir mimari kullanır.
- RepBi-PAN: RepVGG tarzı bloklarla geliştirilmiş Çift Yönlü Yol Toplama Ağı (Bi-PAN). Bu yapı, modelin eğitim sırasında karmaşık dallanmalara sahip olmasını, ancak çıkarım sırasında basit, hızlı bir 3x3 konvolüsyon yığınına dönüşmesini sağlar.
- Anchor-Aided Training (AAT): Anchor-free çerçeveye anchor tabanlı ipuçlarını yeniden dahil ederek eğitimi stabilize etmeye çalışan, yakınsama hızını ve nihai doğruluğu biraz artıran bir hibrit strateji.
- Kuantizasyona Uyumlu: Mimari, kuantizasyona uyumlu olacak şekilde özel olarak tasarlanmıştır ve kenar GPU'larda aşırı hız artışları için INT8 hassasiyetine dönüştürülürken minimum doğruluk kaybına izin verir.
Önemli Farklılıklar ve Kullanım Örnekleri
1. Küresel Bağlam ve Yerel Özellikler
RTDETRv2 , karmaşık sahne anlayışında öne çıkıyor. Uygulamanız uzak nesneler arasındaki ilişkileri tanımlamayı veya ciddi örtülmeleri ele almayı içeriyorsa (örneğin, kalabalık bir stadyumda insanları saymak), dönüştürücünün kendi kendine dikkat mekanizması belirgin bir avantaj sağlar. Konvolüsyonlara dayanan YOLOv6. YOLOv6, yerel özellikleri algılamada oldukça etkilidir, ancak NMS dönüştürücülere kıyasla yoğun örtüşmelerde biraz daha zorlanabilir.
2. Donanım Bağımlılığı
YOLOv6.YOLOv6"donanım farkında" bir tasarımdır. Etkileyici FPS değerleri, TensorRT kullanan belirli NVIDIA (T4 gibi) en iyi şekilde elde edilebilir. Genel amaçlı CPU'larda veya mobil NPU'larda, bu platformlar için optimize edilmiş modellerle karşılaştırıldığında performans avantajları azalabilir. YOLOv10 veya YOLO11gibi. RTDETRv2, dikkat mekanizmaları nedeniyle hesaplama açısından daha ağır olsa da, daha basit, NMS boru hattı sayesinde platformlar arasında tutarlı bir davranış sergiler.
3. Eğitim ve Görevlendirme
RTDETRv2, NMS ortadan kaldırarak dağıtım süreçlerini basitleştirir. Bu, model çıktısının nihai sonuç olduğu anlamına gelir; son işlem kodunda eşikleme veya sıralama gerekmez. YOLOv6. YOLOv6, standart NMS gerektirir ve C++ veya CUDA yüksek düzeyde optimize edilmezse yüksek FPS senaryolarında darboğaz oluşturabilir.
Ultralytics'in Avantajı
RTDETRv2 ve YOLOv6. YOLOv6 belirli nişler için cazip özellikler sunsa da, farklı kod tabanları ve API tasarımları nedeniyle bunları üretim iş akışına entegre etmek zor olabilir. Ultralytics , bu güçlü mimarileri tek bir modern Python altında birleştirir.
Neden Ultralytics'i Seçmelisiniz?
- Kullanım Kolaylığı: Tek bir dizeyi değiştirerek model mimarileri arasında geçiş yapın. YOLO için kullandığınız eğitim komutunun aynısını kullanarak RT-DETR eğitin.
- Bellek Gereksinimleri: Ultralytics , eğitim sırasında VRAM yükünü önemli ölçüde azaltır. Bu, CNN'lerden doğal olarak daha fazla bellek tüketen RT-DETR gibi transformatör modelleri için özellikle önemlidir.
- Çok yönlülük: Ultralytics , algılamanın ötesine geçer. Aynı ortamda poz tahmini, örnek segmentasyonu ve OBB için modelleri kolayca kullanabilirsiniz.
- İyi Bakımlı Ekosistem: Aktif topluluk desteği, sık güncellemeler ve MLflow ve TensorBoard gibi araçlarla sorunsuz entegrasyonlardan yararlanın.
Kod Örneği
Ultralytics Python ile bu modelleri test etmek çok kolaydır. Paket, veri işleme ve model yükleme işlemlerini otomatik olarak gerçekleştirir.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")
# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")
İleriye Bakış: YOLO26
Hız, doğruluk ve modern mimari özelliklerin mükemmel dengesini arayan geliştiriciler için Ultralytics , en son teknolojiyi temsil ediyor. Ocak 2026'da piyasaya sürülen bu ürün, transformatör ve CNN dünyalarının en iyi özelliklerini bir araya getiriyor.
YOLO26, RTDETRv2'nin basitliğini yansıtan, ancak CNN'nin hafif verimliliğine sahip, yerel olarak uçtan uca NMS bir tasarım sunar. LLM eğitim kararlılığından esinlenen yeni MuSGD Optimizerile güçlendirilen ve üstün küçük nesne algılama için ProgLoss + STAL özelliğine sahip YOLO26, önceki nesillere göre %43'e kadar daha hızlı CPU ulaşır.
YOLO26 hakkında daha fazla bilgi edinin
Transformatörlerin küresel hassasiyetini mi yoksa endüstriyel CNN'lerin ham verimini mi önceliklendirirseniz önceliklendirin, Ultralytics , iş için doğru aracı minimum sürtünmeyle kullanmanızı sağlar.