RTDETRv2 ile YOLOv10: Gerçek Zamanlı Algılama Mimarilerinin Karşılaştırılması
Hızla gelişen bilgisayar görme alanında, doğruluk, hız ve verimlilik arasında optimum dengeyi bulma arayışı yenilikçiliği sürdürmeye devam ediyor. Son zamanlarda tartışmalara konu olan iki önemli mimari şunlardır RT-DETRv2 ve YOLOv10. Her iki model de uzun süredir devam eden gerçek zamanlı nesne algılama sorununu çözmeyi amaçlamaktadır, ancak bu konuya temelde farklı mimari perspektiflerden yaklaşmaktadırlar: transformatörler ve CNN tabanlı yenilikler.
Bu teknik karşılaştırma, geliştiricilerin ve araştırmacıların belirli uygulamaları için doğru aracı seçmelerine yardımcı olmak amacıyla mimarilerini, performans ölçütlerini ve ideal kullanım örneklerini incelemektedir.
Karşılaştırma Tablosu
Aşağıdaki tablo, COCO indeki temel performans ölçütlerini göstermektedir. Kalın yazılmış değerler, her kategoride en iyi performansı göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2: Gerçek Zamanlı Transformer'ın İyileştirilmesi
RT-DETRv2 Gerçek Zamanlı Algılama Dönüştürücü sürüm 2), CNN tabanlı modellerin hızına gerçekten rakip olan ilk dönüştürücü tabanlı algılayıcı olan orijinal RT-DETR başarısını temel alır. YOLOv8.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş:Baidu
- Tarih: 17 Nisan 2023 (Orijinal), Temmuz 2024 (v2)
- Arxiv:RT-DETRv2: Gerçek Zamanlı Algılama Dönüştürücüsü için Bag-of-Freebies ile İyileştirilmiş Temel Çizgi
Mimari ve İnovasyon
RT-DETRv2 , transformatörlerin temel gücünü RT-DETRv2 : bir görüntüdeki genel bağlamı modelleme yeteneği, bu da özellikle karmaşık, dağınık sahnelerde nesneleri algılamada faydalıdır. Yerel alıcı alanlara dayanan geleneksel CNN'lerden farklı olarak, RT-DETRv2 çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı RT-DETRv2 .
v2 güncellemesinin temel özelliklerinden biri, daha esnek ızgara örneklemesi sağlayan ve hız ile doğruluk arasındaki dengeyi daha da optimize eden ayrı bir örnekleme mekanizmasının eklenmesidir. Model, bir dizi nesneyi doğrudan tahmin ederek Non-Maximum Suppression (NMS) ihtiyacını ortadan kaldırır ve son işlem aşamasını basitleştirir.
Transformatör Bellek Kullanımı
Dönüştürücüler küresel bağlamda üstün performans gösterirken, eğitim sırasında CNN'lere kıyasla genellikle çok daha fazla GPU gerektirirler. Donanımı sınırlı olan kullanıcılar, daha hafif YOLO kıyasla RTDETRv2'yi eğitmeyi zor bulabilirler.
Performans
RT-DETRv2 , COCO testinde benzer boyutlardaki YOLO genellikle daha iyi performans göstererek olağanüstü bir doğruluk RT-DETRv2 . Yüksek hassasiyet ve örtülmeye karşı direnç gerektiren senaryolarda özellikle güçlüdür. Ancak, bu doğruluk genellikle daha yüksek hesaplama gereksinimleri pahasına elde edilir, bu da onu Ultralytics YOLO kıyasla tamamen CPU kenar dağıtımı için daha az uygun hale getirir.
RT-DETR hakkında daha fazla bilgi edinin
YOLOv10: Uçtan Uca CNN Evrimi
YOLOv10 , geleneksel CNN mimarisine NMS eğitimi getirerek YOLO önemli bir değişimi YOLOv10 . Bu yenilik, CNN'lerin basitliği ile dönüştürücülerin uçtan uca yetenekleri arasındaki boşluğu dolduruyor.
- Yazarlar: Ao Wang, Hui Chen, Lihao Liu, ve diğerleri.
- Kuruluş:Tsinghua Üniversitesi
- Tarih: 23 Mayıs 2024
- Arxiv:YOLOv10: Gerçek Zamanlı Uçtan Uca Nesne Tespiti
Mimari ve İnovasyon
YOLOv10 , NMS eğitim için tutarlı çift atama stratejisi YOLOv10 . Eğitim sırasında model, hem bire çok hem de bire bir etiket atamalarını kullanır. Bu, modelin zengin denetim sinyallerinden yararlanmasını sağlarken, çıkarım sırasında nesne başına yalnızca bir kutu tahmin etmesini garanti eder.
Ek olarak, mimari, bütünsel bir verimlilik-doğruluk odaklı tasarıma sahiptir. Bu, hesaplama yükünü (FLOP'lar) ve parametre sayısını azaltan hafif sınıflandırma başlıkları ve uzamsal kanal ayrıştırılmış aşağı örneklemeyi içerir.
Performans
YOLOv10 , çıkarım gecikmesindeYOLOv10 . NMS kaldırarak, otonom sürüş gibi gerçek zamanlı uygulamalar için kritik öneme sahip olan daha düşük gecikme varyansı elde eder. YOLOv10n ve YOLOv10s gibi daha küçük varyantlar, uç cihazlarda inanılmaz bir hız sunarak kaynak kısıtlı ortamlar için son derece etkili olmalarını sağlar.
YOLOv10 hakkında daha fazla bilgi edinin.
Önemli Farklılıklar ve Kullanım Örnekleri
1. NMS Mimariler
Her iki model de "uçtan uca" yeteneklere sahip olduğunu iddia ediyor, ancak bunu farklı şekillerde başarıyor. RT-DETRv2 , benzersiz nesneleri tahmin etmek için dönüştürücülerin doğal sorgu tabanlı mekanizmasını RT-DETRv2 . YOLOv10 ise bunu, CNN backbone uygulanan yeni bir eğitim stratejisiyle YOLOv10 . Bu, YOLOv10 , konvolüsyonlar için optimize edilmiş standart donanımlarda YOLOv10 daha hızlı hale getirirken, RT-DETRv2 ise paralel dönüştürücü hesaplamasının verimli olduğu GPU'larda RT-DETRv2 .
2. Eğitim Verimliliği ve Bellek
Ultralytics tarihsel olarak üstün olduğu bir alan, eğitim verimliliğidir. RT-DETRv2 gibi dönüştürücüler, bellek tüketimiyle ve yavaş yakınsama hızlarıyla RT-DETRv2 . Buna karşın, YOLOv10 YOLO11 gibi CNN tabanlı modeller donanım kaynakları konusunda çok daha toleranslıdır.
Ultralytics YOLO bu konuda belirgin bir avantaja sahiptir:
- Daha düşük bellek: YOLO eğitimi genellikle daha az VRAM gerektirir, bu da tüketici GPU'larında daha büyük parti boyutlarına olanak tanır.
- Daha Hızlı Yakınsama: CNN'ler, transformatör tabanlı mimarilere kıyasla yakınsama noktasına ulaşmak için genellikle daha az dönem gerektirir.
3. Çok Yönlülük ve Ekosistem
RT-DETRv2 YOLOv10 güçlü dedektörler YOLOv10 birlikte, esas olarak sınırlayıcı kutu algılamaya odaklanmaktadır. Buna karşılık, Ultralytics , daha geniş bir görev yelpazesini destekleyen modelleri kullanıma hazır olarak sunmaktadır.
Ultralytics , kullanıcıların sadece bir model değil, eksiksiz bir iş akışı elde etmelerini sağlar. Buna, veri kümesi yönetimi için Ultralytics ile sorunsuz entegrasyon ve ONNX, TensorRT ve OpenVINO gibi formatlara kolay aktarım.
Ultralytics : YOLO26'yı Tanıtıyoruz
RT-DETRv2 YOLOv10 etkileyici özellikler YOLOv10 da, bu alanda gelişmeler devam etmektedir. Performans, verimlilik ve kullanım kolaylığı açısından mutlak zirveyi arayan geliştiriciler için Ultralytics en üstün seçenek olarak öne çıkmaktadır.
2026 yılının Ocak ayında piyasaya sürülen YOLO26, transformatörler ve CNN'lerin en iyi yeniliklerini birleştirerek, birleşik, yeni nesil bir mimari oluşturur.
YOLO26 Neden Önerilen Seçimdir
- Yerel Olarak Uçtan Uca: YOLOv10 gibi, YOLO26 da uçtan uca NMS bir tasarıma sahiptir. Bu, son işlemlerin gecikme darboğazını ortadan kaldırarak, güvenlik açısından kritik sistemler için çok önemli olan tutarlı ve öngörülebilir çıkarım hızlarını garanti eder.
- Tüm Donanımlar için Optimize Edilmiştir: YOLO26, Dağıtım Odak Kaybını (DFL) ortadan kaldırarak model grafiğini önemli ölçüde basitleştirir. Bu, kenar AI hızlandırıcılarıyla daha iyi uyumluluk ve önceki nesillere kıyasla %43'e kadar daha hızlı CPU yol açar.
- Gelişmiş Eğitim Dinamikleri: SGD Muon'un bir karışımı olan MuSGD Optimizer'ı(Moonshot AI'daki LLM eğitiminden esinlenerek) içeren YOLO26, istikrarlı bir eğitim ve daha hızlı yakınsama sağlayarak büyük dil modeli yeniliklerini bilgisayar görüşüne getiriyor.
- Görev Çok Yönlülüğü: RT-DETRv2 algılamaya odaklanmasından farklı olarak, YOLO26 nesne algılama, örnek segmentasyonu, poz tahmini, yönlendirilmiş sınırlayıcı kutular (OBB) ve sınıflandırmayı doğal olarak destekler.
Sorunsuz Geçiş
Ultralytics ile YOLO26'ya geçiş yapmak çok kolaydır. Python dosyanızdaki model adını değiştirmeniz yeterlidir:
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)
YOLO26 hakkında daha fazla bilgi edinin
Sonuç
Saf araştırma veya GPU sınırsız olduğu ve dönüştürücü dikkat mekanizmalarının özellikle gerekli olduğu senaryolar için, RT-DETRv2 güçlü bir rakiptir. NMS CNN mimarisine sahip uç cihazlarda düşük gecikmeyi önceliklendiren kullanıcılar için YOLOv10 sağlam bir akademik seçenek olmaya devam etmektedir.
Ancak, hız, doğruluk ve sağlam araçların dengeli bir şekilde bir araya gelmesini gerektiren üretim düzeyindeki uygulamalar için Ultralytics kesin bir öneridir. İyi bakımlı bir ekosisteme entegrasyonu, çeşitli bilgisayar görme görevlerini desteklemesi ve çığır açan mimari iyileştirmeleri, onu 2026 ve sonrası için en geleceğe dönük çözüm haline getirmektedir.
Ayrıca Bakınız
- Ultralytics YOLO11 - Endüstride yaygın olarak kullanılan sağlam öncü model.
- RT-DETR - Orijinal gerçek zamanlı algılama transformatörü.
- YOLOv8 - YOLO çok yönlü bir klasiği.