RTDETRv2 ve YOLOv6-3.0: Gerçek Zamanlı Transformatörleri Endüstriyel CNN'lere Karşı Değerlendirme
Bilgisayar görüşü alanı sürekli gelişmekte, geliştiricilere nesne detect için sayısız mimari seçenek sunmaktadır. Farklı yaklaşımları temsil eden iki önde gelen model, son teknoloji bir vizyon transformatörü olan RTDETRv2 ve endüstriyel uygulamalar için özel olarak optimize edilmiş bir Evrişimsel Sinir Ağı (CNN) olan YOLOv6-3.0'dır.
Bu kapsamlı teknik karşılaştırma, ilgili mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını incelemektedir. Ayrıca, daha geniş Ultralytics ekosisteminin nasıl üstün bir geliştirici deneyimi sağladığını da inceleyecek, nihayetinde Ultralytics YOLO26'nın yeni nesil yeteneklerine bakacağız.
RTDETRv2: Vizyon Transformatörü Yaklaşımı
Baidu'daki araştırmacılar tarafından geliştirilen RTDETRv2, orijinal RT-DETR'nin temeli üzerine inşa edilmiş olup, transformatör tabanlı nesne detect alanında önemli bir ilerlemeyi temsil etmektedir.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kuruluş: Baidu
- Tarih: 2024-07-24
- Arxiv: 2407.17140
- GitHub: lyuwenyu/RT-DETR
- Belgeler: RTDETRv2 GitHub README
Mimari Öne Çıkanlar
RTDETRv2, bir CNN özellik çıkarıcısını güçlü bir transformatör kod çözücü ile birleştiren hibrit bir mimari kullanır. Bu modelin en belirleyici özelliği, yerel olarak NMS-free tasarımıdır. İşlem sonrası sırasında Non-Maximum Suppression (NMS) ortadan kaldırarak, model sınırlayıcı kutuları doğrudan tahmin eder, bu da dağıtımı basitleştirir ve çıkarım gecikmesini stabilize eder.
RTDETRv2'ye dahil edilen "Bag-of-Freebies", küresel dikkat mekanizmalarının uzamsal ilişkileri yerelleştirilmiş evrişimlerden daha iyi anlaması nedeniyle, karmaşık sahneleri ve örtüşen nesneleri işleme yeteneğini artırır.
Transformatör Bellek Kullanımı
Transformatörler karmaşık sahne anlamada üstün olsa da, genellikle eğitim sırasında CNN'lere kıyasla önemli ölçüde daha yüksek CUDA belleği gerektirirler. Bu durum, standart tüketici GPU'larında yığın boyutlarını sınırlayabilir ve genel eğitim süresini artırabilir.
RTDETR hakkında daha fazla bilgi edinin
YOLOv6-3.0: Endüstriyel Verim Maksimizasyonu
Meituan'daki Vision AI Departmanı'ndan çıkan YOLOv6-3.0, GPU veriminin çok önemli olduğu endüstriyel boru hatları için yeni nesil bir detect olarak hizmet vermek üzere açıkça tasarlanmıştır.
- Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
- Kuruluş: Meituan
- Tarih: 2023-01-13
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Mimari Odak
YOLOv6-3.0, NVIDIA GPU'ları gibi donanım hızlandırıcılarında bellek erişim maliyetlerini en aza indirmek için titizlikle tasarlanmış bir EfficientRep backbone'una dayanır. Boyun mimarisi, farklı ölçeklerde özellik füzyonunu iyileştirmek için Çift Yönlü Birleştirme (BiC) modülüne sahiptir.
Eğitim sırasında, çapa tabanlı paradigmaların faydalarından yararlanırken, daha hızlı yürütme için çapasız bir çıkarım modunu sürdüren Çapa Destekli Eğitim (AAT) stratejisi kullanır. Sunucu sınıfı GPU'larda (örn. T4, A100) olağanüstü verim elde etse de, özel mimarisi yalnızca CPU'lu kenar cihazlarda dağıtıldığında optimum olmayan gecikmeye neden olabilir.
YOLOv6 hakkında daha fazla bilgi edinin.
Performans Karşılaştırması
Üretim için modelleri değerlendirirken, doğruluk (mAP) ile çıkarım hızı ve hesaplama maliyeti (FLOPs) arasında denge kurmak kritik öneme sahiptir. Aşağıdaki tablo, bu modellerin birbirlerine karşı nasıl performans gösterdiğini göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv6-3.0, TensorRT üzerinde saf işleme hızında baskın olsa da, RTDETRv2 daha yüksek mAP skorları yakalar ve özellikle daha büyük model varyantlarıyla daha iyi ölçeklenir. Ancak, her iki model de modern birleşik çerçevelerde bulunan kapsamlı çok yönlülükten yoksundur. YOLOv6-3.0 öncelikli olarak bir algılama uzmanıdır ve kutudan çıktığı haliyle örnek segmentasyonu ve poz tahmini gibi görevler için yerel desteğe sahip değildir.
Kullanım Durumları ve Öneriler
RT-DETR ve YOLOv6 arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerinize bağlıdır.
RT-DETR Ne Zaman Seçilmeli
RT-DETR, aşağıdaki durumlar için güçlü bir seçenektir:
- Transformer Tabanlı Tespit Araştırması: NMS olmadan uçtan uca nesne tespiti için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluk Senaryoları: Tespit doğruluğunun en yüksek öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Tespiti: Transformer'ların global dikkat mekanizmasının doğal bir avantaj sağladığı, öncelikli olarak orta ila büyük nesnelerin bulunduğu sahneler.
YOLOv6 Ne Zaman Tercih Edilmeli?
YOLOv6 şunlar için önerilir:
- Endüstriyel Donanım Farkındalıklı Dağıtım: Modelin donanım farkındalıklı tasarımının ve verimli yeniden parametrelendirmesinin belirli hedef donanımlarda optimize edilmiş performans sağladığı senaryolar.
- Hızlı Tek Aşamalı Algılama: Kontrollü ortamlarda gerçek zamanlı video işleme için GPU üzerinde ham çıkarım hızına öncelik veren uygulamalar.
- Meituan Ekosistem Entegrasyonu: Halihazırda Meituan'ın teknoloji yığını ve dağıtım altyapısı içinde çalışan ekipler.
Ultralytics (YOLO26) Ne Zaman Seçilmeli
Çoğu yeni proje için Ultralytics YOLO26, performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtım: Non-Maximum Suppression (NMS) son işlem karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Yalnızca CPU Ortamları: Özel GPU hızlandırması olmayan cihazlarda, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımı belirleyici bir avantaj sağlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Ultralytics'in Avantajı
Doğru modeli seçmek, yalnızca ham kıyaslama rakamlarından daha fazlasını içerir; geliştirici deneyimi, dağıtım esnekliği ve ekosistem desteği de eşit derecede önemlidir. Ultralytics platformuna entegre modelleri kullanarak, kullanıcılar statik araştırma depolarına göre önemli avantajlar elde eder.
- Kullanım Kolaylığı:
ultralyticsPython paketi sorunsuz bir API sunar. Modelleri eğitmek, doğrulamak ve dışa aktarmak yalnızca birkaç satır kod gerektirir. - İyi Yönetilen Ekosistem: Yalıtılmış akademik depolardan farklı olarak, Ultralytics Platformu aktif olarak güncellenmektedir. ONNX, OpenVINO ve CoreML gibi araçlar için sağlam entegrasyonlara sahiptir.
- Eğitim Verimliliği: Ultralytics modelleri, RTDETRv2 gibi transformer mimarilerine kıyasla eğitim sırasında genellikle önemli ölçüde daha düşük VRAM tüketir, bu da tüketici sınıfı donanımlarda daha büyük toplu iş boyutlarına olanak tanır.
- Çok Yönlülük: YOLOv6-3.0'ın odaklanmış kapsamının aksine, Ultralytics modelleri çok modludur ve tek bir birleşik çerçeve içinde görüntü sınıflandırma, yönlendirilmiş sınırlayıcı kutular (OBB) ve segmentasyonu yerel olarak destekler.
Kolaylaştırılmış Dağıtım
Ultralytics CLI'yı kullanarak, eğitilmiş bir modeli uç cihaz dağıtımı için dışa aktarmak, aşağıdaki komutu çalıştırmak kadar basittir: yolo export model=yolo11n.pt format=tensorrt.
Karşınızda YOLO26: Nihai Çözüm
RTDETRv2 ve YOLOv6-3.0 belirli avantajlar sunsa da, alan hızla gelişmektedir. Yeni bilgisayar görüşü projelerine başlayan ekipler için, Ultralytics tarafından Ocak 2026'da piyasaya sürülen YOLO26'yı şiddetle tavsiye ediyoruz.
YOLO26, endüstriyel CNN'lerin ve modern transformer'ların güçlü yönlerini sentezlerken, ilgili zayıflıklarını ortadan kaldırır:
- Uçtan Uca NMS'siz Tasarım: YOLOv10'da ilk kez tanıtılan çığır açan yaklaşımı benimseyen YOLO26, NMS sonrası işlemeyi yerel olarak ortadan kaldırarak, RTDETRv2'ye benzer ancak çok daha az ek yükle istikrarlı ve öngörülebilir dağıtım sağlar.
- MuSGD Optimizatörü: Gelişmiş LLM eğitim tekniklerinden (Moonshot AI'ın Kimi K2'si gibi) ilham alan bu hibrit optimizatör, geleneksel görsel transformer'ların kötü şöhretli kararsızlığını aşarak istikrarlı eğitim ve daha hızlı yakınsama sağlar.
- Uç Cihazlar İçin Optimize Edildi: Önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı ve Dağıtım Odaklı Kaybın (DFL) stratejik olarak kaldırılmasıyla YOLO26, GPU hızlandırmasının mevcut olmadığı mobil ve IoT cihazlar için mükemmel şekilde uygundur.
- ProgLoss + STAL: Bu gelişmiş kayıp fonksiyonları, CNN'ler için tarihsel bir zorluk olan küçük nesne tanımada önemli iyileşmeler sağlayarak YOLO26'yı hava görüntüleri ve robotik için ideal hale getirir.
Eğitim Örneği
Sezgisel Ultralytics API'si, en son teknolojiye sahip modelleri sorunsuz bir şekilde eğitmenizi sağlar. Aşağıda, COCO8 veri kümesi üzerinde YOLO26 Nano modelinin nasıl eğitileceğini gösteren çalıştırılabilir bir örnek bulunmaktadır:
from ultralytics import YOLO
# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the trained model to ONNX format for production
model.export(format="onnx")
Özet
RTDETRv2 ve YOLOv6-3.0'ı karşılaştırırken, karar büyük ölçüde özel donanım ve gecikme kısıtlamalarınıza bağlıdır. RTDETRv2, karmaşık örtüşen nesnelerin işlenmesinin kritik olduğu araştırma ortamlarında ve sunucu tarafı işlemede öne çıkar. YOLOv6-3.0, güçlü NVIDIA GPU'larla donatılmış yüksek verimli üretim hatları için güçlü bir seçenek olmaya devam etmektedir.
Ancak, transformer'ların NMS'siz zarafetini CNN'lerin baş döndürücü hızı ve düşük bellek ayak iziyle birleştiren her iki dünyanın da en iyisini arayan geliştiriciler için YOLO26 rakipsizdir. Ultralytics ekosisteminin kapsamlı dokümantasyonu ve aktif topluluğu tarafından desteklenen YOLO26, yapay zeka projelerinizin sağlam, ölçeklenebilir ve geleceğe hazır olmasını sağlar.