Link to this sectionRTDETRv2 ile YOLOv6-3.0 karşılaştırması#
Bilgisayarlı görü dünyası sürekli gelişerek geliştiricilere nesne tespiti için çok sayıda mimari seçenek sunuyor. Farklı yaklaşımları temsil eden iki önde gelen model; son teknoloji bir vision transformer olan RTDETRv2 ve endüstriyel uygulamalar için özel olarak tasarlanmış, yüksek düzeyde optimize edilmiş bir Evrişimli Sinir Ağı (CNN) olan YOLOv6-3.0'dır.
Bu kapsamlı teknik karşılaştırma; söz konusu modellerin mimarilerini, performans metriklerini ve ideal dağıtım senaryolarını inceliyor. Ayrıca daha geniş Ultralytics ekosisteminin nasıl üstün bir geliştirici deneyimi sunduğunu inceleyecek ve Ultralytics YOLO26 ile gelen yeni nesil yeteneklere göz atacağız.
Link to this sectionRTDETRv2: Vision Transformer Yaklaşımı#
Baidu araştırmacıları tarafından geliştirilen RTDETRv2, orijinal RT-DETR temelinin üzerine inşa edilmiş olup transformer tabanlı nesne tespitinde önemli bir ileri sıçramayı temsil eder.
- Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
- Kurum: Baidu
- Tarih: 24-07-2024
- Arxiv: 2407.17140
- GitHub: lyuwenyu/RT-DETR
- Dokümanlar: RTDETRv2 GitHub README
Link to this sectionMimari Öne Çıkanlar#
RTDETRv2, bir CNN özellik çıkarıcıyı güçlü bir transformer kod çözücü (decoder) ile birleştiren hibrit bir mimari kullanır. Bu modelin en belirgin özelliği, yerel olarak NMS gerektirmeyen tasarımıdır. İşlem sonrası aşamasında NMS (Non-Maximum Suppression) ihtiyacını ortadan kaldırarak bounding box (sınırlayıcı kutu) tahminlerini doğrudan yapar, bu da dağıtımı basitleştirir ve çıkarım gecikmesini stabilize eder.
RTDETRv2'ye entegre edilen "Bag-of-Freebies", küresel dikkat mekanizmaları yerel evrişimlere göre uzamsal ilişkileri doğası gereği daha iyi anladığından, karmaşık sahneleri ve örtüşen nesneleri ele alma becerisini geliştirir.
Transformer modelleri karmaşık sahneleri anlamada mükemmel olsa da, eğitim sırasında genellikle CNN'lere kıyasla önemli ölçüde daha yüksek CUDA belleğine ihtiyaç duyarlar. Bu durum standart tüketici GPU'larında batch size (toplu iş boyutu) değerlerini sınırlayabilir ve genel eğitim süresini artırabilir.
RTDETR hakkında daha fazla bilgi edinin
Link to this sectionYOLOv6-3.0: Endüstriyel Verimlilik Maksimizasyonu#
Meituan Vision AI Departmanı tarafından geliştirilen YOLOv6-3.0, GPU verimliliğinin kritik olduğu endüstriyel süreçler için yeni nesil bir dedektör olarak özel olarak tasarlanmıştır.
- Yazarlar: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu ve Xiangxiang Chu
- Kuruluş: Meituan
- Tarih: 2023-01-13
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Link to this sectionMimari Odak#
YOLOv6-3.0, NVIDIA GPU'lar gibi donanım hızlandırıcılarındaki bellek erişim maliyetlerini en aza indirmek için titizlikle tasarlanmış bir EfficientRep omurgasına dayanır. Boyun (neck) mimarisi, farklı ölçeklerde özellik birleştirmeyi iyileştirmek için iki yönlü bir birleştirme (BiC) modülüne sahiptir.
Eğitim sırasında, daha hızlı yürütme için anchor-free (çapasız) bir çıkarım modunu korurken, anchor-based (çapa tabanlı) paradigmaların avantajlarından yararlanmak için Anchor-Aided Training (AAT) stratejisini kullanır. Sunucu sınıfı GPU'larda (örneğin T4, A100) olağanüstü verimlilik elde etse de, özel mimarisi yalnızca CPU kullanan edge cihazlarında dağıtıldığında suboptimal gecikme süresine yol açabilir.
YOLOv6 hakkında daha fazla bilgi edin
Link to this sectionPerformans Karşılaştırması#
Modelleri üretim ortamı için değerlendirirken, doğruluk (mAP) ile çıkarım hızı ve hesaplama maliyetini (FLOPs) dengelemek kritiktir. Aşağıdaki tablo, bu modellerin birbirine göre durumunu göstermektedir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv6-3.0, TensorRT üzerinde saf işlem hızında baskın olsa da, RTDETRv2 özellikle daha büyük model varyantlarıyla daha iyi ölçeklenerek daha yüksek mAP skorları yakalar. Bununla birlikte, her iki model de modern birleşik çerçevelerde bulunan kapsamlı çok yönlülükten yoksundur. YOLOv6-3.0 temel olarak bir nesne tespiti uzmanıdır ve instance segmentation veya pose estimation gibi görevler için yerleşik desteği eksiktir.
Link to this sectionKullanım Durumları ve Öneriler#
RT-DETR ve YOLOv6 arasında seçim yapmak, projenizin özel gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.
Link to this sectionRT-DETR Ne Zaman Seçilmeli#
RT-DETR şunlar için güçlü bir seçimdir:
- Transformer Tabanlı Algılama Araştırması: NMS olmadan uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
- Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
- Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük nesnelerin olduğu sahneler.
Link to this sectionNe Zaman YOLOv6 Seçilmeli#
YOLOv6 şunlar için önerilir:
- Endüstriyel Donanım Odaklı Dağıtım: Modelin donanım odaklı tasarımı ve verimli yeniden parametrelendirilmesinin, belirli hedef donanımlarda optimize edilmiş performans sağladığı senaryolar.
- Hızlı Tek Aşamalı Algılama: Kontrollü ortamlarda gerçek zamanlı video işleme için GPU üzerindeki ham çıkarım hızına öncelik veren uygulamalar.
- Meituan Ekosistem Entegrasyonu: Halihazırda Meituan'ın teknoloji yığını ve dağıtım altyapısı içinde çalışan ekipler.
Link to this sectionUltralytics (YOLO26) Ne Zaman Seçilmeli#
Çoğu yeni proje için, Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:
- NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
- Sadece CPU Ortamları: YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı, özel GPU hızlandırması olmayan cihazlar.
- Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.
Link to this sectionUltralytics Avantajı#
Doğru modeli seçmek, ham kıyaslama numaralarından daha fazlasını gerektirir; geliştirici deneyimi, dağıtım esnekliği ve ekosistem desteği aynı derecede önemlidir. Ultralytics platformuna entegre edilmiş modelleri kullanarak, durağan araştırma depolarına kıyasla önemli avantajlar kazanırsın.
- Kullanım Kolaylığı:
ultralyticsPython paketi sorunsuz bir API sunar. Modelleri eğitmek, doğrulamak ve dışa aktarmak sadece birkaç satır kod alır. - İyi Korunan Ekosistem: İzole akademik depoların aksine, Ultralytics Platform aktif olarak güncellenir. ONNX, OpenVINO ve CoreML gibi araçlar için güçlü entegrasyonlara sahiptir.
- Eğitim Verimliliği: Ultralytics modelleri, eğitim sırasında RTDETRv2 gibi transformer mimarilerine kıyasla genellikle önemli ölçüde daha düşük VRAM tüketir, bu da tüketici sınıfı donanımlarda daha büyük batch size değerlerine olanak tanır.
- Çok Yönlülük: YOLOv6-3.0'ın odaklanmış kapsamının aksine, Ultralytics modelleri çok modludur ve tek bir birleşik çerçeve içinde image classification, oriented bounding boxes (OBB) ve segmentasyon işlemlerini yerel olarak destekler.
Ultralytics CLI kullanarak, eğitilmiş bir modeli edge dağıtımı için dışa aktarmak şu komutu çalıştırmak kadar basittir: yolo export model=yolo11n.pt format=tensorrt.
Link to this sectionKarşında YOLO26: Nihai Çözüm#
RTDETRv2 ve YOLOv6-3.0 belirli avantajlar sunsa da, alan hızla ilerliyor. Yeni bilgisayarlı görü projelerine başlayan ekipler için, Ultralytics tarafından Ocak 2026'da yayınlanan YOLO26 modelini şiddetle tavsiye ediyoruz.
YOLO26, endüstriyel CNN'lerin ve modern transformer'ların güçlü yönlerini sentezlerken kendi zayıf yönlerini ortadan kaldırır:
- Uçtan Uca NMS-Free Tasarım: YOLOv10 ile tanıtılan çığır açan yeniliği benimseyen YOLO26, NMS sonrası işlemeyi yerel olarak ortadan kaldırır ve RTDETRv2'ye benzer şekilde kararlı ve öngörülebilir bir dağıtım sağlarken çok daha az ek yük oluşturur.
- MuSGD Optimize Edici: (Moonshot AI'ın Kimi K2'si gibi) gelişmiş LLM eğitim tekniklerinden esinlenen bu hibrit optimize edici, geleneksel vision transformer modellerinin kötü şöhretli kararsızlığının üstesinden gelerek kararlı eğitim ve daha hızlı yakınsama sağlar.
- Edge için Optimize Edildi: Önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı ve Distribution Focal Loss (DFL) mekanizmasının stratejik olarak kaldırılmasıyla YOLO26, GPU hızlandırmasının bulunmadığı mobil ve IoT cihazları için mükemmel şekilde uygundur.
- ProgLoss + STAL: Bu gelişmiş kayıp (loss) fonksiyonları, CNN'ler için tarihsel bir zorluk olan küçük nesne tanıma konusunda kayda değer iyileştirmeler sağlar ve YOLO26'yı hava görüntüleri ve robotik uygulamaları için ideal hale getirir.
Link to this sectionEğitim Örneği#
Sezgisel Ultralytics API, son teknoloji modelleri sorunsuz bir şekilde eğitmeni sağlar. Aşağıda, YOLO26 Nano modelini COCO8 veri kümesinde nasıl eğiteceğini gösteren çalıştırılabilir bir örnek bulunmaktadır:
from ultralytics import YOLO
# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the trained model to ONNX format for production
model.export(format="onnx")Link to this sectionÖzet#
RTDETRv2 ve YOLOv6-3.0 karşılaştırıldığında, karar büyük ölçüde donanımına ve gecikme süresi kısıtlamalarına bağlıdır. RTDETRv2, araştırma ortamlarında ve karmaşık örtüşen nesnelerin ele alınmasının kritik olduğu sunucu tarafı işlemlerde öne çıkar. YOLOv6-3.0, güçlü NVIDIA GPU'larla donatılmış yüksek verimli üretim hatları için güçlü bir seçenek olmaya devam etmektedir.
Ancak, transformer'ların NMS-free zarafetini CNN'lerin göz kamaştırıcı hızı ve düşük bellek ayak iziyle birleştiren iki dünyanın en iyisini arayan geliştiriciler için YOLO26 rakipsizdir. Kapsamlı dokümantasyon ve Ultralytics ekosisteminin aktif topluluğu tarafından desteklenen YOLO26, yapay zeka projelerinin sağlam, ölçeklenebilir ve geleceğe hazır olmasını sağlar.