YOLOv6-3.0 ve RTDETRv2: Endüstriyel CNN'ler ve Gerçek Zamanlı Transformer'lar Arasında Bir Düello

Bilgisayarlı görü uygulamaları için en uygun mimariyi seçmek; hız, doğruluk ve dağıtım kısıtlamalarını dengelemeyi gerektirir. Bu kapsamlı teknik incelemede, yüksek verimli GPU ortamları için tasarlanmış endüstriyel sınıf bir Evrişimli Sinir Ağı (CNN) olan YOLOv6-3.0'ı, gerçek zamanlı nesne algılamaya dikkat mekanizmaları getiren son teknoloji ürünü transformer tabanlı bir model olan RTDETRv2 ile karşılaştırıyoruz.

Her iki model de yapay zeka araştırmalarında önemli kilometre taşlarını temsil etse de, en çok yönlü ve verimli işlem hattını arayan geliştiriciler genellikle güçlü Ultralytics Platform'a yönelmektedir.


YOLOv6-3.0: Endüstriyel İş Hacmi

Meituan'daki Vision AI Departmanı tarafından geliştirilen YOLOv6-3.0, NVIDIA GPU'lar gibi donanım hızlandırıcılarında ham işlem hızlarını maksimize etmeye odaklanır ve eski endüstriyel uygulamalardaki yerini sağlamlaştırır.

Mimari Öne Çıkanlar

YOLOv6-3.0, yüksek hızlı GPU çıkarımı için özel olarak uyarlanmış, donanım dostu bir EfficientRep belkemiği (backbone) benimser. Mimari, farklı uzamsal çözünürlüklerde özellik birleşimini zenginleştirmek için boynunda Çift Yönlü Birleştirme (BiC) modülü entegre eder. Eğitim sırasında, anchor tabanlı eğitimin güçlü yanlarından yararlanırken anchor içermeyen bir çıkarım hattını korumak için Anchor Destekli Eğitim (AAT) stratejisinden yararlanır.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • T4 ve A100 GPU'lar gibi sunucu sınıfı donanımlarda olağanüstü iş hacmi.
  • RepOpt kullanarak INT8 dağıtımı için özel nicemleme öğreticileri sağlar.
  • Büyük ölçekli video analitiği için uygun parametre-hız oranı.

Zayıf Yönler:

  • Öncelikle bir sınırlayıcı kutu (bbox) dedektörüdür; Ultralytics YOLO11 gibi modellerde bulunan kutudan çıktığı gibi çoklu görev çok yönlülüğünden (örneğin, Pose, OBB) yoksundur.
  • İşlem sonrası sırasında karmaşık Non-Maximum Suppression (NMS) yöntemine daha ağır bir bağımlılık, gecikme değişkenliğini artırır.
  • Ana akım çerçevelere kıyasla daha az aktif ekosistem, güncellemeleri ve topluluk desteğini daha az tahmin edilebilir kılar.

YOLOv6 hakkında daha fazla bilgi edinin


RTDETRv2: Gerçek Zamanlı Transformer'lar

Baidu'daki araştırmacılar tarafından yönetilen RTDETRv2, algılama transformer çerçevesini "bag-of-freebies" yaklaşımıyla geliştirerek orijinal RT-DETR'nin üzerine inşa edilir ve gerçek zamanlı uygulanabilirlikten ödün vermeden son teknoloji doğruluk sağlar.

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
  • Organizasyon: Baidu
  • Tarih: 2024-07-24
  • ArXiv: 2407.17140
  • GitHub: lyuwenyu/RT-DETR

Mimari Öne Çıkanlar

Geleneksel CNN'lerin aksine, RTDETRv2 doğal olarak uçtan uca çalışır. Transformer dikkat katmanlarından yararlanarak, mimari NMS işlem sonrası ihtiyacını tamamen ortadan kaldırır. Bu, kolaylaştırılmış bir çıkarım hattına olanak tanır. RTDETRv2, yüksek düzeyde optimize edilmiş ölçekler arası özellik birleşimi ve verimli bir hibrit kodlayıcı sunarak standart COCO veri kümelerini olağanüstü bir hassasiyetle işlemesini sağlar.

Güçlü ve Zayıf Yönler

Güçlü Yönler:

  • Transformer tabanlı dikkat mekanizmaları, özellikle karmaşık veya yoğun sahnelerde olağanüstü ortalama Hassasiyet (mAP) sağlar.
  • NMS içermeyen tasarım, çıkarım gecikmesini standartlaştırır ve üretim ortamlarına entegrasyonu basitleştirir.
  • Donanım kısıtlamalarının minimal olduğu durumlarda mutlak maksimum doğruluk gerektiren senaryolar için mükemmeldir.

Zayıf Yönler:

  • Transformer katmanları eğitim sırasında önemli miktarda CUDA belleği talep eder, bu da üst düzey GPU'lara erişimi olmayan araştırmacıları izole eder.
  • CPU çıkarım hızları, özel uç CNN'lere göre belirgin şekilde daha yavaştır, bu da mobil veya IoT cihazlarındaki kullanımını sınırlar.
  • Kurulum ve ayarlama, geleneksel makine öğrenimi operasyonlarına (MLOps) alışkın ekipler için karmaşık olabilir.

RTDETR hakkında daha fazla bilgi edin


Ayrıntılı Performans Karşılaştırması

Aşağıdaki tablo, YOLOv6-3.0 ve RTDETRv2'yi temel performans göstergeleri açısından kıyaslar. YOLOv6'nın parametre verimliliği ile RTDETRv2'nin ham doğruluğu arasındaki keskin zıtlığa dikkat et.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
Dağıtım İpucu

Raspberry Pi gibi kesinlikle CPU donanımı üzerinde dağıtım yapıyorsan, CNN tabanlı modeller genellikle Saniye Başına Kare (FPS) değerlerinde transformer mimarilerini çok geride bırakır. Optimum uç performans için, çıkarımını hızlandırmak adına OpenVINO kullanmayı düşün.


Kullanım Durumları ve Öneriler

YOLOv6 ile RT-DETR arasında seçim yapmak, özel proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

YOLOv6 Ne Zaman Seçilmeli?

YOLOv6 şunlar için güçlü bir tercihtir:

  • Endüstriyel Donanım Odaklı Dağıtım: Modelin donanım odaklı tasarımının ve verimli yeniden parametrelendirmenin belirli hedef donanımlarda optimize edilmiş performans sağladığı senaryolar.
  • Hızlı Tek Aşamalı Algılama: Kontrollü ortamlarda gerçek zamanlı video işleme için GPU'da ham çıkarım hızına öncelik veren uygulamalar.
  • Meituan Ekosistem Entegrasyonu: Hali hazırda Meituan'ın teknoloji yığını ve dağıtım altyapısı içinde çalışan ekipler.

Ne Zaman RT-DETR Seçilmeli?

RT-DETR şunlar için önerilir:

  • Transformer Tabanlı Algılama Araştırmaları: NMS gerektirmeyen uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini araştıran projeler.
  • Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük ölçekli nesnelerin bulunduğu sahneler.

Ne Zaman Ultralytics (YOLO26) Seçilmeli

Çoğu yeni proje için Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası zorluğu olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: Özel GPU hızlandırması olmayan, YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Ultralytics Avantajı: YOLO26 ile Tanış

YOLOv6-3.0 ve RTDETRv2 kendi nişlerinde mükemmel olsalar da, modern makine öğrenimi ortamı hız, doğruluk ve geliştirici deneyimini harmanlayan modeller talep eder. Ultralytics ekosistemi, özellikle YOLO26'nın piyasaya sürülmesiyle bu ihtiyaçları mükemmel bir şekilde karşılar.

Ocak 2026'da piyasaya sürülen Ultralytics YOLO26, YOLOv8 gibi eski modelleri ve YOLO12 gibi topluluk çatallarını büyük ölçüde geride bırakarak bilgisayarlı görü için kesin standardı temsil eder.

Neden YOLO26 Rakiplerinden Daha İyi?

  1. Uçtan Uca NMS İçermeyen Tasarım: İlk olarak YOLOv10'da öncülük edilen YOLO26, NMS işlem sonrası adımını doğal olarak ortadan kaldırır. Bu, yüksek oranda optimize edilmiş bir CNN'in ışık hızındaki çalışma şeklini korurken RTDETRv2'nin dağıtım basitliğini sunar.
  2. MuSGD Optimize Edici: Büyük dil modeli yeniliklerinden (Moonshot AI'ın Kimi K2'si gibi) ilham alan YOLO26, SGD ve Muon hibritini kullanır. Bu, inanılmaz derecede kararlı eğitim dinamikleri ve hızlı yakınsama sağlayarak, özel veri kümeleri için gereken süreyi ve hesaplama kaynaklarını azaltır.
  3. Benzersiz Uç Performansı: Tam DFL (Distribution Focal Loss) Kaldırma işlemini gerçekleştirerek, YOLO26 dışa aktarma mimarilerini basitleştirir. Bu optimizasyon, eski modellere kıyasla %43'e kadar daha hızlı CPU çıkarımı sağlar ve onu uç AI ve IoT cihazları için tartışmasız şampiyon yapar.
  4. Gelişmiş Küçük Nesne Algılama: ProgLoss ve STAL kayıp fonksiyonlarının tanıtılması, küçük nesneleri algılamada büyük bir sıçrama sağlar; bu, YOLOv6'nın geçmişte zorlandığı drone analitiği ve hava görüntüleri için kritik bir gerekliliktir.
  5. Görev Çok Yönlülüğü: Yalnızca algılamaya odaklanan YOLOv6'nın aksine, YOLO26; Örnek Segmentasyonu, Poz Kestirimi, Görüntü Sınıflandırma ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) dahil olmak üzere çok modlu iş akışlarını tek ve birleşik bir API'den destekler.

YOLO26 hakkında daha fazla bilgi edin

Eğitim Verimliliği ve Kullanım Kolaylığı

Ultralytics Python API, geliştirici verimliliğini en üst düzeye çıkarmak için tasarlanmıştır. Bağımsız araştırma depolarının gerektirdiği karmaşık ortam kurulumunu tamamen atlayarak, sadece birkaç satır kodla eğitimden dağıtıma geçebilirsin.

Aşağıda, Ultralytics paketini kullanarak en son teknoloji bir YOLO26 modelini nasıl eğiteceğine ve doğrulayacağına dair tam ve çalıştırılabilir bir örnek bulunmaktadır:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")

# Export the trained model to ONNX for production deployment
model.export(format="onnx")

Sonuç

Hem YOLOv6-3.0 hem de RTDETRv2, AI topluluğuna etkileyici katkılardır. YOLOv6-3.0, ham GPU endüstriyel otomasyonu için güçlü bir araç olmaya devam ediyor ve RTDETRv2, transformer mimarilerinin doğruluğu maksimize ederken gerçek zamanlı gecikmelere ulaşabileceğini kanıtlıyor.

Ancak, aktif topluluk desteği ile güvenilir ve üretime hazır bir çerçeve gerektiren ekipler için Ultralytics YOLO modelleri tutarlı bir şekilde daha iyi bir tercihtir. Hugging Face ve TensorRT gibi platformlarla sorunsuz entegrasyon, eğitim sırasındaki inanılmaz derecede düşük bellek yükü ile birleştiğinde, üst düzey AI'ya erişimi demokratikleştirir. YOLO26'ya yükseltme yaparak, geliştiriciler çığır açan MuSGD optimize edicisinden ve NMS içermeyen mimariden yararlanarak daha hızlı, daha akıllı ve daha ölçeklenebilir bilgisayarlı görü hatları oluşturabilirler.

Yorumlar