İçeriğe geç

YOLOv10 RTDETRv2: Gerçek Zamanlı Algılamada Mimari ve Performans

Doğru nesne algılama mimarisini seçmek, bilgisayar görme uygulamaları geliştiren geliştiriciler için kritik bir karardır. Bu kılavuz, gerçek zamanlı algılama için iki farklı yaklaşımı derinlemesine ele almaktadır: YOLOv10, uçtan uca yetenekler sunan CNN tabanlı YOLO bir evrimi ve RTDETRv2, CNN'nin hakimiyetine meydan okumak için tasarlanmış bir dönüştürücü tabanlı model. Bu kılavuzda, mimarilerini, karşılaştırmalı değerlendirmelerini ve çeşitli dağıtım senaryolarına uygunluklarını analiz ediyoruz.

Modele Genel Bakış ve Kökenleri

Bu modellerin soyunu anlamak, tasarım felsefelerini ve amaçlanan kullanım durumlarını netleştirmeye yardımcı olur.

YOLOv10: NMS CNN

Tsinghua Üniversitesi araştırmacıları tarafından Mayıs 2024'te piyasaya sürülen YOLOv10 , YOLO önemli bir değişime YOLOv10 . Gerçek zamanlı dedektörlerde uzun süredir var olan bir darboğazı ele alıyor: Non-Maximum Suppression (NMS). NMS eğitim için tutarlı çift atamalar kullanarak, YOLOv10 , YOLOv9 YOLOv8 gibi önceki nesillere kıyasla daha düşük gecikme süresi YOLOv10 ve dağıtım süreçlerini basitleştirir.

YOLOv10 hakkında daha fazla bilgi edinin.

RTDETRv2: Transformer Meydan Okuyucusu

RT-DETR Gerçek Zamanlı Algılama Dönüştürücü), YOLO gerçek anlamda rekabet edebilen ilk dönüştürücü tabanlı modeldi. Baidu tarafından geliştirilen RTDETRv2, "Bag of Freebies" yaklaşımıyla bu mimariyi iyileştirerek, daha iyi yakınsama ve esneklik için eğitim stratejisini ve mimariyi optimize eder. Görsel dönüştürücülerin (ViT'ler) gücünü kullanarak küresel bağlamı yakalar ve genellikle daha yüksek hesaplama maliyetine rağmen, örtülme içeren karmaşık sahnelerde CNN'lerden daha iyi performans gösterir.

  • Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, ve diğerleri.
  • Kuruluş:Baidu
  • Tarih: 2023-04-17 (Orijinal RT-DETR), 2024'te güncellemeler
  • Bağlantılar:Arxiv Makalesi | GitHub Deposu

Teknik Mimari Karşılaştırması

Temel fark, bu modellerin özellikleri nasıl işlediği ve tahminleri nasıl ürettiği konusunda yatmaktadır.

YOLOv10 Mimarisi

YOLOv10 , Convolutional Neural Network (CNN) backbone YOLOv10 backbone baş ve eğitim sürecinde devrim yaratıyor.

  1. Tutarlı Çift Atamalar: Eğitim sırasında zengin denetim için bir-çok ataması ve çıkarım için bir-bir ataması kullanır. Bu, modelin nesne başına tek bir en iyi kutu tahmin etmesini sağlar ve NMS ihtiyacını ortadan kaldırır.
  2. Bütünsel Verimlilik Tasarımı: Mimari, hesaplama fazlalığını azaltmak için hafif sınıflandırma başlıkları ve uzamsal kanal ayrıştırmalı aşağı örnekleme özelliğine sahiptir.
  3. Büyük Çekirdek Konvolüsyonları: Son gelişmelere benzer şekilde, kendi kendine dikkat mekanizmalarının yüksek maliyetine katlanmadan doğruluğu artırmak için büyük alıcı alanlar kullanır.

RTDETRv2 Mimarisi

RTDETRv2, transformatör kodlayıcı-kod çözücü yapısını temel alır.

  1. Hibrit Kodlayıcı: CNN backbone genellikle ResNet veya HGNetv2) kullanarak özellikleri çıkarır ve bu özellikler daha sonra bir dönüştürücü kodlayıcı tarafından işlenir. Bu, görüntüdeki uzun menzilli bağımlılıkları modellemesine olanak tanır.
  2. Belirsizlik-Minimal Sorgu Seçimi: Bu mekanizma, kod çözücü için yüksek kaliteli ilk sorguları seçerek başlatma ve yakınsama hızını iyileştirir.
  3. Esnek Ayırma: RTDETRv2, ayrık örneklemeyi destekleyerek kullanıcıların katı CNN yapılarına göre hız ve doğruluk arasında daha dinamik bir şekilde denge kurmalarını sağlar.

Ekosistem Neden Önemlidir?

RTDETRv2 gibi akademik modeller yeni mimariler sunsa da, genellikle üretim için gerekli olan sağlam araçlardan yoksundur. Ultralytics gibi YOLO26 ve YOLO11 gibi Ultralytics modelleri, eksiksiz bir ekosisteme entegre edilmiştir. Bu ekosistem, kolay veri kümesi yönetimi, tek tıklamayla eğitim ve uç cihazlara sorunsuz dağıtım için Ultralytics içerir.

Performans Metrikleri

Aşağıdaki tablo, COCO setinde her iki modelin performansını karşılaştırmaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Karşılaştırma Analizi

  • Gecikme Hakimiyeti: YOLOv10 , tüm model boyutlarında önemli ölçüde daha düşük gecikme süresi YOLOv10 . Örneğin, YOLOv10s, T4 GPU'larda RTDETRv2-s'den yaklaşık 2 kat daha hızlıdır ve aynı zamanda rekabetçi bir doğruluk oranını korumaktadır (46,7% vs 48,1% mAP).
  • Parametre Verimliliği: YOLOv10 , parametreler ve FLOP'lar açısından oldukça YOLOv10 . YOLOv10m, RTDETRv2-m ile benzer bir doğruluk elde eder, ancak parametrelerin yarısından daha azını gerektirir (15,4 milyon karşı 36 milyon), bu da onu mobil ve uç AI uygulamaları için çok daha üstün kılar.
  • Doğruluk Tavanı: RTDETRv2, transformatörün küresel bağlamı görme yeteneğinden yararlanarak, ham doğruluk (mAP) açısından "Küçük" ve "Orta" kategorilerinde öne çıkmaktadır. Ancak, en büyük ölçeklerde (X-büyük), YOLOv10 RTDETRv2'yi YOLOv10 ve hatta geçmekte, aynı zamanda daha hızlı olmaya devam etmektedir.

Eğitim ve Dağıtımla İlgili Hususlar

Araştırmadan üretime geçerken, eğitim verimliliği ve bellek kullanımı gibi faktörler çok önemli hale gelir.

Bellek Gereksinimleri

RTDETRv2 gibi transformatör tabanlı modeller, öz dikkat mekanizmalarının ikinci dereceden karmaşıklığı nedeniyle genellikle eğitim sırasında önemli ölçüde daha fazla CUDA tüketir. Bu da eğitim için pahalı, üst düzey GPU'lar gerektirir. Buna karşın, Ultralytics YOLO bellek verimliliği ile ünlüdür. YOLOv10 daha yeni YOLO26 gibi modeller genellikle tüketici sınıfı donanımlarda veya standart bulut örneklerinde ince ayar yapılabilir, bu da giriş engelini azaltır.

Kullanım Kolaylığı ve Ekosistem

Ultralytics YOLOv10 kullanmanın en önemli avantajlarından biri, kullanıcı deneyiminin kolaylaştırılmış olmasıdır.

  • Ultralytics : YOLOv10 birkaç satırlık Python YOLOv10 yükleyebilir, eğitebilir ve dağıtabilirsiniz. Bu, YOLOv8 veya YOLO11 ile aynıdır.
  • Dışa Aktarma Seçenekleri: Ultralytics , aşağıdaki formatlara anında dışa aktarmayı Ultralytics ONNX, TensorRT, CoreML ve OpenVINO gibi formatlara anında dışa aktarımını destekler. RTDETRv2, dağıtım desteğini iyileştirmiş olsa da, transformatörlerle ilişkili dinamik şekilleri işlemek için genellikle daha karmaşık yapılandırma gerektirir.
  • Dokümantasyon: Kapsamlı dokümantasyon, geliştiricilerin öğreticilere, hiperparametre kılavuzlarına ve sorun giderme kaynaklarına erişebilmesini sağlar.
from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

İdeal Kullanım Senaryoları

YOLOv10 Ne Zaman Tercih Edilmeli?

YOLOv10 , hız ve kaynak kısıtlamalarının kritik olduğu senaryolar için tercih edilen YOLOv10

  • Mobil Uygulamalar: Pil tüketimini artırmadan gerçek zamanlı çıkarım gerektireniOS .
  • Gömülü Sistemler: Raspberry Pi veya NVIDIA gibi bellek (RAM) sınırlı olan cihazlarda çalışır.
  • Yüksek FPS Video İşleme: Hareket bulanıklığını veya kaçırılan olayları önlemek için yüksek kare hızının korunmasının gerekli olduğu trafik izleme veya spor analizi gibi uygulamalar.

Ne Zaman RTDETRv2 Seçmeli

RTDETRv2, doğruluk öncelikli ve donanım kaynakları bol olduğunda uygundur.

  • Karmaşık Sahneleri: Yoğun örtülme veya dağınıklığın olduğu ortamlarda, genel dikkat mekanizması üst üste binen nesneleri ayırt etmeye yardımcı olur.
  • Sunucu Tarafı Çıkarım: Modellerin güçlü bulut GPU'larında çalıştığı senaryolar, mAP'de hafif bir artış için daha yüksek gecikme süresi ve bellek maliyetini kabul edilebilir hale getirir.

Gelecek: Ultralytics

YOLOv10 , NMS kavramı YOLOv10 da, bu alan hızla gelişmeye devam ediyor. 2026 yılının Ocak ayında piyasaya sürülen Ultralytics bu evrimin zirvesini temsil ediyor.

YOLO26, YOLOv10 tarafından başlatılan uçtan uca NMS tasarımı benimser, YOLOv10 MuSGD optimizörü (LLM eğitiminden esinlenerek) ve ProgLoss gibi geliştirilmiş kayıp fonksiyonları ile bunu geliştirir. Bu, önceki nesillere kıyasla sadece eğitilmesi daha kolay değil, aynı zamanda CPU %43'e kadar daha hızlı olan modellerle sonuçlanır. Ayrıca, YOLO26 segmentasyon, poz tahmini ve OBB dahil olmak üzere çok çeşitli görevleri yerel olarak destekler ve RTDETRv2 gibi algılama odaklı modellerin sunamadığı çok yönlülük sunar.

Hız, doğruluk ve dağıtım kolaylığı arasında en iyi dengeyi arayan geliştiriciler için YOLO26'ya geçişi şiddetle tavsiye ederiz.

YOLO26 hakkında daha fazla bilgi edinin

Özet

YOLOv10 RTDETRv2, gerçek zamanlı nesne algılamanın sınırlarını zorluyor. YOLOv10 , NMS YOLOv10 ortadan kaldırarak, inanılmaz derecede hızlı ve verimli olan saf bir CNN mimarisi sunuyor. RTDETRv2, transformatörlerin karmaşık özellik çıkarmada üstünlük sağlayarak gerçek zamanlı rakipler olabileceğini kanıtlamaktadır. Ancak, hız, verimlilik ve geliştirici dostu araçların birleşimini gerektiren gerçek dünya uygulamalarının büyük çoğunluğu için, YOLOv10, YOLO11 ve en son teknoloji YOLO26'yı destekleyen Ultralytics sektör standardı olmaya devam etmektedir.

Daha fazla karşılaştırma için, YOLOv8 YOLOv10 analizimizi inceleyin veya dışa aktarma kılavuzumuzla modellerinizi nasıl optimize edebileceğinizi öğrenin.


Yorumlar