İçeriğe geç

RTDETRv2 ve YOLOv7: Gerçek Zamanlı Nesne Algılamanın Evriminde Gezinmek

Bilgisayar görüşü alanı, hem Evrişimsel Sinir Ağları (CNN'ler) hem de Görsel Transformer'lar (ViT'ler) alanındaki sürekli yeniliklerle son birkaç yılda önemli ölçüde genişledi. Dağıtımınız için doğru mimariyi seçmek, hız, doğruluk ve hesaplama yükü arasındaki ince dengeleri anlamayı gerektirir. Bu kılavuz, yüksek kabul gören iki mimari olan RTDETRv2 ve YOLOv7 arasındaki teknik farklılıkları incelerken, aynı zamanda daha yeni Ultralytics YOLO26'da mevcut modern gelişmeleri de vurgulamaktadır.

RTDETRv2: Gerçek Zamanlı detect için Transformer Yaklaşımı

RTDETRv2 (Gerçek Zamanlı Algılama Transformer'ı sürüm 2), selefinin temelleri üzerine inşa edilerek, transformer tabanlı mimarilerin geleneksel ön işleme adımlarına dayanmadan gerçek zamanlı senaryolarda etkili bir şekilde rekabet edebileceğini kanıtlar.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş:BaiduTarih: 2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RTDETRv2 Deposu

Mimari Öne Çıkanlar

RTDETRv2, hibrit bir kodlayıcı ve bir transformer kod çözücü mimarisi kullanır. Model, öz-dikkat mekanizmalarından yararlanarak görüntünün tamamını bütünsel olarak işler ve bu sayede karmaşık uzamsal ilişkileri, katı bir şekilde yerelleştirilmiş evrişimsel çekirdeklerden daha iyi anlamasını sağlar. En belirleyici özelliklerinden biri, yerel olarak NMS içermeyen tasarımıdır. Maksimum Olmayan Bastırma (NMS) ortadan kaldırılarak, RTDETRv2 dağıtım sırasında değişken çıkarım gecikmesine neden olan yaygın bir darboğazı ortadan kaldırır.

Güçlü Yönler ve Sınırlamalar

RTDETRv2'nin temel gücü, karmaşık sahnelerdeki yoğun, örtüşen nesneleri işleme yeteneğinde yatmaktadır. Transformer dikkat katmanları tarafından sağlanan küresel bağlam, özellikle örtüşmelerin sık olduğu senaryolarda onu oldukça doğru kılar.

Ancak, bu durum bir hesaplama maliyetiyle birlikte gelir. Transformer modelleri, geleneksel olarak CNN'lere kıyasla eğitim ve çıkarım sırasında daha yüksek bellek ayak izi gerektirir. Ayrıca, RTDETRv2 genellikle dağıtılmış eğitim sırasında yakınsamak için daha fazla epok gerektirir, bu da özel veri kümelerini ayarlayan geliştiriciler için daha uzun yineleme döngülerine yol açar.

RTDETRv2 hakkında daha fazla bilgi edinin

YOLOv7: Hız İçin Bir CNN Temel Çizgisi

RTDETRv2'den bir yıl önce yayınlanan YOLOv7, klasik YOLO çerçevesine çeşitli yapısal optimizasyonlar getirerek, yayınlandığı dönemde CNN tabanlı gerçek zamanlı dedektörler için güçlü bir referans noktası oluşturdu.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7 Deposu

Mimari Öne Çıkanlar

YOLOv7'nin mimarisi, Genişletilmiş Verimli Katman Toplama Ağı (E-ELAN) konsepti etrafında inşa edilmiştir. Bu yaklaşım, gradyan yolunu optimize ederek modelin hesaplama karmaşıklığını önemli ölçüde artırmadan daha etkili bir şekilde öğrenmesini sağlar. Yazarlar ayrıca, eğitim sırasında model doğruluğunu artıran ve kenar cihazlarda çıkarım hızını etkilemeyen bir dizi yöntem olan "eğitilebilir bedelsizler paketi"ni tanıttılar.

Güçlü Yönler ve Sınırlamalar

YOLOv7, standart nesne algılama görevleri için oldukça yetenekli bir model olmaya devam etmekte ve tüketici GPU'larında mükemmel işlem hızları sunmaktadır. CNN tabanlı yapısı, RTDETRv2 gibi transformer tabanlı modellere kıyasla eğitim sırasında genellikle daha az CUDA belleği gerektirdiği anlamına gelir.

Bu avantajlara rağmen, YOLOv7 hala ön işleme sonrası için NMS'ye güvenmektedir. Yüksek tahmin yoğunluğuna sahip ortamlarda, NMS adımı işlem süresinde dalgalanmalara neden olabilir, bu da katı gerçek zamanlı garantileri zorlaştırır. Ek olarak, modern çerçevelere kıyasla, örnek segmentasyonu ve poz tahmini gibi çeşitli görevleri ele alma süreci parçalı olabilir.

YOLOv7 hakkında daha fazla bilgi edinin.

Performans Karşılaştırması

Bu modelleri değerlendirmek, ortalama Hassasiyet (mAP), parametre sayısı ve çıkarım hızı arasındaki hassas dengeye bakmayı gerektirir.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Performans Bağlamı

RTDETRv2-x en yüksek mAP'i elde ederken, aynı zamanda en büyük parametre sayısına ve FLOP'lara sahiptir. RTDETRv2-s gibi daha küçük varyantlar TensorRT üzerinde rekabetçi hız sunarken, özel GPU'ları olmayan düşük güçlü ortamları hedefleyen kullanıcılar CPU çıkarım yeteneklerini dikkatlice değerlendirmelidir.

Modern Çözüm: YOLO26 Sahneye Çıkıyor

RTDETRv2 ve YOLOv7, bilgisayar görüşü uygulamalarının sınırlarını zorlamada önemli rol oynarken, yapay zeka alanı hızla gelişmektedir. Ocak 2026'da yayınlanan YOLO26, hem CNN verimliliğinin hem de transformer benzeri NMS içermeyen mimarilerin en iyi yönlerini sentezler.

Yeni sistemler geliştiren geliştiriciler ve araştırmacılar için entegre Ultralytics Platformu ve python ekosistemi, teknik borcu önemli ölçüde azaltan birleşik bir deneyim sunar.

YOLO26'daki Temel Yenilikler

  • Uçtan Uca NMS İçermeyen Tasarım: YOLO26, yerel olarak uçtan uca bir yapıya sahiptir ve daha hızlı, daha basit dağıtım için NMS ön işleme sonrasını ortadan kaldırır. Bu çığır açan yaklaşım ilk olarak YOLOv10'da öncülük edilmiş olup, nesne yoğunluğundan bağımsız olarak kararlı gecikme sağlar.
  • Yüzde 43'e Kadar Daha Hızlı CPU Çıkarımı: Özellikle uç bilişim ve GPU'suz cihazlar için optimize edilmiştir, bu da onu ağır transformer modellerine göre saha dağıtımları için çok daha çok yönlü hale getirir.
  • MuSGD Optimizatörü: SGD ve Muon'un (Moonshot AI'nin Kimi K2'sinden esinlenilmiştir) bir hibritidir, daha kararlı eğitim ve daha hızlı yakınsama için LLM eğitim yeniliklerini bilgisayar görüşüne getirir.
  • DFL Kaldırılması: Dağıtım Odak Kaybı (Distribution Focal Loss) kaldırılmıştır, bu da gömülü NPU'lara ve TensorRT ortamlarına daha sorunsuz dışa aktarım için basitleştirilmiş bir hesaplama grafiği sağlar.
  • ProgLoss + STAL: Geliştirilmiş kayıp fonksiyonları, robotik, IoT ve hava görüntü analizi için kritik olan küçük nesne tanımada önemli iyileştirmeler sağlar.
  • Göreve Özel İyileştirmeler: YOLO26 sadece detect için değildir. segment için çok ölçekli prototipler, poz takibi için Artık Log-Olasılık Tahmini (RLE) ve yönlendirilmiş sınırlayıcı kutu (OBB) sınır sorunlarını ele alan özel açı kaybı özelliklerine sahiptir.

Kolaylaştırılmış Geliştirici Deneyimi

YOLO26 (veya oldukça popüler YOLO11) gibi bir Ultralytics modelini seçmenin asıl avantajı, iyi yönetilen ekosistemdir. Özel bir veri kümesini eğitmek, minimum düzeyde standart kod gerektirir:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26 hakkında daha fazla bilgi edinin

İdeal Kullanım Alanları ve Uygulamaları

Bu mimariler arasında seçim yapmak, hedef donanıma ve belirli operasyonel gereksinimlere büyük ölçüde bağlıdır.

Ne Zaman RTDETRv2 Dikkate Almalı

RTDETRv2, güçlü GPU'larla donatılmış sunucu tarafı işleme ortamlarında oldukça etkilidir. Küresel dikkat mekanizması, yoğun kalabalık etkinlik izleme veya örtüşen özelliklerin derin bağlamsal analiz gerektirdiği özel tıbbi görüntüleme gibi karmaşık sahne anlayışı için uygun hale getirir.

YOLOv7 Ne Zaman Dikkate Alınmalı

YOLOv7, eski akademik araştırmalarda genellikle bir temel karşılaştırma modeli olarak sürdürülmektedir. Ayrıca, mevcut işlem hatlarının belirli PyTorch sürümleri için sabit kodlandığı ve yeni çerçevelerin çok görevli esnekliğini gerektirmeyen eski endüstriyel dağıtımlarda da bulunur.

Modern akıllı şehir altyapısı, drone navigasyonu ve yüksek hızlı üretim için YOLO26, eşsiz bir denge sunar. Daha düşük bellek gereksinimleri, hiperparametre ayarı ve eğitimi tüketici donanımlarında erişilebilir kılarken, NMS içermeyen çıkarımı, Raspberry Pi veya NVIDIA Jetson gibi kısıtlı kenar cihazlarda hızlı yürütme sağlar.

Daha Fazla Karşılaştırma Keşfet

Bu modellerin diğer mimarilere karşı nasıl performans gösterdiğini merak ediyor musunuz? Görsel yapay zeka projeniz için en uygun olanı bulmak üzere YOLO11 vs. RTDETR ve YOLOv8 vs. YOLOv7 hakkındaki detaylı rehberlerimize göz atın.


Yorumlar