RTDETRv2 ve YOLOv7: Gerçek Zamanlı Nesne Algılamanın Evriminde Yolculuk

Bilgisayarlı görü alanı, hem Evrişimli Sinir Ağları (CNN) hem de Vision Transformer (ViT) mimarilerindeki sürekli inovasyonların etkisiyle son birkaç yılda ciddi şekilde genişledi. Dağıtımın için doğru mimariyi seçmek, hız, doğruluk ve hesaplama yükü arasındaki ince dengeleri anlamanı gerektirir. Bu kılavuz, oldukça saygın iki mimari olan RTDETRv2 ve YOLOv7 arasındaki teknik farklılıkları incelerken, aynı zamanda daha yeni Ultralytics YOLO26 ile sunulan modern gelişmeleri vurguluyor.

RTDETRv2: Gerçek Zamanlı Algılamaya Transformer Yaklaşımı

RTDETRv2 (Real-Time Detection Transformer version 2), transformer tabanlı mimarilerin, geleneksel işlem sonrası adımlara ihtiyaç duymadan gerçek zamanlı senaryolarda etkili bir şekilde rekabet edebileceğini kanıtlamak için selefinin temelini üzerine inşa edilmiştir.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kurum: Baidu Tarih: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RTDETRv2 Deposu

Mimari Öne Çıkanlar

RTDETRv2, hibrit bir kodlayıcı ve transformer kod çözücü mimarisi kullanır. Öz-dikkat mekanizmalarından yararlanan model, tüm görüntüyü bütünsel olarak işler ve böylece karmaşık uzamsal ilişkileri, katı bir şekilde yerelleştirilmiş evrişimli çekirdeklerden daha iyi anlamasını sağlar. En belirgin özelliklerinden biri, yerel olarak NMS içermeyen tasarımıdır. Non-Maximum Suppression (NMS) adımını ortadan kaldırarak, RTDETRv2 dağıtım sırasında değişken çıkarım gecikmesine neden olan yaygın bir darboğazı kaldırır.

Güçlü Yönler ve Sınırlamalar

RTDETRv2'nin temel gücü, karmaşık sahnelerdeki yoğun ve örtüşen nesneleri işleme yeteneğinde yatar. Transformer dikkat katmanlarının sağladığı küresel bağlam, özellikle örtüşmelerin sık olduğu senaryolarda onu oldukça doğru kılar.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

RTDETRv2 hakkında daha fazla bilgi edin

YOLOv7: Hız için bir CNN Temeli

RTDETRv2'den bir yıl önce piyasaya sürülen YOLOv7, klasik YOLO çerçevesine çeşitli yapısal optimizasyonlar getirerek, yayınlandığı dönemde CNN tabanlı gerçek zamanlı dedektörler için güçlü bir ölçüt oluşturdu.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kurum: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: YOLOv7 Deposu

Mimari Öne Çıkanlar

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Güçlü Yönler ve Sınırlamalar

YOLOv7, standart nesne algılama görevleri için oldukça yetenekli bir model olmaya devam ediyor ve tüketici GPU'larında mükemmel işlem hızları sunuyor. CNN yapısı, eğitim sırasında RTDETRv2 gibi transformer tabanlı modellere kıyasla genellikle daha az CUDA belleği gerektirdiği anlamına gelir.

Bu avantajlara rağmen, YOLOv7 hala işlem sonrası için NMS'ye güveniyor. Yüksek tahmin yoğunluğuna sahip ortamlarda, NMS adımı işlem süresinde dalgalanmalara neden olabilir ve bu da katı gerçek zamanlı garantileri zorlaştırır. Ayrıca, modern çerçevelere kıyasla, örnek segmentasyonu ve poz tahmini gibi çeşitli görevleri ele alma süreci parçalı kalabilir.

YOLOv7 hakkında daha fazla bilgi edinin

Performans Karşılaştırması

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Performans Bağlamı

RTDETRv2-x en yüksek mAP değerine ulaşsa da, aynı zamanda en büyük parametre sayısına ve FLOP'a sahiptir. RTDETRv2-s gibi daha küçük varyantlar, TensorRT üzerinde rekabetçi hız sunar ancak özel GPU'ları olmayan düşük güçteki ortamları hedefleyen kullanıcılar, CPU çıkarım yeteneklerini dikkatlice değerlendirmelidir.

Modern Çözüm: YOLO26 ile Tanışın

While RTDETRv2 and YOLOv7 were pivotal in pushing the boundaries of computer vision applications, the AI landscape evolves rapidly. Released in January 2026, YOLO26 synthesizes the best aspects of both CNN efficiency and transformer-like NMS-free architectures.

Yeni sistemler kuran geliştiriciler ve araştırmacılar için, entegre Ultralytics Platform ve Python ekosistemi, teknik borcu önemli ölçüde azaltan birleşik bir deneyim sağlar.

YOLO26'daki Temel Yenilikler

  • Uçtan Uca NMS İçermeyen Tasarım: YOLO26, daha hızlı ve daha basit dağıtım için NMS işlem sonrasını ortadan kaldıran, doğal olarak uçtan uca bir mimaridir. Bu çığır açan yaklaşım ilk olarak YOLOv10 ile öncülük edilmişti ve nesne yoğunluğundan bağımsız olarak kararlı gecikme süreleri sağlar.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • MuSGD Optimize Edici: SGD ve Muon'un (Moonshot AI'nın Kimi K2'sinden esinlenilmiştir) bir melezi olup, daha kararlı eğitim ve daha hızlı yakınsama için LLM eğitimi inovasyonlarını bilgisayarlı görüye getirir.
  • DFL Kaldırma: Distribution Focal Loss (Dağılım Odaklı Kayıp) kaldırıldı, bu da gömülü NPU'lara ve TensorRT ortamlarına daha sorunsuz dışa aktarım için basitleştirilmiş bir hesaplama grafiğiyle sonuçlandı.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Göreve Özel Geliştirmeler: YOLO26 sadece algılama için değildir. Segmentasyon için çok ölçekli prototipler, poz takibi için Kalıntı Log-Olabilirlik Tahmini (RLE) ve yönlendirilmiş sınırlayıcı kutu (OBB) sınır sorunlarını ele alan özel açı kaybı özelliklerine sahiptir.

Modernize Edilmiş Geliştirici Deneyimi

YOLO26 (veya oldukça popüler olan YOLO11) gibi bir Ultralytics modelini seçmenin gerçek avantajı, bakımı iyi yapılan ekosistemdir. Özel bir veri setini eğitmek minimum şablon kodu gerektirir:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26 hakkında daha fazla bilgi edin

İdeal Kullanım Durumları ve Uygulamalar

Bu mimariler arasında seçim yapmak, büyük ölçüde hedef donanıma ve özel operasyonel gereksinimlere bağlıdır.

RTDETRv2 Ne Zaman Düşünülmeli

RTDETRv2, güçlü GPU'larla donatılmış sunucu tarafı işleme ortamlarında oldukça etkilidir. Küresel dikkat mekanizması, örtüşen özelliklerin derin bağlamsal analiz gerektirdiği, çok kalabalık etkinlik izleme veya özel tıbbi görüntüleme gibi karmaşık sahneleri anlamak için uygundur.

YOLOv7 Ne Zaman Dikkate Alınmalı

YOLOv7, genellikle eski akademik araştırmalarda bir temel karşılaştırma modeli olarak tutulur. Ayrıca, mevcut işlem hatlarının belirli PyTorch sürümleri için kodlandığı ve daha yeni çerçevelerin çoklu görev esnekliğine ihtiyaç duymadığı eski endüstriyel dağıtımlarda da bulunur.

Neden YOLO26 Tavsiye Edilen Standarttır

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

Daha Fazla Karşılaştırmayı Keşfet

Bu modellerin diğer mimarilere karşı nasıl durduğunu merak ediyor musun? Vizyon yapay zeka projen için en uygun olanı bulmak için YOLO11 vs. RTDETR ve YOLOv8 vs. YOLOv7 hakkındaki detaylı kılavuzlarımıza göz at.

Yorumlar