Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 ve YOLOv7: Gerçek Zamanlı Nesne Algılamanın Evriminde Yolculuk#

Bilgisayarlı görü alanı, hem Evrişimli Sinir Ağları (CNN) hem de Vision Transformer (ViT) mimarilerindeki sürekli inovasyonların etkisiyle son birkaç yılda ciddi şekilde genişledi. Dağıtımın için doğru mimariyi seçmek, hız, doğruluk ve hesaplama yükü arasındaki ince dengeleri anlamanı gerektirir. Bu kılavuz, oldukça saygın iki mimari olan RTDETRv2 ve YOLOv7 arasındaki teknik farklılıkları incelerken, aynı zamanda daha yeni Ultralytics YOLO26 ile sunulan modern gelişmeleri vurguluyor.

Link to this sectionRTDETRv2: Gerçek Zamanlı Algılamaya Transformer Yaklaşımı#

RTDETRv2 (Real-Time Detection Transformer version 2), transformer tabanlı mimarilerin, geleneksel işlem sonrası adımlara ihtiyaç duymadan gerçek zamanlı senaryolarda etkili bir şekilde rekabet edebileceğini kanıtlamak için selefinin temelini üzerine inşa edilmiştir.

Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kurum: Baidu Tarih: 2024-07-24 Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RTDETRv2 Deposu

Link to this sectionMimari Öne Çıkanlar#

RTDETRv2, hibrit bir kodlayıcı ve transformer kod çözücü mimarisi kullanır. Öz-dikkat mekanizmalarından yararlanan model, tüm görüntüyü bütünsel olarak işler ve böylece karmaşık uzamsal ilişkileri, katı bir şekilde yerelleştirilmiş evrişimli çekirdeklerden daha iyi anlamasını sağlar. En belirgin özelliklerinden biri, yerel olarak NMS içermeyen tasarımıdır. Non-Maximum Suppression (NMS) adımını ortadan kaldırarak, RTDETRv2 dağıtım sırasında değişken çıkarım gecikmesine neden olan yaygın bir darboğazı kaldırır.

Link to this sectionGüçlü Yönler ve Sınırlamalar#

RTDETRv2'nin temel gücü, karmaşık sahnelerdeki yoğun ve örtüşen nesneleri işleme yeteneğinde yatar. Transformer dikkat katmanlarının sağladığı küresel bağlam, özellikle örtüşmelerin sık olduğu senaryolarda onu oldukça doğru kılar.

However, this comes at a computational cost. Transformer models traditionally require a higher memory footprint during training and inference compared to CNNs. Furthermore, RTDETRv2 generally requires more epochs to converge during distributed training, leading to longer iteration cycles for developers tuning custom datasets.

RTDETRv2 hakkında daha fazla bilgi edin

Link to this sectionYOLOv7: Hız için bir CNN Temeli#

RTDETRv2'den bir yıl önce piyasaya sürülen YOLOv7, klasik YOLO çerçevesine çeşitli yapısal optimizasyonlar getirerek, yayınlandığı dönemde CNN tabanlı gerçek zamanlı dedektörler için güçlü bir ölçüt oluşturdu.

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kurum: Institute of Information Science, Academia Sinica, Taiwan
Tarih: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: YOLOv7 Deposu

Link to this sectionMimari Öne Çıkanlar#

YOLOv7's architecture is built around the concept of Extended Efficient Layer Aggregation Network (E-ELAN). This approach optimizes the gradient path, allowing the model to learn more effectively without significantly increasing computational complexity. The authors also introduced "trainable bag-of-freebies," a set of methods that improve model accuracy during training without affecting the inference speed on edge devices.

Link to this sectionGüçlü Yönler ve Sınırlamalar#

YOLOv7, standart nesne algılama görevleri için oldukça yetenekli bir model olmaya devam ediyor ve tüketici GPU'larında mükemmel işlem hızları sunuyor. CNN yapısı, eğitim sırasında RTDETRv2 gibi transformer tabanlı modellere kıyasla genellikle daha az CUDA belleği gerektirdiği anlamına gelir.

Bu avantajlara rağmen, YOLOv7 hala işlem sonrası için NMS'ye güveniyor. Yüksek tahmin yoğunluğuna sahip ortamlarda, NMS adımı işlem süresinde dalgalanmalara neden olabilir ve bu da katı gerçek zamanlı garantileri zorlaştırır. Ayrıca, modern çerçevelere kıyasla, örnek segmentasyonu ve poz tahmini gibi çeşitli görevleri ele alma süreci parçalı kalabilir.

YOLOv7 hakkında daha fazla bilgi edinin

Link to this sectionPerformans Karşılaştırması#

Evaluating these models requires looking at the delicate balance between mean Average Precision (mAP), parameter count, and inference speed.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametre
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
Performans Bağlamı

RTDETRv2-x en yüksek mAP değerine ulaşsa da, aynı zamanda en büyük parametre sayısına ve FLOP'a sahiptir. RTDETRv2-s gibi daha küçük varyantlar, TensorRT üzerinde rekabetçi hız sunar ancak özel GPU'ları olmayan düşük güçteki ortamları hedefleyen kullanıcılar, CPU çıkarım yeteneklerini dikkatlice değerlendirmelidir.

Link to this sectionModern Çözüm: YOLO26 ile Tanışın#

While RTDETRv2 and YOLOv7 were pivotal in pushing the boundaries of computer vision applications, the AI landscape evolves rapidly. Released in January 2026, YOLO26 synthesizes the best aspects of both CNN efficiency and transformer-like NMS-free architectures.

Yeni sistemler kuran geliştiriciler ve araştırmacılar için, entegre Ultralytics Platform ve Python ekosistemi, teknik borcu önemli ölçüde azaltan birleşik bir deneyim sağlar.

Link to this sectionYOLO26'daki Temel Yenilikler#

  • Uçtan Uca NMS İçermeyen Tasarım: YOLO26, daha hızlı ve daha basit dağıtım için NMS işlem sonrasını ortadan kaldıran, doğal olarak uçtan uca bir mimaridir. Bu çığır açan yaklaşım ilk olarak YOLOv10 ile öncülük edilmişti ve nesne yoğunluğundan bağımsız olarak kararlı gecikme süreleri sağlar.
  • Up to 43% Faster CPU Inference: Specifically optimized for edge computing and devices without GPUs, making it far more versatile for field deployments than heavy transformer models.
  • MuSGD Optimize Edici: SGD ve Muon'un (Moonshot AI'nın Kimi K2'sinden esinlenilmiştir) bir melezi olup, daha kararlı eğitim ve daha hızlı yakınsama için LLM eğitimi inovasyonlarını bilgisayarlı görüye getirir.
  • DFL Kaldırma: Distribution Focal Loss (Dağılım Odaklı Kayıp) kaldırıldı, bu da gömülü NPU'lara ve TensorRT ortamlarına daha sorunsuz dışa aktarım için basitleştirilmiş bir hesaplama grafiğiyle sonuçlandı.
  • ProgLoss + STAL: Improved loss functions yield notable enhancements in small-object recognition, which is critical for robotics, IoT, and aerial imagery analysis.
  • Göreve Özel Geliştirmeler: YOLO26 sadece algılama için değildir. Segmentasyon için çok ölçekli prototipler, poz takibi için Kalıntı Log-Olabilirlik Tahmini (RLE) ve yönlendirilmiş sınırlayıcı kutu (OBB) sınır sorunlarını ele alan özel açı kaybı özelliklerine sahiptir.

Link to this sectionModernize Edilmiş Geliştirici Deneyimi#

YOLO26 (veya oldukça popüler olan YOLO11) gibi bir Ultralytics modelini seçmenin gerçek avantajı, bakımı iyi yapılan ekosistemdir. Özel bir veri setini eğitmek minimum şablon kodu gerektirir:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

YOLO26 hakkında daha fazla bilgi edin

Link to this sectionİdeal Kullanım Durumları ve Uygulamalar#

Bu mimariler arasında seçim yapmak, büyük ölçüde hedef donanıma ve özel operasyonel gereksinimlere bağlıdır.

Link to this sectionRTDETRv2 Ne Zaman Düşünülmeli#

RTDETRv2, güçlü GPU'larla donatılmış sunucu tarafı işleme ortamlarında oldukça etkilidir. Küresel dikkat mekanizması, örtüşen özelliklerin derin bağlamsal analiz gerektirdiği, çok kalabalık etkinlik izleme veya özel tıbbi görüntüleme gibi karmaşık sahneleri anlamak için uygundur.

Link to this sectionYOLOv7 Ne Zaman Dikkate Alınmalı#

YOLOv7, genellikle eski akademik araştırmalarda bir temel karşılaştırma modeli olarak tutulur. Ayrıca, mevcut işlem hatlarının belirli PyTorch sürümleri için kodlandığı ve daha yeni çerçevelerin çoklu görev esnekliğine ihtiyaç duymadığı eski endüstriyel dağıtımlarda da bulunur.

Link to this sectionNeden YOLO26 Tavsiye Edilen Standarttır#

For modern smart city infrastructure, drone navigation, and high-speed manufacturing, YOLO26 offers an unmatched balance. Its lower memory requirements make hyperparameter tuning and training accessible on consumer hardware, while its NMS-free inference ensures rapid execution on constrained edge devices like the Raspberry Pi or NVIDIA Jetson.

Daha Fazla Karşılaştırmayı Keşfet

Bu modellerin diğer mimarilere karşı nasıl durduğunu merak ediyor musun? Vizyon yapay zeka projen için en uygun olanı bulmak için YOLO11 vs. RTDETR ve YOLOv8 vs. YOLOv7 hakkındaki detaylı kılavuzlarımıza göz at.

Yorumlar