Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 ile PP-YOLOE+ karşılaştırması#

Hızla gelişen bilgisayarlı görü alanı, karmaşık gerçek zamanlı nesne algılama zorluklarını çözmek için çeşitli mimari yaklaşımlar üretmiştir. En dikkat çeken son gelişmeler arasında, görsel tanımaya temelden farklı tasarım felsefeleriyle yaklaşan iki güçlü model olan RTDETRv2 ve PP-YOLOE+ yer almaktadır. Her iki model de yüksek performanslı algılama sağlamayı amaçlasa da, temel mekanizmaları, eğitim paradigmaları ve ideal dağıtım senaryoları önemli ölçüde farklılık gösterir.

Bu kapsamlı kılavuz, her iki modelin mimarilerini, performans metriklerini ve ekosistem desteklerini karşılaştırarak geliştiricilerin ve araştırmacıların kendi özel dağıtım ihtiyaçları için en uygun çözümü seçmelerine yardımcı olmak amacıyla teknik nüansları derinlemesine inceler.

Link to this sectionModel Genel Bakışları#

Performans verilerini analiz etmeden önce, her modelin kökenlerini ve mimari hedeflerini anlamak önemlidir. Her ikisi de Baidu araştırma ekiplerinden kaynaklanmaktadır, ancak nesne algılama soy ağacının farklı dallarını temsil ederler.

Link to this sectionRTDETRv2#

RTDETRv2, transformer tabanlı görü mimarilerinde önemli bir sıçramayı temsil eder. Orijinal Real-Time Detection Transformer üzerine inşa edilmiş olup, verimli bir hibrit kodlayıcı ile eşleştirilmiş esnek bir vision transformer omurgasından yararlanır. En belirgin özelliği, post-processing sırasında Non-Maximum Suppression (NMS) ihtiyacını tamamen ortadan kaldıran uçtan uca tahmin yeteneğidir.

Yazar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu Tarih: 2024-07-24 Arxiv: 2407.17140
GitHub: RT-DETR Repository

RTDETRv2 hakkında daha fazla bilgi edin

Link to this sectionPP-YOLOE+#

PP-YOLOE+, yüksek performanslı endüstriyel uygulamalar için yoğun bir şekilde optimize edilmiş, YOLO serisinin gelişmiş bir iterasyonudur. Anchor-free (çapasız) algılama kafasına sahip ölçeklenebilir bir CNN mimarisine sahiptir. Olağanüstü hız-doğruluk dengesi sağlamak üzere tasarlanmış olup, küçük nesne algılamayı iyileştirmek için ET-head ve genelleştirilmiş odak kaybı (focal loss) işlevi gibi güçlü teknikler sunar.

Yazar: PaddlePaddle Yazarları
Kuruluş: Baidu
Tarih: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository

PP-YOLOE+ hakkında daha fazla bilgi edin

Ekosistem Entegrasyonu

Her iki modelin de kendi bağımsız araştırma depoları olsa da, birleşik bir API ve kolaylaştırılmış dışa aktarma seçeneklerinden yararlanarak RTDETRv2 ile doğrudan Ultralytics Python paketi içinde kolayca deneyler yapabilirsin.

Link to this sectionMimari Farklılıklar#

Bu iki model arasındaki temel fark, görsel bağlamı nasıl işlediklerinde ve tahminleri nasıl oluşturduklarında yatmaktadır.

PP-YOLOE+, geleneksel ancak yüksek oranda optimize edilmiş bir Convolutional Neural Network (CNN) omurgası kullanır. Özellikleri çıkarmak için yerel alıcı alanlara dayanır, bu da onu standart dağıtımlar için inanılmaz derecede hızlı ve verimli kılar. Bununla birlikte, üst üste binen sınırlayıcı kutuları filtrelemek için hala standart NMS post-processing işlemine ihtiyaç duyar ve bu da yoğun sahnelerde gecikme darboğazlarına neden olabilir.

Buna karşılık RTDETRv2, bir Hibrit Kodlayıcı ve bir Transformer Kod çözücü kullanır. Bu, modelin tüm görüntüdeki küresel bağlamı aynı anda yakalamasına olanak tanır. Dikkat mekanizmaları, nesneler arasındaki ilişkileri doğal olarak anlar ve modelin NMS olmadan doğrudan nihai sınırlayıcı kutuları çıktı olarak vermesini sağlar. Bu uçtan uca yaklaşım, algılanan nesne sayısından bağımsız olarak kararlı bir çıkarım gecikmesi sağlar.

Link to this sectionPerformans Metrikleri ve Karşılaştırma#

YOLO performans metriklerini değerlendirirken, doğruluk (mAP) ile hesaplama maliyeti (FLOPs) ve çıkarım hızı arasında denge kurmak çok önemlidir. Aşağıdaki tablo, her iki modelin çeşitli boyutlardaki performansını vurgulamaktadır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

PP-YOLOE+x, COCO veri kümesinde %54,7'lik marjinal olarak daha yüksek bir mAPval elde etse de, RTDETRv2 modelleri genellikle NMS'siz tasarımları sayesinde sağladıkları tutarlı gecikme avantajıyla rekabetçi bir doğruluk sunar. Ancak PP-YOLOE+, daha küçük modeller için parametre sayısı ve FLOPs konusunda kesin bir avantaja sahiptir ve bu da onu uç dağıtımlar için oldukça verimli kılar.

Link to this sectionUltralytics Avantajı: YOLO26 ile Tanışın#

RTDETRv2 ve PP-YOLOE+ kendi başlarına güçlü olsalar da, teknoloji sürekli gelişmeye devam etmektedir. Hız, doğruluk ve ekosistem desteğinin nihai dengesini arayan geliştiriciler için Ultralytics YOLO26 yeni endüstri standardını temsil eder.

YOLO26, hem CNN'lerin hem de Transformer'ların en iyi yönlerini sentezler. Modern mimarilerin öncülük ettiği End-to-End NMS-Free tasarımını benimseyerek post-processing darboğazlarını etkili bir şekilde ortadan kaldırır. Ayrıca, oldukça kararlı bir eğitim ve hızlı yakınsama sağlayan, LLM eğitimi yeniliklerinden esinlenen hibrit bir yaklaşım olan devrim niteliğindeki MuSGD Optimizer'ı tanıtır.

Uç Noktalar İçin Optimize Edilmiştir

Önemli miktarda CUDA belleği gerektiren ağır transformer modellerinin aksine, YOLO26 DFL Removal (Distribution Focal Loss) özelliğine sahiptir ve özellikle uç bilişim için optimize edilerek önceki nesillere kıyasla %43'e kadar daha hızlı CPU çıkarımı sağlar.

Ayrıca YOLO26, basit nesne algılama ile sınırlı değildir. Doğal olarak çok yönlüdür; instance segmentation, pose estimation ve oriented bounding boxes (OBB) özelliklerini kutudan çıktığı gibi desteklerken, PP-YOLOE+ birincil olarak sınırlayıcı kutu algılamasına odaklanır.

YOLO26 hakkında daha fazla bilgi edin

Link to this sectionEğitim Metodolojileri ve Ekosistem#

Eğitim verimliliği ve kullanım kolaylığı, Ultralytics ekosisteminin bağımsız araştırma depolarına kıyasla gerçekten öne çıktığı noktalardır. PP-YOLOE+ PaddlePaddle çerçevesine güvenirken ve RTDETRv2 genellikle karmaşık ortam kurulumları gerektirirken, modelleri Ultralytics aracılığıyla entegre etmek sorunsuz bir deneyim sağlar.

Ultralytics API ile eğitim sırasında daha düşük bellek gereksinimlerinden, otomatik veri kümesi yönetiminden ve basitleştirilmiş hiperparametre ayarlamasından yararlanırsın. Ayrıca, modelleri ONNX veya TensorRT gibi üretim formatlarına dağıtmak tek bir komutla gerçekleştirilebilir.

Link to this sectionKod Örneği: Kolaylaştırılmış Çıkarım#

Aşağıda, Ultralytics Python paketini kullanarak RTDETRv2'yi önerilen YOLO26 modeliyle ne kadar kolay kullanabileceğinize dair bir gösterim bulunmaktadır:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionGerçek Dünya Uygulamaları ve Kullanım Durumları#

Bu mimariler arasında seçim yapmak genellikle donanım ve uygulama gereksinimlerine bağlıdır.

  • RTDETRv2, sunucu tarafı ortamlarında ve karmaşık sahne anlamada mükemmeldir. Küresel dikkat mekanizması, onu üst üste binen nesnelerin genellikle standart NMS algoritmalarının başarısız olmasına neden olduğu kalabalık yönetimi ve yoğun tıbbi görüntü analizi için oldukça etkili kılar.
  • PP-YOLOE+, yüksek hızlı endüstriyel denetim ve PaddlePaddle ekosistemine yoğun yatırım yapan ortamlar için oldukça uygundur. Daha küçük ölçeklerdeki düşük parametre sayısı, onu belirli robotik uygulamaları için uygulanabilir kılar.
  • Ultralytics YOLO26, kapsamlı ticari dağıtım için evrensel olarak önerilen çözümdür. Gelişmiş ProgLoss + STAL işlevleriyle, hava drone operasyonları ve akıllı şehir trafik izleme için kritik olan küçük nesne tanımayı önemli ölçüde iyileştirir.

Link to this sectionKullanım Durumları ve Öneriler#

RT-DETR ile PP-YOLOE+ arasında seçim yapmak, proje gereksinimlerine, dağıtım kısıtlamalarına ve ekosistem tercihlerine bağlıdır.

Link to this sectionRT-DETR Ne Zaman Seçilmeli#

RT-DETR şunlar için güçlü bir seçimdir:

  • Transformer Tabanlı Algılama Araştırması: NMS olmadan uçtan uca nesne algılama için dikkat mekanizmalarını ve transformer mimarilerini keşfeden projeler.
  • Esnek Gecikmeli Yüksek Doğruluklu Senaryolar: Algılama doğruluğunun en önemli öncelik olduğu ve biraz daha yüksek çıkarım gecikmesinin kabul edilebilir olduğu uygulamalar.
  • Büyük Nesne Algılama: Transformer'ların küresel dikkat mekanizmasının doğal bir avantaj sağladığı, ağırlıklı olarak orta-büyük nesnelerin olduğu sahneler.

Link to this sectionPP-YOLOE+ Ne Zaman Seçilmeli#

PP-YOLOE+ şunlar için önerilir:

  • PaddlePaddle Ekosistem Entegrasyonu: Baidu'nun PaddlePaddle çerçevesi ve araçları üzerine kurulu mevcut altyapıya sahip organizasyonlar.
  • Paddle Lite Uç Birim Dağıtımı: Özellikle Paddle Lite veya Paddle çıkarım motoru için optimize edilmiş çıkarım çekirdeklerine sahip donanımlara dağıtım yapmak.
  • Yüksek Doğruluklu Sunucu Tarafı Algılama: Çerçeve bağımlılığının sorun olmadığı güçlü GPU sunucularında maksimum algılama doğruluğunu önceliklendiren senaryolar.

Link to this sectionUltralytics (YOLO26) Ne Zaman Seçilmeli#

Çoğu yeni proje için, Ultralytics YOLO26 performans ve geliştirici deneyiminin en iyi kombinasyonunu sunar:

  • NMS-Free Uç Dağıtımı: Non-Maximum Suppression işlem sonrası karmaşıklığı olmadan tutarlı, düşük gecikmeli çıkarım gerektiren uygulamalar.
  • Sadece CPU Ortamları: YOLO26'nın %43'e kadar daha hızlı CPU çıkarımının belirleyici bir avantaj sağladığı, özel GPU hızlandırması olmayan cihazlar.
  • Küçük Nesne Algılama: ProgLoss ve STAL'ın küçük nesneler üzerindeki doğruluğu önemli ölçüde artırdığı hava drone görüntüleri veya IoT sensör analizi gibi zorlu senaryolar.

Link to this sectionSonuç#

Hem RTDETRv2 hem de PP-YOLOE+, bilgisayarlı görüde nelerin mümkün olduğunun sınırlarını zorlayarak hem transformer hem de yüksek oranda optimize edilmiş CNN mimarilerinin uygulanabilirliğini kanıtladı. Ancak, parçalanmış araştırma kod tabanlarını dağıtmanın karmaşıklığı üretim zaman çizelgelerini engelleyebilir.

Modern yapay zeka mühendisleri için Ultralytics Platform'den yararlanmak eşsiz bir avantaj sağlar. YOLO11 veya en son teknoloji YOLO26 gibi sorunsuz entegre edilmiş modellere geçiş yaparak ekipler, bellek gereksinimlerini ve geliştirme yükünü önemli ölçüde azaltırken mümkün olan en yüksek doğruluk-hız oranlarına ulaşabilirler.

Yorumlar