PP-YOLOE+ ile RTDETRv2: Derin Öğrenme Nesne Algılama Karşılaştırması
Nesne algılama mimarilerinin gelişimi, Evrişimli Sinir Ağları (CNN) ve Transformer tabanlı modeller arasındaki şiddetli rekabetle şekillenmiştir. Bu zaman çizelgesindeki iki önemli dönüm noktası, PaddlePaddle gelişmiş bir CNN tabanlı algılayıcı olan PP-YOLOE+ ve en son teknolojiye sahip gerçek zamanlı algılama transformatörü RTDETRv2'dir.
Bu teknik karşılaştırma, araştırmacıların ve mühendislerin belirli bilgisayar görme uygulamaları için en uygun modeli seçmelerine yardımcı olmak amacıyla mimarilerini, performans ölçütlerini ve dağıtım uygunluklarını değerlendirir.
Yönetici Özeti
PP-YOLOE+,YOLO zirvesini temsil eder ve saf CNN çerçevesi içinde çapa içermeyen mekanizmaların ve etiket atama stratejilerinin iyileştirilmesine odaklanır. Baidu'nun PaddlePaddle derinlemesine entegre edilmiş ortamlarda üstün performans gösterir, ancak diğer ekosistemlere aktarılırken sorunlarla karşılaşabilir.
RTDETRv2 (Real-Time Detection Transformer v2), esnek, ayarlanabilir bir kod çözücü sunarak ve hibrit kodlayıcıyı optimize ederek sınırları zorluyor. Transformatörlerin küresel dikkat yeteneklerinden yararlanarak, son işlemde sıkça karşılaşılan bir darboğaz olan Maksimum Baskılama (NMS) ihtiyacını ortadan kaldırıyor.
Ancak, CNN'lerin hızını NMS transformatörlerin rahatlığıyla birleştiren ve büyük hesaplama yükü gerektirmeyen birleşik bir çözüm arayan geliştiriciler içinUltralytics üstün bir alternatif sunar. Yerel uçtan uca tasarımı ve %43'e varan daha hızlı CPU YOLO26, yüksek performanslı sunucular ile uç cihazlar arasındaki boşluğu doldurur.
PP-YOLOE+: Anchor'suz CNN Güç Merkezi
2022 yılında piyasaya sürülen PP-YOLOE+, PP-YOLOE'nin yükseltilmiş bir versiyonu olarak, rekabetçi bir doğruluk elde etmek için güçlü bir backbone dinamik etiket ataması içermektedir.
Yazarlar: PaddlePaddle
Kuruluş:Baidu
Tarih: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection
Mimari Öne Çıkanlar
PP-YOLOE+, CSPNet'in gradyan akış avantajlarını RepVGG'de görülen yeniden parametreleştirme teknikleriyle birleştiren bir backbone CSPRepResStage'i kullanır. Bu, modelin, çıkarım sırasında basit konvolüsyonlara dönüşen karmaşık eğitim dinamiklerine sahip olmasını sağlayarak dağıtımı hızlandırır.
Model, Görev Hizalama Öğrenimi (TAL) stratejisine sahip Anchor-Free başlığı kullanır. Önceden tanımlanmış kutulara dayanan eski anchor tabanlı yöntemlerin aksine, PP-YOLOE+ nesnelerin merkezini ve sınırlayıcı kutu kenarlarına olan mesafelerini tahmin eder. Bu, hiperparametre aramasını basitleştirir ve aşağıdaki gibi çeşitli veri kümelerinde genellemeyi iyileştirir COCOgibi çeşitli veri kümelerinde genellemeyi iyileştirir.
Eski Kısıtlamalar
PP-YOLOE+ güçlü bir performans sunarken, PaddlePaddle olan yoğun bağımlılığı, PyTorch ONNX üzerinde standartlaştırılmış dağıtım süreçlerini karmaşıklaştırabilir. Kullanıcılar, modelleri uç platformlara taşımak için genellikle özel dönüştürücülere ihtiyaç duyar.
PP-YOLOE+ hakkında daha fazla bilgi edinin
RTDETRv2: Transformer Evrimi
RTDETRv2, orijinal RT-DETR başarısını temel alarak, transformatörlerin gerçek zamanlı senaryolarda YOLO'ları geçebileceğini kanıtlamayı amaçlamaktadır. Çok ölçekli özellikleri verimli bir şekilde işleyen hibrit bir kodlayıcı kullanarak standart Vision Transformers (ViT'ler) yüksek hesaplama maliyetini ele almaktadır.
Yazarlar: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang ve Yi Liu
Kuruluş: Baidu
Tarih: 17.04.2023 (Orijinal), 24.07.2024 (v2 Sürümü)
Arxiv:2304.08069
GitHub:RT-DETR
Mimari Öne Çıkanlar
RTDETRv2'nin temel yeniliği, Hibrit Kodlayıcı ve IoU Sorgu Seçimi'dir. Geleneksel dönüştürücüler, yüksek çözünürlüklü özellik haritalarını işlerken dikkat mekanizmalarının ikinci dereceden karmaşıklığıyla mücadele eder. RTDETRv2, ölçek içi etkileşimi ve ölçekler arası füzyonu birbirinden ayırarak bu sorunu hafifletir ve bellek kullanımını önemli ölçüde azaltır.
Önemli bir nokta olarak, RTDETRv2 uçtan uca bir dedektördür. Eğitim sırasında Macar Eşleştiriciyi kullanarak tahminleri tek tek gerçek değerlere atar. Bu, model çıktısının NMS gerektirmediği anlamına gelir ve geleneksel YOLO görülen gecikme artışlarını ve parametre ayarlamalarını önler.
RTDETR hakkında daha fazla bilgi edinin
Performans Karşılaştırması
Aşağıdaki tablo, her iki mimarinin performansını karşılaştırmaktadır. PP-YOLOE+ daha düşük parametre sayılarında yetkinlik gösterirken, RTDETRv2 daha büyük boyutlarda üstün ölçeklenebilirlik sergilemektedir, ancak hesaplama gereksinimleri (FLOP) daha yüksektir.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Ultralytics Avantajı: Neden YOLO26'yı Seçmelisiniz?
RTDETRv2, NMS algılama avantajlarını sunarken, bunun bedeli olarak, eğitimi genellikle yavaş olan veGPU kullanımı zor olan ağır transformatör bloklarının kullanılmasıydı. Ultralytics , saf CNN mimarisi kullanarak uçtan uca NMS algılama gerçekleştirerek bu alanda devrim yaratıyor.
Eğitim sırasında Tutarlı Çift Atama (CDA) stratejisini benimseyerek, YOLO26 dahili olarak yinelenen kutuları bastırmayı öğrenir. Bu, dönüştürücülerin gecikme cezalarına maruz NMS çıkarım yükünü ortadan kaldırır.
YOLO26'nın Temel Avantajları
- MuSGD Optimizer: Moonshot AI'nın Kimi K2 gibi LLM eğitim yeniliklerinden esinlenen MuSGD optimizer, daha hızlı yakınsama ve istikrarlı eğitim için SGD Muon'u birleştirir. Bu özellik, YOLO26 nesline özgüdür.
- Kenar Optimize Edilmiş Verimlilik: Dağıtım Odak Kaybı (DFL) ve karmaşık dikkat katmanlarının kaldırılmasıyla YOLO26, önceki sürümlerine kıyasla %43'e kadar daha hızlı CPU ulaşır. Bu, RTDETR'nin zorlandığı Raspberry Pi veya mobil cihazlarda çalıştırmak için idealdir.
- Görev Çok Yönlülüğü: Öncelikle bir dedektör olan PP-YOLOE+'dan farklı olarak, YOLO26 tek bir kütüphanede Poz Tahmini, Örnek Segmentasyonu ve OBB'yi yerel olarak destekler.
- ProgLoss + STAL: Yeni kayıp fonksiyonları, birçok transformatör modelinde kritik bir zayıflık olan küçük nesne algılamasını iyileştirerek YOLO26'yı hava görüntüleri analizi için üstün hale getirir.
Ultralytics ile Kolaylaştırılmış İş Akışı
Karmaşık yapılandırma dosyalarını unutun. YOLO26 modellerini doğrudan Ultralytics üzerinden eğitebilir, sürümlerini oluşturabilir ve dağıtabilirsiniz. Ekosistem, veri kümesi açıklamalarından TensorRT, CoreML ve TFLite için tek tıklamayla dışa aktarmaya kadar her şeyi halleder.
Kod Örneği: YOLO26 ile Başlarken
Ultralytics Python ile en son teknolojiye sahip modeli çalıştırmak inanılmaz derecede basittir:
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
YOLO26 hakkında daha fazla bilgi edinin
İdeal Kullanım Senaryoları
PP-YOLOE+ ne zaman kullanılır?
- Eski Paddle Sistemleri: Mevcut altyapınız tamamen Baidu'nun PaddlePaddle üzerine kuruluysa, PP-YOLOE+ çerçeveleri değiştirmeden yerel bir yükseltme yolu sunar.
- Sunucu Taraflı CNN'ler: GPU bol olduğu, ancak dağıtım ortamında dönüştürücü desteğinin (örneğin, Multi-Head Attention için TensorRT ) eksik olduğu senaryolar için.
Ne Zaman RTDETRv2 Kullanılmalı
- Kalabalık Sahneler: Transformatörlerin küresel dikkat mekanizması, CNN'lerin üst üste binen nesneleri ayırmakta zorlanabileceği yoğun örtülme içeren sahnelerde yardımcı olur.
- Sabit Donanım: Doğruluk kazanımlarına kıyasla transformatörlerin matris çarpma yükünün önemsiz olduğu üst düzey GPU'lar ( NVIDIA veya A100 gibi) için uygundur.
Ultralytics YOLO26 Ne Zaman Kullanılmalı
- Edge & Mobile AI: Düşük bellek ayak izi ve yüksek CPU , YOLO26'yı Android veya gömülü sistemler için kesin seçim haline getirir.
- Gerçek Zamanlı Video Analizi: Trafik izleme veya üretim hatları gibi yüksek FPS gerektiren uygulamalar için, NMS tasarım deterministik gecikme süresi sağlar.
- Araştırma ve Hızlı Prototipleme: Kapsamlı dokümantasyon ve aktif topluluk desteği, araştırmacıların basit sınırlayıcı kutu algılamanın ötesinde çeşitli görevler için önceden eğitilmiş ağırlıkları kullanarak hızlı bir şekilde yineleme yapmalarını sağlar.
Sonuç
Hem PP-YOLOE+ hem de RTDETRv2, bilgisayar görme alanına önemli katkılarda bulunmuştur. PP-YOLOE+, Paddle ekosisteminde CNN'lerin sınırlarını zorlarken, RTDETRv2 ise gerçek zamanlı görevler için dönüştürücülerin uygulanabilirliğini göstermiştir. Ancak Ultralytics , bu gelişmelerin bir sentezini temsil ediyor: CNN'nin mimari basitliğini ve hızını, transformatörün uçtan uca, NMS zarafetiyle birleştiriyor. Güçlü Ultralytics birleştiğinde, modern AI geliştirme için en çok yönlü araç olarak öne çıkıyor.