DAMO-YOLO ile PP-YOLOE+ Karşılaştırması: Endüstriyel Nesne detect'inde Teknik Bir Derinlemesine İnceleme
Gerçek zamanlı nesne detect'i rekabetçi ortamında, endüstriyel uygulamalar için önemli kilometre taşları olarak iki model öne çıkmıştır: Alibaba Group tarafından geliştirilen DAMO-YOLO ve Baidu'nun PaddlePaddle ekosisteminin amiral gemisi detect'örü PP-YOLOE+. Her iki mimari de çıkarım hızı ve detect doğruluk arasındaki dengeye öncelik verirken, bu hedeflere büyük ölçüde farklı mühendislik felsefeleriyle ulaşmaktadır.
Bu kapsamlı kılavuz, mimari yeniliklerini analiz eder, performans metriklerini karşılaştırır ve kullanım kolaylığı ile uç dağıtım standartlarını yeniden tanımlayan yeni nesil bir model olan Ultralytics YOLO26'yı tanıtır.
DAMO-YOLO'ya Genel Bakış
DAMO-YOLO (Distillation-Augmented MOdel), otomatik mimari tasarım ve gelişmiş eğitim tekniklerinden yararlanarak performans sınırlarını zorlamak için tanıtıldı.
Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 23 Kasım 2022
Arxiv:DAMO-YOLO Paper
GitHub:tinyvision/DAMO-YOLO
Mimari Yenilikler
DAMO-YOLO, Sinirsel Mimari Arama (NAS) entegre ederek geleneksel manuel tasarımdan ayrılır. Temel bileşenleri şunlardır:
- MAE-NAS Backbone: backbone yapısı, belirli gecikme kısıtlamaları altında verimi en üst düzeye çıkarmak için Yardımcı Kenarlar Yöntemi (MAE-NAS) kullanılarak otomatik olarak keşfedilir.
- RepGFPN: Genelleştirilmiş Özellik Piramit Ağı (GFPN) tabanlı ağır boyunlu bir tasarım. Tipik BiFPN'lerin yüksek hesaplama maliyeti olmadan özellik birleştirmeyi optimize etmek için ölçek seviyeleri arasında değişen kanal boyutlarını kullanır.
- ZeroHead: Son tahmin katmanlarının karmaşıklığını en aza indiren, çıkarım sırasında kritik milisaniyeler kazandıran hafif bir detect başlığı.
- AlignedOTA: Eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki hizalama sorunlarını çözen geliştirilmiş bir etiket atama stratejisi.
Güçlü ve Zayıf Yönler
DAMO-YOLO'nun temel gücü, gecikme odaklı tasarımıdır. NAS kullanarak, belirli bir hesaplama bütçesinden maksimum doğruluğu elde eder. Ancak, bu karmaşıklık iki ucu keskin bir kılıç olabilir; NAS tabanlı mimarinin, manuel olarak tasarlanmış mimarilere kıyasla özel veri kümeleri için değiştirilmesi veya ince ayar yapılması zor olabilir. Ayrıca, damıtmaya (büyük bir öğretmen modelinin öğrenciyi yönlendirdiği) bağımlılığı, eğitim hattına karmaşıklık katar.
PP-YOLOE+ Genel Bakış
PP-YOLOE+, PaddleDetection paketinin temel taşı olarak hizmet veren PP-YOLOE'nin evrimleşmiş versiyonudur. Bulut ve uç dağıtım çok yönlülüğüne büyük ölçüde odaklanır.
Yazarlar: PaddlePaddle Yazarları
Kuruluş:Baidu
Tarih: 2 Nisan 2022
Arxiv:PP-YOLOE Makalesi
GitHub:PaddlePaddle/PaddleDetection
Mimari Yenilikler
PP-YOLOE+, iyileştirme ve eğitim istikrarını vurgulayarak anchor-free paradigması üzerine inşa edilmiştir:
- CSPRepResStage: backbone, yeniden parametrelendirilebilir rezidüel bloklara sahip ölçeklenebilir bir CSP (Cross Stage Partial) yapısı kullanarak eğitim sırasında karmaşık özellik çıkarımına ve çıkarım sırasında basitleştirilmiş işlemlere olanak tanır.
- Task Alignment Learning (TAL): Hem sınıflandırma skoru hem de IoU (Intersection over Union) temelinde çapa noktalarını gerçek nesnelerle açıkça hizalayan dinamik bir etiket atama şemasıdır.
- Effective Squeeze-and-Excitation (ESE): Kanal bazında özellik yanıtlarını yeniden kalibre ederek özellik temsilini geliştirmek için backbone'a entegre edilmiş bir dikkat mekanizmasıdır.
Güçlü ve Zayıf Yönler
PP-YOLOE+, ekosistem entegrasyonunda üstündür. PaddlePaddle çerçevesinin bir parçası olarak, sunucu tarafı GPU'lar ve mobil cihazlar dahil olmak üzere çeşitli dağıtım hedefleri için güçlü destek sunar. Ancak, standart PyTorch iş akışlarındaki performansı, modelleri dönüştürme veya PaddlePaddle ekosisteminin belirli sözdizimine uyum sağlama ihtiyacı nedeniyle engellenebilir; bu durum, standart PyTorch işlem hatlarına alışkın geliştiriciler için sürtünme yaratabilir.
Performans Karşılaştırması
Aşağıdaki tablo, iki model arasındaki performans farklılıklarını COCO veri kümesi üzerinde vurgulamaktadır.
| Model | boyut (piksel) | mAPval 50-95 | Hız CPU ONNX (ms) | Hız T4 TensorRT10 (ms) | parametreler (M) | FLOP'lar (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analiz
- Küçük Modeller (Nano/Tiny): DAMO-YOLO, küçük varyantlar için genellikle daha yüksek doğruluk (mAP) sunarak, NAS optimize edilmiş backbone'unun kısıtlı ortamlardaki etkinliğini gösterir. Ancak, PP-YOLOE+t parametre sayısında önemli ölçüde daha küçüktür (4.85M'ye karşı 8.5M), bu da aşırı depolama alanı kısıtlı cihazlar için tercih edilebilir.
- Orta ve Büyük Modeller: Model boyutu arttıkça, PP-YOLOE+ doğruluk açısından daha iyi ölçeklenmeye eğilimlidir ve Orta ve Büyük kategorilerde DAMO-YOLO'yu geride bırakır (örneğin, Büyük için 52.9 mAP'ye karşı 50.8 mAP).
- Çıkarım Hızı: DAMO-YOLO, çoğu boyutta TensorRT üzerinde üstün gecikme süresi sergileyerek, "gecikme öncelikli" mimari arayışını doğrular. Tersine, PP-YOLOE+s şaşırtıcı derecede verimli bir hız (2.62ms) göstererek, belirli gerçek zamanlı uygulamalar için güçlü bir aday haline gelir.
Ultralytics Avantajı: YOLO26
DAMO-YOLO ve PP-YOLOE+ belirli nişler için cazip özellikler sunarken, Ultralytics YOLO26, radikal mimari değişimler ve kullanılabilirlik iyileştirmeleri aracılığıyla her iki selefinin sınırlamalarını gidererek bilgisayar görüşünde bir sonraki evrimsel adımı temsil eder.
YOLO26 hakkında daha fazla bilgi edinin
Neden YOLO26 Üstün Bir Seçimdir
- Uçtan Uca NMS İçermeyen Tasarım: PP-YOLOE+ ve çakışan kutuları filtrelemek için Non-Maximum Suppression (NMS) gerektiren geleneksel YOLO varyantlarının aksine, YOLO26 doğal olarak uçtan ucadır. Bu, büyük bir dağıtım darboğazını ortadan kaldırır, gecikme varyansını azaltır ve ONNX ve CoreML gibi formatlara dışa aktarma sürecini basitleştirir.
- Eşsiz CPU Performansı: Kenar bilişim için özel olarak optimize edilmiş YOLO26, önceki nesillere göre %43'e kadar daha hızlı CPU çıkarımı sunar. Bu, Raspberry Pi, cep telefonları veya GPU'ların bulunmadığı standart bulut örneklerinde çalışan uygulamalar için kritik öneme sahiptir.
- Gelişmiş Eğitim Kararlılığı: YOLO26, SGD ve Muon'un (LLM eğitiminden esinlenilmiştir) bir hibriti olan MuSGD Optimize Ediciyi içerir; bu, karmaşık özel veri kümeleriyle bile daha hızlı yakınsama ve daha kararlı eğitim süreçleri sağlar.
- Basitleştirilmiş Mimari: Distribution Focal Loss (DFL) kaldırılması, model yapısını basitleştirerek, düşük güçlü kenar cihazları ve karmaşık kayıp fonksiyonlarıyla zorlanan hızlandırıcılarla uyumluluğu artırır.
- Bütünsel Ekosistem: Ultralytics Platformu ile kullanıcılar, veri yönetimi, bulut eğitimi ve tek tıklamayla dağıtım için sorunsuz bir işlem hattına erişim sağlar.
Tespitin Ötesinde Çok Yönlülük
Öncelikli olarak tespiti odaklanan DAMO-YOLO'nun aksine, YOLO26 doğal olarak Örnek Segmentasyonu, Poz Tahmini, OBB (Yönlendirilmiş Sınırlayıcı Kutu) ve Sınıflandırma dahil olmak üzere tam bir görev yelpazesini destekler.
Kullanım Kolaylığı
Ultralytics modellerinin belirleyici özelliklerinden biri geliştirici deneyimidir. DAMO-YOLO ve PP-YOLOE+ karmaşık yapılandırma dosyaları veya çerçeveye özgü bilgi gerektirebilirken, YOLO26 yalnızca birkaç satır kodla uygulanabilir.
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
Gerçek Dünya Kullanım Durumları
- Akıllı Perakende: Pahalı GPU donanımı olmadan raf envanterini gerçek zamanlı olarak izlemek için YOLO26'nın hızını kullanın.
- Tarım: Drone görüntülerinde zararlıları tespit etmek veya mahsulleri saymak için hayati önem taşıyan, geliştirilmiş küçük nesne tanıma için ProgLoss + STAL fonksiyonlarından yararlanın.
- Üretim: Tutarlı gecikmenin müzakere edilemez olduğu montaj hatlarında yüksek hızlı kalite kontrolü için NMS içermeyen modelleri dağıtın.
Sonuç
Doğru modeli seçmek, belirli kısıtlamalarınıza bağlıdır. DAMO-YOLO, NAS mimarileri araştırmaları ve belirli TensorRT gecikme hedeflerini önceliklendiren senaryolar için mükemmel bir seçimdir. PP-YOLOE+, sunucu sınıfı donanımda yüksek doğruluk gerektiren, Baidu ekosistemine derinlemesine entegre olanlar için sağlam bir seçenektir.
Ancak, geleceğe dönük, kullanımı kolay ve son derece çok yönlü bir çözüm arayan geliştiricilerin ve işletmelerin büyük çoğunluğu için Ultralytics YOLO26 öne çıkmaktadır. Uçtan uca tasarımı, üstün CPU performansı ve canlı bir açık kaynak topluluğunun desteği, onu modern bilgisayar görüşü uygulamaları için kesin bir seçim haline getirir.
Diğer son teknoloji seçeneklerle ilgilenen kullanıcılar için, Ultralytics belgelerinde YOLO11'i veya transformatör tabanlı RT-DETR'yi keşfedin.