İçeriğe geç

YOLOv10 vs. PP-YOLOE+: Kapsamlı Bir Teknik Karşılaştırma

Doğru nesne algılama modelinin seçilmesi, verimli bilgisayarla görme uygulamalarının geliştirilmesinde çok önemli bir adımdır. Seçim genellikle çıkarım hızı, tespit doğruluğu ve donanım kısıtlamaları arasındaki dengelerin tartılmasını içerir. Bu teknik karşılaştırma şunları analiz eder YOLOv10Tsinghua Üniversitesi'nden gerçek zamanlı uçtan uca bir dedektör ve Baidu'nun PaddlePaddle ekosisteminden yüksek doğruluklu bir model olan PP-YOLOE+. Her iki model de önemli mimari yenilikler getirmektedir, ancak farklı dağıtım ihtiyaçlarına ve geliştirme ortamlarına hitap etmektedirler.

YOLOv10: Gerçek Zamanlı Uçtan Uca Tespit için Yeni Standart

YOLOv10 , geleneksel post-processing ile ilişkili performans darboğazlarını ortadan kaldırmaya odaklanan YOLO (You Only Look Once) serisinde önemli bir sıçramayı temsil ediyor. Tsinghua Üniversitesi'ndeki araştırmacılar tarafından geliştirilen bu seri, Maksimum Olmayan BastırmaNMS) ihtiyacını ortadan kaldırarak daha düşük gecikme süresi ve daha yüksek verimlilik elde ediyor.

Yazarlar Ao Wang, Hui Chen, Lihao Liu, et al.
Organizasyon:Tsinghua Üniversitesi
Tarih: 2024-05-23
ArXiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docs:ultralytics

Mimari ve Temel Özellikler

YOLOv10 , eğitim sırasında tutarlı bir ikili atama stratejisi sunar. Bu yöntem, modelin çıkarım sırasında her nesne için tek bir en iyi kutuyu tahmin etmesini sağlayarak NMS sonrası işleme ihtiyacını etkili bir şekilde ortadan kaldırır. BuNMS'siz" tasarım, özellikle yoğun nesne kümelerinin bulunduğu sahnelerde çıkarım gecikmesini önemli ölçüde azaltır.

Temel mimari gelişmeler şunlardır:

  • Bütünsel Verimlilik-Doğruluk Tasarımı: Model, doğruluktan ödün vermeden hesaplama maliyetini(FLOP'lar) azaltmak için hafif sınıflandırma kafaları ve uzamsal kanal ayrıştırılmış alt örnekleme kullanır.
  • Sıralama Kılavuzlu Blok Tasarımı: Hız ve doğruluk arasındaki dengeyi optimize etmek için modelin farklı aşamalarında farklı blok tasarımları kullanılır ve derin katmanlardaki fazlalık azaltılır.
  • Büyük Çekirdekli Konvolüsyonlar: Büyük çekirdekli konvolüsyonların stratejik kullanımı alıcı alanı geliştirerek modelin bağlamı daha iyi anlamasını ve küçük nesneleri detect etmesini sağlar.

Güçlü ve Zayıf Yönler

YOLOv10 maksimum verimlilik için tasarlanmıştır, bu da onu gerçek zamanlı uygulamalar için zorlu bir seçim haline getirir.

  • Güçlü yönleri: NMS 'nin ortadan kaldırılması daha hızlı, deterministik çıkarım hızlarına yol açar. Üstün parametre verimliliği sunar ve öncekilere göre daha az parametre ile yüksek mAP skorları elde eder. Ultralytics ekosistemine entegrasyonu, basit bir Python API kullanarak eğitmenin ve dağıtmanın kolay olmasını sağlar.
  • Zayıf yönleri: Özel bir nesne algılayıcı olarak, şu anda öncelikle sınırlayıcı kutu algılamaya odaklanırken, Ultralytics paketindeki diğer modeller segmentasyon ve poz tahmini gibi daha geniş bir görev yelpazesini desteklemektedir.

İdeal Kullanım Senaryoları

  • Otonom Robotik: YOLOv10 'un düşük gecikmeli yapısı, navigasyon ve engellerden kaçınma için anlık kararların gerekli olduğu robotik için kritik öneme sahiptir.
  • Uç Yapay Zeka Dağıtımı: YOLOv10 kadar küçük varyantlarıyla, NVIDIA Jetson veya Raspberry Pi gibi uç cihazlar için mükemmel şekilde uygundur.
  • Trafik İzleme: Modelin yoğun sahneleri NMS ek yükü olmadan işleme yeteneği, onu gerçek zamanlı trafik yönetimi için ideal hale getirir.

YOLOv10 hakkında daha fazla bilgi edinin

PP-YOLOE+: PaddlePaddle Ekosisteminde Hassas Mühendislik

PP-YOLOE+, Baidu tarafından geliştirilen PP-YOLOE serisinin bir evrimidir. Yüksek hassasiyete öncelik veren ölçeklenebilir, çapasız bir dedektör olarak tasarlanmıştır. Türkiye'de bir köşe taşı modeli olarak hizmet vermektedir. PaddlePaddle çerçevesi, özellikle bu ortam için optimize edilmiştir.

Yazarlar: PaddlePaddle Yazarlar
Organizasyon:Baidu
Tarih: 2022-04-02
ArXivPaddlePaddle
GitHubPaddlePaddle
DokümanlarPaddlePaddlePaddlePaddle

Mimari ve Temel Özellikler

PP-YOLOE+, çapa tabanlı öncüllere kıyasla hiperparametre arama uzayını basitleştiren çapasız bir mimari benimser.

Temel özellikler şunlardır:

  • CSPRepResNet Backbone: Bu backbone , CSPNet'in gradyan akışı avantajlarını yeniden parametreli ResNet bloklarının çıkarım verimliliği ile birleştirir.
  • Görev Hizalama Öğrenimi (TAL): Çapa sınıflandırmasının kalitesini yerelleştirme doğruluğu ile dinamik olarak hizalayan özel bir etiket atama stratejisi.
  • Verimli Görev Hizalamalı Başlık (ET-Head): Çatışmayı önlemek için sınıflandırma ve yerelleştirme özelliklerini bağımsız olarak işleyen ayrıştırılmış bir algılama kafası.

Güçlü ve Zayıf Yönler

PP-YOLOE+ sağlam bir modeldir ancak benimsenmesini etkileyebilecek bağımlılıklar taşımaktadır.

  • Güçlü yönleri: Aşağıdaki gibi karşılaştırmalarda mükemmel doğruluk sağlar COCOözellikle daha büyük konfigürasyonlarında (L ve X). PaddlePaddle çıkarım motoru tarafından desteklenen donanım için son derece optimize edilmiştir.
  • Zayıf yönleri: Birincil sınırlama, PaddlePaddle ekosistemine olan bağımlılığıdır. Alışkın geliştiriciler için PyTorchPP-YOLOE+'ya geçiş, daha dik bir öğrenme eğrisi ve takım entegrasyonunda potansiyel sürtünme içerir. Ayrıca, karşılaştırılabilir doğruluk için parametre sayısı YOLOv10 'dan önemli ölçüde daha yüksektir ve bu da daha yüksek bellek kullanımına yol açar.

İdeal Kullanım Senaryoları

  • Endüstriyel Muayene: Yüksek doğruluk, üretimdeki küçük kusurları tespit etmek için uygun hale getirir.
  • Perakende Analitiği: Akıllı perakende ortamlarında envanter sayımı ve ürün tanıma için etkilidir.
  • Malzeme Ayıklama: Geri dönüşüm tesislerinde çeşitli malzemelerin otomatik olarak ayrıştırılması için kullanılır.

PP-YOLOE+ hakkında daha fazla bilgi edinin

Performans Analizi: Verimlilik ve Doğruluk

Teknik ölçütler karşılaştırıldığında, YOLOv10 verimlilikte açık bir avantaj göstermektedir. Önemli ölçüde daha az parametre ve hesaplama kaynağı (FLOP) kullanırken karşılaştırılabilir veya daha üstün doğruluk (mAP) elde eder.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Temel Çıkarımlar

  • Verimlilik: YOLOv10l, yaklaşık %44 daha az parametre kullanırken PP-YOLOE+l'den (%52,9) daha yüksek bir mAP (%53,3) elde eder. Bu da YOLOv10 'un depolanmasını önemli ölçüde hafifletir ve yüklenmesini hızlandırır.
  • Hız: YOLOv10 'un NMS tasarımı, genel olarak daha düşük gecikme süresi anlamına gelir. Örneğin, YOLOv10n 1,56 ms ile son derece hızlıdır ve yüksek hızlı video analizi için üstündür.
  • Ölçeklenebilirlik: PP-YOLOE+x ham mAP 'de hafif bir üstünlüğe sahip olsa da (%0,3 daha yüksek), YOLOv10x'e kıyasla neredeyse iki kat daha fazla parametre (98,42M'ye karşı 56,9M) ve FLOP gerektirir.

Bellek Verimliliği

YOLOv10 ve YOLO11 gibi Ultralytics modelleri, eski mimarilere veya ağır transformatör tabanlı modellere kıyasla hem eğitim hem de çıkarım sırasında tipik olarak daha düşük bellek gereksinimleri sergiler. Bu verimlilik, standart GPU donanımında daha büyük yığın boyutlarına ve daha hızlı eğitim döngülerine olanak tanır.

Ultralytics Avantajı

Her iki model de yetenekli olsa da, Ultralytics ekosistemiiçinde bir model seçmek - örneğin YOLOv10 veya son teknoloji ürünü YOLO11-geliştiriciler için belirgin avantajlar sağlar.

  1. Kullanım Kolaylığı: Ultralytics Python API, karmaşık şablon kodunu soyutlar. Sadece birkaç satır Python ile bir modeli eğitebilir, doğrulayabilir ve dağıtabilirsiniz.
  2. Bakımlı Ekosistem: Kullanıcılar sık güncellemelerden, GitHub'daki canlı bir topluluktan ve Ultralytics HUB gibi MLOps araçlarıyla sorunsuz entegrasyonlardan yararlanır ve Weights & Biases.
  3. Çok yönlülük: Standart nesne algılamanın ötesinde, Ultralytics çerçeveleri örnek segmentasyonu, görüntü sınıflandırması, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) algılamayı destekleyerek çeşitli bilgisayarla görme görevleri için birleşik bir çözüm sunar.

Kod Örneği: YOLOv10 'u Ultralytics ile Çalıştırma

Ultralytics kütüphanesi ile YOLOv10 'u iş akışınıza entegre etmek çok kolay:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

Sonuç

Arasındaki karşılaştırmada YOLOv10 ve YOLOv10 ile birlikte YOLOv10 , çoğu genel amaçlı bilgisayarla görme uygulaması için üstün bir seçim olarak ortaya çıkmaktadır. NMS mimarisi, nesne algılama gecikmesinde uzun süredir devam eden bir darboğazı çözer ve yüksek verimli parametre kullanımı, uç cihazlardan bulut sunucularına kadar daha geniş bir donanım yelpazesinde dağıtım için erişilebilir olmasını sağlar.

PP-YOLOE+, PaddlePaddle çerçevesine sıkı sıkıya bağlı kullanıcılar veya hesaplama verimliliği yerine doğruluktaki marjinal kazanımlara öncelik verenler için güçlü bir rakip olmaya devam ediyor. Bununla birlikte, hız, doğruluk ve kullanım kolaylığı arasında bir denge arayan geliştiriciler için YOLOv10ve daha geniş Ultralytics ekosistemi, geleceğe dönük ve geliştirici dostu bir yol sunar.

Diğer Modelleri İnceleyin

Ultralytics ekosisteminde daha fazla seçenek keşfetmekle ilgileniyorsanız, bu karşılaştırmalara göz atmayı düşünün:

  • YOLO11 vs. YOLOv10: En yeni amiral gemisi modelin verimlilik odaklı YOLOv10 ile nasıl karşılaştırıldığını görün.
  • YOLOv10 vs. RT-DETR: Gerçek zamanlı dönüştürücüleri CNN tabanlı YOLO mimarileri ile karşılaştırın.
  • YOLOv8 vs. PP-YOLOE+: Baidu'nun modeline karşı yaygın olarak benimsenen YOLOv8 'in performansını analiz edin.

Yorumlar