İçeriğe geç

YOLOv9 ve YOLOv10: Nesne Algılama için Teknik Bir Karşılaştırma

Doğru nesne algılama modelini seçmek, geliştiriciler ve araştırmacılar için kritik bir karardır ve gerçek zamanlı çıkarım ve hesaplama kaynaklarının kısıtlamalarına karşı yüksek hassasiyet ihtiyacını dengeler. Bu kılavuz, aşağıdakiler arasında derinlemesine bir teknik karşılaştırma sağlar YOLOv9 ve YOLOv102024'te bilgisayarla görme performansının sınırlarını zorlayan son teknoloji ürünü iki mimari.

YOLOv9 , derin öğrenme bilgi darboğazlarını çözmek için mimari yeniliklere odaklanırken, YOLOv10 minimum gecikme için NMS bir tasarımla bir paradigma değişikliği sunar. Her iki model de Ultralytics Python paketine tamamen entegre edilmiştir ve kullanıcıların bunları birleşik bir ekosistem içinde kolayca eğitmesine, doğrulamasına ve dağıtmasına olanak tanır.

Performans Ölçütleri ve Kıyaslamalar

Bu iki model arasındaki performans dengeleri farklıdır. YOLOv9 , özellikle daha büyük varyantlarıyla Ortalama Ortalama Hassasiyet (mAP) konusunda genellikle sınırları zorlar ve bu da onu doğruluğun çok önemli olduğu senaryolar için uygun hale getirir. Buna karşılık, YOLOv10 verimlilik için tasarlanmıştır, çıkarım gecikmesini ve parametre sayılarını önemli ölçüde azaltır, bu da uç dağıtım için idealdir.

Aşağıdaki tabloda COCO veri seti kullanılarak bu farklılıklar gösterilmektedir. Özellikle, YOLOv10n T4 GPU'larda inanılmaz hızlara ulaşırken, YOLOv9e algılama doğruluğunda baskındır.

Modelboyut
(piksel)
mAPval
50-95
Hız
CPU ONNX
(ms)
Hız
T4 TensorRT10
(ms)
parametreler
(M)
FLOP'lar
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLOv9: Bilgi Darboğazını Çözmek

Şubat 2024'te piyasaya sürüldü, YOLOv9 derin sinir ağlarındaki temel bir teorik zorluğu hedefler: veriler derin katmanlar boyunca yayılırken bilgi kaybı. Bu model, ağın doğru nesne tespiti için gereken temel özellikleri korumasını sağlamak üzere tasarlanmıştır.

Teknik Detaylar:

Mimari: PGI ve GELAN

YOLOv9 çığır açan iki konsept sunuyor:

  1. Programlanabilir Gradyan Bilgisi (PGI): Eğitim sırasında bilgi kaybını önleyen yardımcı bir denetim çerçevesi. Ağ ağırlıklarını güncellemek için güvenilir gradyanların oluşturulmasını sağlar ve önceki mimarilerde bulunan derin denetim sorunlarını çözer.
  2. Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN): Parametre verimliliğini en üst düzeye çıkaran yeni bir mimari. GELAN, özelliklerin katmanlar arasında nasıl toplandığını optimize ederek modelin geleneksel tasarımlara kıyasla daha az parametre ile daha yüksek doğruluk elde etmesini sağlar.

Güçlü ve Zayıf Yönler

YOLOv9 doğruluk açısından kritik uygulamalarda mükemmeldir. Ayrıntılı özellik bilgilerini koruma yeteneği, küçük nesneleri tespit etmek veya karmaşık sahnelerde gezinmek için üstün olmasını sağlar. Ancak bu gelişmişlik, karmaşıklıktan ödün vermeyi de beraberinde getiriyor. PGI gibi mimari eklemeler öncelikle eğitim içindir, yani çıkarım sırasında kaldırılabilirler, ancak eğitim kaynakları daha yüksek olabilir. Ayrıca, verimli olsa da, gecikme süresi genellikle YOLOv10'un özel verimli tasarımlarından daha yüksektir.

YOLOv9 hakkında daha fazla bilgi edinin

YOLOv10: NMS Algılama Çağı

YOLOv10Tsinghua Üniversitesi'ndeki araştırmacılar tarafından geliştirilen ve Mayıs 2024'te piyasaya sürülen NMS, gerçek zamanlı hıza ve uçtan uca dağıtılabilirliğe öncelik vermektedir. Belirleyici özelliği, geleneksel olarak çıkarım gecikmesi için bir darboğaz olan bir işlem sonrası adımı olan Maksimum Olmayan Bastırma'nın (NMS) ortadan kaldırılmasıdır.

Teknik Detaylar:

Mimari: Tutarlı İkili Atamalar

YOLOv10 'un temel yeniliği, eğitim sırasında Tutarlı İkili Atamalardır. Model, eğitim sırasında zengin denetim için bire-çok atama stratejisi kullanır ancak çıkarım için bire-bir atamaya geçer. Bu mimari, modelin her nesne için en uygun sınırlayıcı kutuyu doğrudan tahmin etmesine olanak tanıyarak NMS son işlemini gereksiz hale getirir. Sıralama Kılavuzlu Blok Tasarımı ile birleştiğinde, YOLOv10 fazlalığı ve hesaplama ek yükünü (FLOP'lar) azaltır.

Güçlü ve Zayıf Yönler

YOLOv10 'un birincil avantajı düşük gecikme süresidir. NMS'nin kaldırılmasıyla, çıkarım gecikmesi deterministik ve önemli ölçüde daha düşük hale gelir, bu da gerçek zamanlı video işleme için kritik öneme sahiptir. Ayrıca, YOLOv10 modellerinin daha az FLOP ile rekabetçi doğruluk elde ettiği karşılaştırma tablosunda görüldüğü gibi mükemmel parametre verimliliğine sahiptir. Potansiyel bir zayıflık, yerleşik ekosistemlere kıyasla nispeten yeni piyasaya sürülmesidir, ancak Ultralytics 'e entegrasyon bunu hafifletir. Ayrıca, ekosistemdeki diğer modeller daha geniş çoklu görev desteği sunarken, tespit için oldukça uzmanlaşmıştır.

Uçtan Uca İhracat

YOLOv10 tasarımı gereği NMSediğinden, ONNX veya TensorRT gibi formatlara aktarmak genellikle daha basittir ve karmaşık işlem sonrası eklentileri gerektirmeden "saf" uçtan uca modeller üretir.

YOLOv10 hakkında daha fazla bilgi edinin

Geliştiriciler için Karşılaştırmalı Analiz

Bu modelleri üretime entegre ederken, ham metriklerin ötesinde çeşitli pratik faktörler devreye girer.

Kullanım Kolaylığı ve Ekosistem

Her iki model de Ultralytics ekosisteminin bir parçası olmaktan büyük fayda sağlar. Bu, geliştiricilerin YOLOv9 ve YOLOv10 arasında sadece bir model dizesini değiştirerek, aynı eğitim boru hatlarını, doğrulama araçlarını ve dağıtım biçimlerini kullanarak geçiş yapabileceği anlamına gelir.

  • Eğitim Verimliliği: Ultralytics modelleri tipik olarak transformatör tabanlı dedektörlerden daha az bellek gerektirir ve standart tüketici GPU'larında eğitime izin verir.
  • Çok yönlülük: YOLOv9 ve YOLOv10 algılamaya odaklanırken, Ultralytics API, YOLO11 ve YOLOv8 gibi modeller aracılığıyla örnek segmentasyonu ve poz tahmini gibi diğer görevleri destekleyerek çeşitli görsel yapay zeka projeleri için kapsamlı bir araç seti sunar.

İdeal Kullanım Senaryoları

  • Ne zaman YOLOv9 'u seçin:

    • Uygulamanız mümkün olan en yüksek doğruluğu gerektirir (örneğin, tıbbi görüntüleme, üretimde kusur tespiti).
    • Bilgi tutmanın çok önemli olduğu, tespit edilmesi detect nesnelerle çalışıyorsunuz.
    • Gecikme, hassasiyete kıyasla ikincil bir endişe kaynağıdır.
  • Ne zaman YOLOv10 'u seçin:

    • Hız kritik öneme sahiptir. Otonom sürüş, robotik navigasyon veya yüksek FPS video analizi gibi uygulamalar NMS tasarımdan yararlanır.
    • GPU kaynaklarının sınırlı olduğu uç cihazlarda ( NVIDIA Jetson veya Raspberry Pi gibi) dağıtım.
    • NMS işlemenin getirdiği değişkenlik olmadan deterministik bir çıkarım süresine ihtiyacınız vardır.

Kod Örneği: Her İki Modeli de Çalıştırma

Birleşik Ultralytics API'si sayesinde, bu modelleri kendi verileriniz üzerinde karşılaştırmak kolaydır. Aşağıdaki Python kodu, her iki mimari ile çıkarımın nasıl yükleneceğini ve çalıştırılacağını göstermektedir.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model_v9 = YOLO("yolov9c.pt")

# Load a pre-trained YOLOv10 model
model_v10 = YOLO("yolov10n.pt")

# Run inference on an image
results_v9 = model_v9("path/to/image.jpg")
results_v10 = model_v10("path/to/image.jpg")

# Print results
print(f"YOLOv9 Detection: {len(results_v9[0].boxes)}")
print(f"YOLOv10 Detection: {len(results_v10[0].boxes)}")

Sonuç

Hem YOLOv9 hem de YOLOv10 bilgisayarla görme alanında önemli kilometre taşlarını temsil etmektedir. YOLOv9 özellik tutma ve doğruluk konusunda teorik sınırları zorlayarak araştırma ve hassasiyet gerektiren görevler için bir güç merkezi haline getiriyor. YOLOv10NMS darboğazını ortadan kaldırarak verimliliği yeniden tanımlar ve gerçek zamanlı uygulamalar için modern bir çözüm sunar.

Birden fazla görevde (segmentasyon ve sınıflandırma dahil) doğruluk, hız ve özellik zenginliği arasında mutlak en iyi dengeyi arayan kullanıcılar için şunları da keşfetmenizi öneririz YOLO11. Ultralytics'in en son yinelemesi olan YOLO11 , seleflerinin en iyi özelliklerini neredeyse tüm görsel yapay zeka uygulamaları için uygun, sağlam ve kurumsal kullanıma hazır bir paket haline getiriyor.

Diğer Modelleri İnceleyin

Ultralytics ekosistemi çok geniştir. Proje gereksinimleriniz farklıysa, bu alternatifleri göz önünde bulundurun:

  • YOLO11: Algılama, Segmentasyon, Poz, OBB ve Sınıflandırma alanlarında üstün performans ve çok yönlülük sunan en son teknoloji ürünü model.
  • YOLOv8: Geniş uyumluluğu ve çoklu görev desteği ile bilinen oldukça popüler ve kararlı bir model.
  • RT-DETR: NMS'ye ihtiyaç duymadan yüksek doğruluk sunan, belirli kullanım durumları için YOLO mimarilerine alternatif olarak hizmet veren transformatör tabanlı bir dedektör.

Ultralytics platformundan yararlanarak, bu model paketinin tamamına erişim elde edersiniz ve her zaman iş için doğru araca sahip olmanızı sağlarsınız.


Yorumlar