YOLOv9 YOLO: Gerçek Zamanlı Nesne Algılamada Gelişmeler

Gerçek zamanlı nesne algılamanın evrimi, doğruluk ve gecikme süresi arasında optimum dengeyi sürekli olarak aramakla şekillenmiştir. Bu ayrıntılı karşılaştırmada, iki önemli mimariyi inceliyoruz: YOLOv9, Programlanabilir Gradyan Bilgisi (PGI) ve Genelleştirilmiş Verimli Katman Toplama Ağı (GELAN) ile tanınan ve Neural Architecture Search (NAS) ve rep-parametrizasyon teknikleri ile optimize edilmiş bir model ailesi olan YOLO.

Ayrıca, uç cihazlar için uçtan uca NMS tasarım ve optimizasyon ile bu sınırları daha da genişleten en yeni nesil YOLO26'yı da tanıtıyoruz.

Karşılaştırmalı Performans Metrikleri

Aşağıdaki tablo, COCO veri setindeki temel performans ölçütlerinin doğrudan karşılaştırmasını göstermektedir. YOLOv9 , benzer model boyutları için üstün parametre verimliliği ve genellikle daha yüksek doğruluk YOLOv9 .

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9: Programlanabilir Gradyan Bilgisi

YOLOv9 derin öğrenme mimarisi tasarımında önemli bir sıçrama temsil eder ve derin ağlarda var olan bilgi darboğazı sorununu ele alır.

Yazarlar: Chien-Yao Wang, Hong-Yuan Mark Liao
Kuruluş:Institute of Information Science, Academia Sinica
Tarih: 2024-02-21
Arxiv:YOLOv9: Programlanabilir Gradyan Bilgisi Kullanarak Ne Öğrenmek İstediğinizi Öğrenme
GitHub:WongKinYiu/yolov9

Temel Mimari Yenilikler

Programlanabilir Gradyan Bilgisi (PGI): Ağlar derinleştikçe, ileri besleme sürecinde kritik özellik bilgileri sıklıkla kaybolur. PGI, eğitim sırasında ana dala güvenilir gradyan bilgisi sağlayan yardımcı bir tersinir dal ekler. Bu, ağın doğru algılama için gerekli özellikleri korumasını sağlar ve çıkarım maliyetini artırmadan "bilgi darboğazı" sorununu etkili bir şekilde çözer.
GELAN Backbone: Genel Verimli Katman Toplama Ağı (GELAN), CSPNet ve ELAN'ın en iyi özelliklerini bir araya getirir. Parametre kullanımını en üst düzeye çıkarırken esnek hesaplama bloğu seçimlerine (ResBlocks veya CSP blokları gibi) olanak tanır. Bu, hafif ancak inanılmaz derecede güçlü modellerin ortaya çıkmasını sağlar.

Bu yenilikler, YOLOv9 genel amaçlı nesne algılama için YOLOv9 etkili hale getiriyor ve özellikle karmaşık sahnelerde ince ayrıntıları korumada çok başarılı olmasını sağlıyor.

YOLOv9 hakkında daha fazla bilgi edinin.

YOLO: Sinir Mimarisi Arama Optimizasyonu

YOLO, verimli mimarileri otomatik olarak keşfetmeye ve performansı artırmak için damıtma tekniklerini kullanmaya odaklanmaktadır.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun
Kuruluş: Alibaba Group
Tarih: 2022-11-23
Arxiv:DAMO-YOLO: Gerçek Zamanlı Nesne Algılama Tasarımı Üzerine Bir Rapor
GitHub:tinyvision/DAMO-YOLO

Mimari Öne Çıkanlar

YOLO , backbone MAE-NAS'ı oluşturmak için Neural Architecture Search (NAS) adlı bir teknolojiyiYOLO . Bu yaklaşım, belirli gecikme kısıtlamaları içinde en uygun ağ yapısını bulmayı amaçlamaktadır. Ayrıca, farklı ölçeklerdeki özellikleri birleştirmek için Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network) kullanır. Model ayrıca, daha büyük bir öğretmen modelinin daha küçük öğrenci modelinin eğitimini yönlendirerek doğruluğunu artırdığı "ZeroHead" ve damıtma geliştirme yöntemlerine de büyük ölçüde dayanmaktadır.

Yenilikçi olmasına rağmen, NAS ve karmaşık damıtma boru hatlarına bağımlılık, YOLOv9 modüler tasarımına kıyasla sonuçları yeniden üretmeyi veya özel görevler için mimariyi değiştirmeyi daha zor hale getirebilir.

Ultralytics : Ekosistem ve Kullanım Kolaylığı

Her iki mimari de güçlü teorik katkılar sunarken, geliştiriciler için pratik deneyim önemli ölçüde farklılık göstermektedir. YOLOv9 YOLO26 dahil olmak üzere Ultralytics , sorunsuz bir "sıfır sürtünme" deneyimi sunar.

Kolaylaştırılmış İş Akışı

YOLO eğitmek genellikle karmaşık yapılandırma dosyaları ve belirli ortam kurulumları ( PaddlePaddle belirli CUDA gibi) gerektirir. Buna karşılık, Ultralytics Python iş akışını standartlaştırır. En son teknolojiye sahip modelleri dakikalar içinde yükleyebilir, eğitebilir ve dağıtabilirsiniz.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Çok Yönlülük ve Görev Desteği

Ultralytics sınırlayıcı kutularla sınırlı değildir. Çerçeve, örnek segmentasyonu, poz tahmini ve yönlendirilmiş sınırlayıcı kutu (OBB) algılamayı yerel olarak destekler. Bu çok yönlülük, ekiplerin yeni kütüphaneler öğrenmeden görevler arasında geçiş yapabilmelerini sağlar. Tersine,YOLO öncelikle standart algılamayaYOLO ve bu karmaşık alt görevler için daha az entegre destek sunar.

Eğitim Verimliliği ve Bellek

Ultralytics YOLO verimlilik için tasarlanmıştır. Bu modeller, dönüştürücü ağırlıklı mimarilere veya düzensiz bellek erişim modellerine sahip NAS tarafından oluşturulan modellere kıyasla, eğitim sırasında genellikle daha az GPU gerektirir. Bu sayede araştırmacılar, tüketici sınıfı donanımlarda sağlam modeller eğitebilir ve üst düzey bilgisayar görüşüne erişimi demokratikleştirebilir.

Gerçek Dünya Uygulamaları

Doğru modeli seçmek, dağıtım kısıtlamalarınıza ve performans hedeflerinize bağlıdır.

YOLOv9 için İdeal Kullanım Örnekleri

Perakende Analitiği: YOLOv9c'nin yüksek doğruluğu, tıkanıklığın sık görüldüğü kalabalık raflarda ürün algılama için mükemmel bir seçimdir.
Tıbbi Görüntüleme: PGI mimarisi, tıbbi taramalarda küçük anomalileri tespit ederken veya kırıkları tanımlarken hayati önem taşıyan kritik özellik bilgilerinin korunmasına yardımcı olur.
Genel Amaçlı Gözetim: Yüksek mAP makul FPS dengesi gereken standart güvenlik beslemeleri için.

YOLO için İdeal Kullanım Örnekleri

Kısıtlı Donanım Arama: Standart omurgaların başarısız olduğu çok özel bir donanım kısıtlamasına backbone tasarlanmış bir backbone bulmak için NAS araştırması yapıyorsanız.
Akademik Karşılaştırma: Damıtma tekniklerinin etkinliğini yapısal yeniden parametreleştirme ile karşılaştıran araştırmacılar için.

YOLO26 neden geleceğin teknolojisi?

2026 yılında yeni projelere başlayan geliştiriciler için YOLO26 en cazip özellik setini sunuyor. YOLOv9 güçlü yönlerini temel alan bu model YOLOv9 uçtan uca NMS bir tasarım sunarak Non-Maximum Suppression son işlemine olan ihtiyacı ortadan kaldırıyor. Bu, özellikle uç cihazlarda dağıtımı önemli ölçüde basitleştiriyor ve gecikmeyi azaltıyor.

YOLO26 hakkında daha fazla bilgi edinin

YOLO26'nın temel yenilikleri şunlardır:

MuSGD Optimizer: SGD Muon'un bir karışımı olan bu teknik, eğitimi stabilize eder ve yakınsamayı hızlandırarak Büyük Dil Modeli (LLM) eğitiminin kararlılığını görme alanına taşır.
DFL Kaldırma: Dağıtım Odak Kaybının kaldırılması, model grafiğini basitleştirerek ONNX ve TensorRT daha sorunsuz hale getirir.
Geliştirilmiş Küçük Nesne Algılama: ProgLoss ve STAL sayesinde YOLO26, hava görüntüleri ve drone uygulamalarında üstün performans gösterir.

Dağıtımınızı Geleceğe Hazırlayın

YOLO26 'ya geçiş yapmak, uygulamanızın uç optimizasyonundaki en son gelişmelerden yararlanmasını sağlar. Yerel uçtan uca tasarım, CPU'lar ve NPU'larda daha hızlı çıkarım anlamına gelir ve bu, pille çalışan IoT cihazları için çok önemlidir.

Sonuç

YOLO , Sinir Mimarisi Arama ve damıtma ile ilgili ilginç kavramlarYOLO , YOLOv9 ve daha yeni olan YOLO26, bilgisayar görme uygulamalarının büyük çoğunluğu için daha pratik, güçlü ve kullanıcı dostu bir çözüm sunuyor. Ultralytics , geliştiricilerin kapsamlı belgeler ve topluluk desteği ile desteklenen modellerin eğitimi, izlenmesi ve dağıtımı için en iyi araçlara erişebilmesini sağlar.

Model mimarilerini daha ayrıntılı incelemek için, YOLOv10 YOLO veya YOLO11 YOLOv9 karşılaştırmalarımızı gözden geçirebilirsiniz.