YOLO . YOLOv9: Gerçek Zamanlı Nesne Algılamada Gelişmeler

Nesne algılama alanı sürekli gelişmekte olup, araştırmacılar doğruluk, gecikme süresi ve verimlilik sınırlarını sürekli olarak zorlamaktadır. Bilgisayar görme topluluğunda önemli dalgalanmalara neden olan iki önemli mimari, Alibaba Group tarafından geliştirilen YOLO ve YOLOv9'dur.

Her iki model de gerçek zamanlı algılama sorununu çözmeyi amaçlasa da, bu soruna farklı mimari felsefelerle yaklaşmaktadır.YOLO , düşük gecikme süresini optimize etmek için Sinir Mimarisi Arama (NAS) ve yoğun yeniden parametreleştirme yöntemYOLO , YOLOv9 derin öğrenme sürecinde bilgi tutma oranını en üst düzeye çıkarmak için Programlanabilir Gradyan Bilgisi (PGI) gibi kavramları YOLOv9 .

YOLO: Sinir Mimarisi Arama Yoluyla Verimlilik

YOLO (Distillation-Enhanced Neural Architecture Search for You Only Look Once), endüstriyel uygulamalar için performans ve hız arasında sıkı bir denge kurmaya odaklanarak 2022 yılının sonlarında tanıtıldı.

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:YOLO: Gerçek Zamanlı Nesne Algılama Tasarımı Hakkında Bir Rapor
GitHub:YOLO

Temel Mimari Özellikler

YOLO , sınırlı donanım kaynaklarından maksimum performans elde etmek için tasarlanmış üç temel teknoloji üzerineYOLO :

MAE-NAS Backbone: Manuel olarak tasarlanmış omurgalardan farklı olarak,YOLO , en uygun ağ yapısını bulmak için Masked Autoencoder (MAE) tabanlı Neural Architecture SearchYOLO . Bu, belirli hesaplama kısıtlamalarına matematiksel olarak uyarlanmış bir yapı ile sonuçlanır.
Verimli RepGFPN: Yeniden parametreleştirme mekanizmalarıyla geliştirilmiş Genelleştirilmiş Özellik Piramidi Ağı (GFPN) kullanır. Bu, modelin eğitim sırasında karmaşık çok ölçekli özellik birleştirmenin avantajlarından yararlanmasını sağlarken, çıkarım sırasında daha basit ve daha hızlı bir yapıya dönüşmesini sağlar.
ZeroHead & AlignedOTA: "ZeroHead" olarak adlandırılan algılama kafası, son çıktı katmanlarının hesaplama yükünü azaltmak için son derece hafif tutulmuştur. Ayrıca, etiket atama stratejisi olan AlignedOTA, eğitim sırasında sınıflandırma ve regresyon görevleri arasındaki uyumsuzluk sorunlarını çözer.

Güçlü ve Zayıf Yönler

YOLO en büyük gücüYOLO gecikme-doğruluk oranıdır. Belirli endüstriyel donanımlar için, NAS'tan türetilen backbone üstün bir verim backbone . Ancak, modelin karmaşık bir damıtma eğitim boru hattına bağlı olması (burada daha büyük bir "öğretmen" modelinin önce eğitilmesi gerekir ki daha küçük modeli yönlendirebilsin), hızlı yinelemelere ihtiyaç duyan geliştiriciler için eğitim sürecini zorlaştırabilir. Ayrıca,YOLO etrafındaki ekosistem, daha geniş YOLO kıyasla daha azYOLO ve bu da yeni dağıtım hedefleri için desteği sınırlayabilir.

YOLOv9: Programlanabilir Gradyanlarla Öğrenme

YOLOv9, 2024 yılının başında piyasaya sürüldü ve derin ağlarda bilgi kaybı sorununu ele alıyor. Evrişimli sinir ağları derinleştikçe, girdiyi çıktıya eşlemek için gerekli olan temel veriler sıklıkla kayboluyor. Bu fenomen, Bilgi Darboğazı olarak biliniyor.

Yazarlar: Chien-Yao Wang ve Hong-Yuan Mark Liao
Kuruluş:Bilgi Bilimleri Enstitüsü, Academia Sinica
Tarih: 2024-02-21
Arxiv:YOLOv9: Programlanabilir Gradyan Bilgisini Kullanarak Öğrenmek İstediğinizi Öğrenin
GitHub:WongKinYiu/yolov9

Temel Mimari Özellikler

YOLOv9 , bilgi kaybını azaltmak için iki çığır açan kavram YOLOv9 :

Programlanabilir Gradyan Bilgisi (PGI): PGI, ağ ağırlıklarını güncellemek için güvenilir gradyanlar üreten ve derin katmanların kritik semantik bilgileri korumasını sağlayan yardımcı bir denetim çerçevesidir. Yalnızca eğitim sırasında kullanılan ve çıkarım için kaldırılan, dağıtımda ekstra maliyet getirmeyen tersine çevrilebilir bir yardımcı dal içerir.
GELAN (Genelleştirilmiş Verimli Katman Toplama Ağı): Bu mimari, CSPNet ve ELAN'ın en iyi özelliklerini bir araya getirir. GELAN, hafif ve hızlı olacak şekilde tasarlanmış olup, çeşitli hesaplama bloklarını destekler ve alıcı alanı feda etmeden sıkı bir şekilde kontrol edilen parametre sayılarına izin verir.

Güçlü ve Zayıf Yönler

YOLOv9 , COCO yeni ölçütler belirleyerek doğruluk açısından YOLOv9 . Bilgiyi saklama yeteneği, diğer modellerin gözden kaçırabileceği zor nesneleri algılamada olağanüstü bir performans sergiler. Ancak, yardımcı dalların getirdiği mimari karmaşıklık, daha basit, modüler tasarımlara kıyasla kod tabanının özel görevler için değiştirilmesini zorlaştırabilir. GPU'larda oldukça etkili olsa da, belirli katman toplama işlemleri, bu hedefler için özel olarak tasarlanmış modellere kıyasla tüm CPU uç cihazlar için tam olarak optimize edilemeyebilir.

YOLOv9 hakkında daha fazla bilgi edinin.

Performans Karşılaştırması

Aşağıdaki tablo,YOLO YOLOv9 performans ölçütlerini göstermektedir. Parametre sayısı, hesaplama yükü (FLOP) ve doğruluk (mAP) arasındaki dengeleri dikkate alın.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv9 YOLOv9 genel olarak daha yüksek tepe doğruluğu elde etse de ( 55,6% mAP kadar), YOLO küçük model rejiminde rekabetçi bir performans sunar, ancak bunun bedeli olarak 'küçük' varyant için daha yüksek parametre sayıları gerekir. YOLOv9t, FLOP açısından önemli ölçüde daha hafiftir (7,7G'ye karşı 18,1G), bu da mAP daha düşük olmasına rağmen, kaynakları son derece kısıtlı cihazlar için potansiyel olarak daha iyi olmasını sağlar.

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

YOLO YOLOv9 önemli akademik başarıları YOLOv9 de, gerçek dünya üretimine odaklanan geliştiriciler genellikle en son teknoloji performansı, kullanım kolaylığı ve dağıtım esnekliğinin bir karışımına ihtiyaç duyarlar. İşte bu noktada Ultralytics , modern AI uygulamaları için üstün bir seçenek olarak öne çıkmaktadır.

Neden YOLO26?

2026 yılının Ocak ayında piyasaya sürülen YOLO26, önceki nesillerin mirasını temel alır, ancak mimari ve eğitim istikrarında temel değişiklikler getirir.

Uçtan Uca NMS Tasarım: YOLOv9 YOLO aksine, YOLO26, yinelenen sınırlayıcı kutuları filtrelemek için Non-Maximum Suppression (NMS) gerektirmez ve doğal olarak uçtan uca çalışır. Bu, NMS adımını tamamen ortadan kaldırarak, çıkarım gecikmesini ve varyansı azaltır ve dağıtım süreçlerini önemli ölçüde basitleştirir.
MuSGD Optimizer: Büyük Dil Modeli (LLM) eğitimindeki yeniliklerden esinlenen YOLO26, MuSGD optimizer'ı kullanır. SGD Muon'un (Moonshot AI'nın Kimi K2'sinden) birleşiminden oluşan bu hibrit, eğitime benzeri görülmemiş bir istikrar getirerek daha hızlı yakınsama sağlar ve kapsamlı hiperparametre ayarlaması ihtiyacını azaltır.
Edge-First Verimlilik: Dağıtım Odak Kaybını (DFL) ortadan kaldırarak ve CPU için mimariyi optimize ederek, YOLO26 CPU hızlarını %43'e kadar artırır. Bu da onu, GPU'ların bulunmadığı Raspberry Pi veya cep telefonları gibi cihazlarda uç bilgi işlem için ideal bir aday haline getirir.
Geliştirilmiş Küçük Nesne Algılama: ProgLoss + STAL (Kendi Kendine Öğrenen Çapa Öğrenimi) teknolojisinin tanıtılmasıyla, YOLO26, drone görüntüleri ve IoT sensörleri için kritik bir gereklilik olan küçük nesneleri tanıma konusunda önemli gelişmeler kaydetmiştir.

Ultralytics ile Kolaylaştırılmış İş Akışı

Karmaşık damıtma boru hatlarını veya manuel ortam kurulumlarını unutun. Ultralytics ile veri kümelerinizi yönetebilir, YOLO26 modellerini bulutta eğitebilir ve tek bir tıklama ile herhangi bir formata (ONNX, TensorRT, CoreML) dağıtabilirsiniz.

Rakipsiz Çok Yönlülük

YOLO öncelikle bir algılama modeliYOLO , Ultralytics YOLO26'nın kullanıma hazır olarak tüm görevleri desteklemesini sağlar. İster örnek segmentasyonu, ister Residual Log-Likelihood Estimation (RLE) ile poz tahmini, ister hava araştırmaları için Oriented Bounding Box (OBB) algılama ihtiyacınız olsun, API tutarlı ve basit kalır.

YOLO26 hakkında daha fazla bilgi edinin

Kod Örneği: Ultralytics ile Eğitim

Ultralytics Python , gelişmiş modellerin eğitiminin karmaşıklığını ortadan kaldırır. YOLOv9 YOLO26 arasında sorunsuz bir şekilde geçiş yapabilirsiniz.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Use GPU 0
)

# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")

Sonuç

Doğru modeli seçmek, özel kısıtlamalarınıza bağlıdır. NAS mimarilerini araştırıyorsanız veya RepGFPN yapısından özel olarak yararlanan donanıma sahipseniz, YOLO güçlü bir adaydır. YOLOv9 , COCO gibi akademik benchmarklarda mümkün olan en yüksek doğruluğu gerektiren senaryolar için mükemmel bir seçimdir. COCOgibi akademik benchmarklarda mümkün olan en yüksek doğruluğu gerektiren senaryolar için mükemmel bir seçimdi

Ancak, üretime hazır bir çözüm arayan geliştiriciler ve işletmeler için Ultralytics en cazip paketi sunuyor. NMS tasarımı, CPU ve Ultralytics ile entegrasyonu, pazara sunma süresini önemli ölçüde kısaltır. YOLO26, önceki modellerin teorik güçlerini MuSGD optimizer gibi pratik yeniliklerle birleştirerek, size sadece bir model değil, eksiksiz ve geleceğe dönük bir görme çözümü sunar.

YOLO . YOLOv9: Gerçek Zamanlı Nesne Algılamada Gelişmeler

YOLO: Sinir Mimarisi Arama Yoluyla Verimlilik

Temel Mimari Özellikler

Güçlü ve Zayıf Yönler

YOLOv9: Programlanabilir Gradyanlarla Öğrenme

Temel Mimari Özellikler

Güçlü ve Zayıf Yönler

Performans Karşılaştırması

Ultralytics Avantajı: YOLO26 Sahneye Çıkıyor

Neden YOLO26?

Rakipsiz Çok Yönlülük

Kod Örneği: Ultralytics ile Eğitim

Sonuç

Yorumlar