YOLO YOLOv7: Gerçek Zamanlı Nesne Algılamaya Derinlemesine Bir Bakış

2022 yılı, bilgisayar görüşünün evriminde önemli bir dönüm noktası oldu ve iki çok etkili mimarinin piyasaya sürülmesine tanık oldu: YOLO ve YOLOv7. Her iki model de hız-doğruluk dengesi sınırlarını yeniden tanımlamayı amaçladı, ancak bu zorluğa temelde farklı mühendislik felsefelerinden yaklaştılar.

Alibaba Group tarafından geliştirilenYOLO, Neural Architecture Search (NAS) ve yoğun yeniden parametreleştirme teknolojisini kullanarak donanımdan maksimum verim elde ediyor. Buna karşılık, YOLOv4'ün yazarları tarafından geliştirilen YOLOv7, en son teknolojiye sahip doğruluk elde etmek için gradyan yayılma yollarını ve "bag-of-freebies" eğitim stratejilerini optimize etmeye odaklanıyor.

Bu kılavuz, bu iki modelin mimarilerini, performans ölçütlerini ve modern bilgisayar görme uygulamaları için uygunluklarını analiz ederek, titiz bir teknik karşılaştırma sunmaktadır. Ayrıca, bu eski yaklaşımların en iyi özelliklerini tek bir kullanıcı dostu çerçeveye entegre eden Ultralytics piyasaya sürülmesiyle birlikte sektörün nasıl değiştiğini de inceleyeceğiz.

Performans Metrikleri ve Kıyaslamalar

Bu mimariler arasındaki pratik farkları anlamak için, COCO gibi standart benchmarklarda performanslarını incelemek önemlidir. Aşağıdaki tablo, modelleri ortalama ortalama hassasiyet (mAP), çıkarım hızı (gecikme süresi) ve hesaplama karmaşıklığı açısından karşılaştırmaktadır.

Model	boyut ^(piksel)	mAP^val 50-95	Hız ^{CPU ONNX (ms)}	Hız ^{T4 TensorRT10 (ms)}	parametreler ^(M)	FLOP'lar ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Verilerde görüldüğü gibi, YOLOv7 genel olarak ham doğrulukta üstünlük sağlarken, YOLOv7 varyantı %53,1 gibi dikkat çekici bir mAP ulaşmaktadır. Bu da onu, tıbbi görüntü analizi veya adli belge incelemesi gibi hassasiyetin vazgeçilmez olduğu senaryolar için güçlü bir aday haline getirmektedir. Ancak YOLO, özellikle TensorRT donanımda son derece düşük gecikme süresi (2,32 ms) sunan "Tiny" varyantıyla verimlilik açısından öne çıkmaktadır ve bu da onu yüksek hızlı endüstriyel sıralama için uygun hale getirmektedir.

Mimari Yenilikler

Bu iki model arasındaki temel fark, mimarilerinin nasıl tasarlandığıdır.

YOLO: NAS Yaklaşımı

YOLO Distillation-Augmented MOdel), büyük ölçüde Neural Architecture Search (NAS) teknolojisine dayanmaktadır. Yazarlar, her bloğu elle oluşturmak yerine, MAE-NAS adlı bir yöntem kullanarak verimli backbone otomatik olarak keşfetmişlerdir.

RepGFPN: Verimli Yeniden Parametreleştirilmiş Genelleştirilmiş Özellik Piramidi Ağı'nı tanıtır. Bu, üstün çok ölçekli özellik füzyonu sağlar ve hem küçük hem de büyük nesnelerin etkili bir şekilde algılanmasını garanti eder.
ZeroHead: Algılama kafasının hesaplama maliyetini azaltmak içinYOLO , "ZeroHead" stratejisiniYOLO ve son katmanları basitleştirerek çıkarım sırasında kritik milisaniyeleri ortadan kaldırır.
Damıtma: Eğitim sürecinin önemli bir parçası, yoğun bilgi damıtma işlemidir. Bu işlemde, daha büyük bir öğretmen modeli daha küçük öğrenci modeline rehberlik eder ve çıkarım maliyetini artırmadan doğruluğu artırır.

YOLOv7: Gradyan Yolu Optimizasyonu

YOLOv7 , "eğitilebilir freebies torbaları"na YOLOv7 — bu, çıkarım maliyetini artırmadan eğitim sırasında doğruluğu artıran optimizasyonlardır.

E-ELAN: Genişletilmiş Verimli Katman Toplama Ağı, YOLOv7 backbone oluşturur. En kısa ve en uzun gradyan yollarını kontrol ederek ağın daha fazla özelliği öğrenmesini sağlayan bir mimari oluşturur ve ağın verimli bir şekilde yakınsaklaşmasını sağlar.
Model Ölçeklendirme: Ağı sadece genişleten veya derinleştiren önceki sürümlerin aksine, YOLOv7 bu ölçeklendirme özelliklerini YOLOv7 farklı donanım kısıtlamaları için optimum dengeyi korur.
Yardımcı Başlık: Eğitim süreci, derin denetim sağlamak için bir yardımcı başlık kullanır ve ara katmanların zengin özellikleri öğrenmesine yardımcı olur.

YOLOv7 hakkında daha fazla bilgi edinin.

Modern Alternatif: Ultralytics

YOLO YOLOv7 önemli mühendislik başarılarını YOLOv7 de, bu alan hızla ilerlemiştir. 2026 yılında yeni projelere başlayan geliştiriciler için Ultralytics , her iki eski modelin sınırlamalarını da ele alan birleşik bir çözüm sunmaktadır.

YOLO26 sadece bir güncelleme değil, uç öncelikli dünya için tasarlanmış bir paradigma değişikliğidir. YOLOv7 ile ilişkili yüksek doğruluğu YOLOv7 YOLO verimlilik hedeflerini bünyesinde barındırır, ancak üstün kullanılabilirlik ve modern mimari yenilikler sunar.

YOLO26'nın Temel Avantajları

Uçtan Uca NMS Tasarım: Yinelenen algılamaları filtrelemek için Non-Maximum Suppression (NMS) gerektiren YOLOv7 farklı olarak, YOLO26 doğal olarak uçtan uca bir tasarımdır. Bu, NMS kaynaklanan gecikme farkını ortadan kaldırarak, gerçek zamanlı robotik için çok önemli olan deterministik çıkarım hızları sağlar.
MuSGD Optimizer: Büyük Dil Modeli (LLM) eğitimindeki yeniliklerden (özellikle Moonshot AI'nın Kimi K2'sinden) esinlenen YOLO26, MuSGD optimizer'ı kullanır. SGD Muon'un bu hibrit versiyonu, bilgisayar görme eğitimine benzeri görülmemiş bir istikrar getirerek modellerin daha az dönemle daha hızlı yakınsama sağlamasına olanak tanır.
Edge-First Verimlilik: Dağıtım Odak Kaybını (DFL) ortadan kaldırarak, YOLO26 dışa aktarım için model grafiğini basitleştirir. Bu, önceki nesillere kıyasla %43'e kadar daha hızlı CPU olanak tanır ve GPU'ların bulunmadığı Raspberry Pi veya cep telefonları gibi cihazlar için üstün bir seçim haline getirir.
ProgLoss + STAL: Programlanabilir Kayıp (ProgLoss) ve Yumuşak Hedef Bağlantı Etiketleme (STAL) entegrasyonu,YOLO gibi daha hafif modellerin geleneksel zayıf noktası olan küçük nesne algılamada önemli kazançlar sağlar.

Ultralytics ile Kolaylaştırılmış İş Akışı

Araştırma depolarından üretime geçiş, parçalanmış kod tabanları nedeniyle genellikle zordur. Ultralytics , birleşik bir arayüz sunarak bu sorunu çözer. YOLO26 modelini eğitebilir, track ve aşağıdaki formatlara dağıtabilirsiniz ONNX veya CoreML gibi formatlara tek bir tıklama CoreML dağıtabilirsiniz. Bu,YOLO için gerekli olan manuel dışa aktarma komut dosyalarıyla keskin bir tezat oluşturur.

YOLO26 hakkında daha fazla bilgi edinin

Kullanılabilirlik ve Ekosistem

Bir modelin mimarisi hikayenin sadece yarısıdır; ekosistem, onu ne kadar kolay uygulayabileceğinizi belirler.

YOLO öncelikle bir araştırma deposudur. Kod açık kaynaklı olsa da, daha büyük Python kolay entegrasyon için standart bir API'ye sahip değildir. Kullanıcılar genellikle veri yükleyicileri, yapılandırma dosyalarını ve dışa aktarma komut dosyalarını manuel olarak işlemek zorundadır.

YOLOv7 bunu daha iyi dokümantasyonla iyileştirdi, ancak hala daha geleneksel komut dosyası tabanlı bir iş akışına dayanıyor (train.py, detect.py).

Ultralytics modellerinde kullanım kolaylığı önceliklidir. Kütüphane, modelleri nesne olarak ele alan bir Pythonic API sağlar. Bu, mevcut yazılım yığınlarına sorunsuz entegrasyon sağlar.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")

Ayrıca, Ultralytics çok yönlülükleriyle de tanınır.YOLO yalnızca nesneYOLO , Ultralytics görüntü sınıflandırma, örnek segmentasyonu, poz tahmini ve Yönlendirilmiş Sınırlayıcı Kutu (OBB) algılamayı destekler. Bu sayede tek bir ekip, tek bir iyi bakımlı kütüphaneyi kullanarak çeşitli bilgisayar görme görevlerini yerine getirebilir.

Eğitim Verimliliği ve Kaynaklar

Modern görme modellerini eğitmek kaynak yoğun bir işlem olabilir. YOLOv7 , "bag-of-freebies" özelliği ile bilinir. Bu, modelin çok etkili bir şekilde öğrendiği anlamına gelir, ancak eğitim süreci VRAM açısından yoğun olabilir. YOLO damıtmaya dayanması, eğitim sırasında etkili bir şekilde iki model (öğretmen ve öğrenci) çalıştırmanız gerektiği anlamına gelir. Bu da, bellek yükünü ve eğitim sürecinin karmaşıklığını artırır.

Ultralytics , CUDA kullanımını azaltmak için mimariyi optimize ederek bellek gereksinimlerini karşılar. Bu, geliştiricilerin tüketici sınıfı GPU'larda daha büyük toplu iş boyutları kullanmasına olanak tanır. Ayrıca, DFL gibi karmaşık bileşenlerin kaldırılması ve MuSGD optimizasyon aracının eklenmesi, eğitimin sadece istikrarlı değil, aynı zamanda hesaplama açısından da verimli olmasını sağlar.

Sonuç

HemYOLO YOLOv7 , Yapay Zeka alanına önemli katkılar YOLOv7 . YOLOv7 , elle yapılan optimizasyonlarla doğruluk sınırlarını YOLOv7 ,YOLO düşük gecikmeli uygulamalar için otomatik mimari aramanın gücünüYOLO

Ancak, 2026 yılında sağlam ve geleceğe dönük bir çözüm arayan geliştiriciler için Ultralytics açıkça tavsiye edilen bir seçenektir. YOLO yüksek doğruluk mirasını, NMS algılama ve LLM'den ilham alan optimizasyon araçları gibi modern yeniliklerle birleştirir. Ultralytics kapsamlı belgeleri ve aktif topluluğu ile desteklenen YOLO26, performans, kullanım kolaylığı ve dağıtım esnekliği arasında mükemmel bir denge sunar.

YOLO

Yazarlar: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang ve Xiuyu Sun
Kuruluş:Alibaba Group
Tarih: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

YOLOv7

Yazarlar: Chien-Yao Wang, Alexey Bochkovskiy ve Hong-Yuan Mark Liao
Kuruluş: Bilgi Bilimi Enstitüsü, Academia Sinica, Tayvan
Tarih: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7