Link to this sectionBilgisayarlı Görü için Veri Toplama ve Etiketleme Stratejileri#

Veri toplama ve etiketleme, her bilgisayarlı görü projesinin iki temel adımıdır: Temsili görüntü veya videolar toplar, ardından bir modelin bunlardan öğrenebilmesi için onları etiketlersin. Bu verilerin kalitesi doğrudan model performansını belirler; bu nedenle eğitim başlamadan önce sınıf tanımı, tarafsız kaynak bulma ve tutarlı etiketleme önemlidir.

Watch: How to Build Effective Data Collection and Annotation Strategies for Computer Vision 🚀

Bu rehber; sınıfları ayarlamayı ve veri toplamayı, veri etiketlemenin ne olduğunu ve seçebileceğin etiketleme türleri ile formatlarını ve verimli etiketleme stratejilerini kapsar; her karar projenin hedefleriyle uyumludur.

Link to this sectionSınıfları Belirleme ve Veri Toplama#

Bir bilgisayarlı görü projesi için görüntü ve video toplamak üç karara dayanır: kaç sınıf tanımlanacağı, verinin nereden alınacağı ve veri setinin tarafsızlığının nasıl korunacağı.

Link to this sectionProjen İçin Doğru Sınıfları Seçmek#

Bir bilgisayarlı görü projesine başlarken ilk sorulardan biri, kaç tane sınıfın dahil edileceğidir. Modelinin tanımasını ve ayırt etmesini istediğin farklı kategorileri veya etiketleri içeren sınıf üyeliğini belirlemen gerekir. Sınıf sayısı, projenin özel hedefleriyle belirlenmelidir.

Örneğin, trafiği izlemek istiyorsan sınıfların "araba", "kamyon", "otobüs", "motosiklet" ve "bisiklet" olabilir. Diğer yandan, bir mağazadaki ürünleri takip etmek için sınıfların "meyveler", "sebzeler", "içecekler" ve "atıştırmalıklar" olabilir. Sınıfları proje hedeflerine göre tanımlamak, veri setini ilgili ve odaklanmış tutmana yardımcı olur.

Sınıflarını tanımlarken yapman gereken bir diğer önemli ayrım ise kaba veya ince sınıf sayıları arasında seçim yapmaktır. 'Sayı', ilgilendiğin farklı sınıfların adedini ifade eder. Bu karar, verinin ayrıntı düzeyini ve modelinin karmaşıklığını etkiler. İşte her yaklaşım için dikkate alman gerekenler:

Kaba Sınıf Sayısı: Bunlar, "araç" ve "araç olmayan" gibi daha geniş, daha kapsayıcı kategorilerdir. Etiketlemeyi basitleştirir ve daha az hesaplama kaynağı gerektirirler ancak daha az ayrıntılı bilgi sağlarlar, bu da modelin karmaşık senaryolardaki etkinliğini sınırlayabilir.
İnce Sınıf Sayısı: "Sedan", "SUV", "kamyonet" ve "motosiklet" gibi daha ince ayrımlara sahip daha fazla kategori. Bunlar daha ayrıntılı bilgi yakalar, model doğruluğunu ve performansını artırır. Ancak, etiketlenmeleri daha çok zaman alır, daha emek yoğundur ve daha fazla hesaplama kaynağı gerektirirler.

Daha özel sınıflarla başlamak, özellikle ayrıntıların önemli olduğu karmaşık projelerde çok yardımcı olabilir. Daha özel sınıflar, daha ayrıntılı veri toplamana, daha derin içgörüler kazanmana ve kategoriler arasında daha net ayrımlar oluşturmana olanak tanır. Bu sadece modelin doğruluğunu artırmakla kalmaz, aynı zamanda gerektiğinde modeli daha sonra ayarlamayı kolaylaştırarak hem zamandan hem de kaynaklardan tasarruf etmeni sağlar.

Link to this sectionVeri Kaynakları#

Halka açık veri setlerini kullanabilir veya kendi özel verilerini toplayabilirsin. Kaggle ve Google Dataset Search Engine üzerindekiler gibi halka açık veri setleri, iyi etiketlenmiş ve standartlaştırılmış veriler sunar; bu da onları modelleri eğitmek ve doğrulamak için harika başlangıç noktaları yapar.

Özel veri toplama ise veri setini özel ihtiyaçlarına göre özelleştirmeni sağlar. Kameralar veya dronlarla görüntüler ve videolar çekebilir, web'den görsel kazıyabilir veya kuruluşundaki mevcut iç verileri kullanabilirsin. Özel veri, kalitesi ve uygunluğu üzerinde daha fazla kontrol sağlar. Hem halka açık hem de özel veri kaynaklarını birleştirmek, çeşitli ve kapsamlı bir veri seti oluşturmana yardımcı olur.

Link to this sectionVeri Toplamada Önyargıdan Kaçınma#

Önyargı, belirli grupların veya senaryoların veri setinde yeterince veya aşırı temsil edildiğinde ortaya çıkar. Bu, bazı verilerde iyi, bazılarında ise kötü performans gösteren bir modele yol açar. Bilgisayarlı görü modelinin çeşitli senaryolarda iyi performans gösterebilmesi için yapay zekadaki önyargıdan kaçınmak çok önemlidir.

Veri toplarken önyargıdan nasıl kaçınabileceğini burada bulabilirsin:

Çeşitli Kaynaklar: Farklı bakış açılarını ve senaryoları yakalamak için birçok kaynaktan veri topla.
Dengeli Temsil: Tüm ilgili gruplardan dengeli temsili dahil et. Örneğin, farklı yaşları, cinsiyetleri ve etnik kökenleri dikkate al.
Sürekli İzleme: Ortaya çıkan önyargıları belirlemek ve ele almak için veri setini düzenli olarak gözden geçir ve güncelle.
Önyargı Azaltma Teknikleri: Yetersiz temsil edilen sınıfların aşırı örneklenmesi, veri artırma ve adalet odaklı algoritmalar gibi yöntemleri kullan.

Bu uygulamaları takip etmek, gerçek dünya uygulamalarında iyi genelleme yapabilen daha sağlam ve adil bir model oluşturmana yardımcı olur.

Link to this sectionVeri Etiketleme Nedir?#

Veri etiketleme, veriyi makine öğrenimi modellerini eğitmek için kullanılabilir hale getirme sürecidir. Bilgisayarlı görüde bu, görüntüleri veya videoları bir modelin öğrenmesi için gereken bilgilerle etiketlemek anlamına gelir. Doğru etiketlenmemiş veriler olmadan, modeller girdiler ve çıktılar arasındaki ilişkileri doğru bir şekilde öğrenemez.

Link to this sectionVeri Etiketleme Türleri#

Bir bilgisayarlı görü görevinin özel gereksinimlerine bağlı olarak, farklı veri etiketleme türleri vardır. İşte bazı örnekler:

Sınırlayıcı Kutular (BBox): Bir görüntüdeki nesnelerin etrafına çizilen, öncelikli olarak nesne algılama görevleri için kullanılan dikdörtgen kutulardır. Bu kutular sol üst ve sağ alt koordinatlarıyla tanımlanır.
Çokgenler: Nesneler için ayrıntılı anahatlar, sınırlayıcı kutulardan daha hassas etiketlemeye olanak tanır. Çokgenler, nesne şeklinin önemli olduğu örnek segmentasyonu gibi görevlerde kullanılır.
Maskeler: Her pikselin ya bir nesnenin parçası ya da arka plan olduğu ikili maskelerdir. Maskeler, piksel düzeyinde ayrıntı sağlamak için anlamsal segmentasyon görevlerinde kullanılır.
Anahtar Noktalar: İlgi duyulan konumları belirlemek için bir görüntü içinde işaretlenen belirli noktalardır. Anahtar noktalar, poz tahmini ve yüz işareti algılama gibi görevlerde kullanılır.

Data annotation types including bounding boxes, polygons, and masks

Link to this sectionYaygın Etiketleme Formatları#

Bir etiketleme türü seçtikten sonra, etiketleri saklamak ve paylaşmak için uygun formatı seçmek önemlidir. En yaygın formatlar şunlardır:

Format	Dosya yapısı	Yaygın kullanım alanları
COCO	Tek JSON dosyası	Nesne algılama, örnek segmentasyonu, anahtar nokta algılama, nesne ve panoptik segmentasyon, görüntü altyazılama
Pascal VOC	Görüntü başına bir XML dosyası	Nesne algılama
YOLO	Her görsel için bir `.txt` dosyası	Nesne algılama, segmentasyon ve poz tahmini

YOLO formatı, 0'dan başlayan sınıf indeksleri ile her nesne için bir satır saklar. Nesne algılama için satır class x_center y_center width height formatında olup 0-1 arası normalleştirilmiş koordinatlar içerir; segmentasyon için normalleştirilmiş poligon noktaları eklenir ve poz tahmini için kutudan sonra anahtar nokta koordinatları ile isteğe bağlı görünürlük değerleri eklenir.

Link to this sectionEtiketleme Kılavuzlarını Belirleme#

Etiketleme türü ve formatı seçildikten sonra bir sonraki adım, net ve objektif etiketleme kuralları oluşturmaktır. Bu kurallar, etiketleme süreci boyunca tutarlılık ve doğruluk için bir yol haritası görevi görür. Bu kuralların temel yönleri şunlardır:

Açıklık ve Ayrıntı: Talimatlarının açık olduğundan emin ol. Beklenenleri göstermek için örnekler ve resimler kullan.
Tutarlılık: Etiketlerini tek tip tut. Farklı veri türlerini etiketlemek için standart kriterler belirle, böylece tüm etiketler aynı kurallara uyar.
Önyargıyı Azaltma: Tarafsız kal. Adil etiketlemeyi sağlamak için objektif olmayı öğren ve kişisel önyargılarını en aza indir.
Verimlilik: Daha çok değil, daha akıllıca çalış. Tekrarlayan görevleri otomatikleştiren araçlar ve iş akışları kullanarak etiketleme sürecini daha hızlı ve verimli hale getir.

Etiketleme kurallarını düzenli olarak gözden geçirmek ve güncellemek, etiketlerinin doğru, tutarlı ve proje hedeflerinle uyumlu kalmasına yardımcı olacaktır.

Link to this sectionAçıklama Araçları#

İyi bir etiketleme aracı, görevinin ihtiyaç duyduğu her türü etiketlemene olanak tanır, tutarlı yönergeleri zorunlu kılar ve etiketleri eğitim için hazır bir formatta dışa aktarır. Ultralytics Platform, algılama, örnek segmentasyonu, poz, OBB ve sınıflandırma işlemlerini kapsayan yerleşik bir etiketleme düzenleyici sunar. SAM destekli akıllı etiketleme özelliği, tek bir tıklamayı algılama, segmentasyon ve OBB görevleri için bir maskeye dönüştürür. Her etiket YOLO formatında kaydedildiğinden, etiketli veri setin herhangi bir dönüştürme adımı olmadan doğrudan eğitime geçer.

Link to this sectionEtiketleme Kalitesi: Doğruluk, Hassasiyet ve Aykırı Değerler#

Büyük ölçekte etiketleme yapmadan önce doğruluk, hassasiyet, aykırı değerler ve kalite kontrol kavramlarını anlaman faydalı olacaktır, böylece verilerini verimsiz bir şekilde etiketlememiş olursun.

Link to this sectionDoğruluk ve Kesinliği Anlamak#

Doğruluk ve kesinlik arasındaki farkı ve bunun etiketlemeyle nasıl ilişkili olduğunu anlamak önemlidir. Doğruluk, etiketlenmiş verilerin gerçek değerlere ne kadar yakın olduğunu ifade eder. Etiketlerin gerçek dünya senaryolarını ne kadar iyi yansıttığını ölçmemize yardımcı olur. Kesinlik, etiketlerin tutarlılığını gösterir. Veri seti boyunca aynı nesneye veya özelliğe aynı etiketi verip vermediğini kontrol eder. Yüksek doğruluk ve kesinlik, gürültüyü azaltarak ve modelin eğitim verilerinden genelleme yeteneğini geliştirerek daha iyi eğitilmiş modellere yol açar.

Accuracy vs precision comparison for data annotation

Link to this sectionAykırı Değerleri Belirleme#

Aykırı değerler, veri setindeki diğer gözlemlerden oldukça sapan veri noktalarıdır. Etiketlerle ilgili olarak, bir aykırı değer, yanlış etiketlenmiş bir görüntü veya veri setinin geri kalanıyla uyuşmayan bir etiket olabilir. Aykırı değerler endişe vericidir çünkü modelin öğrenme sürecini bozarak yanlış tahminlere ve kötü genellemeye yol açabilirler.

Aykırı değerleri tespit etmek ve düzeltmek için çeşitli yöntemler kullanabilirsin:

İstatistiksel Teknikler: Piksel değerleri, sınırlayıcı kutu koordinatları veya nesne boyutları gibi sayısal özelliklerdeki aykırı değerleri tespit etmek için kutu grafikleri, histogramlar veya z-skorları gibi yöntemler kullanabilirsin.
Görsel Teknikler: Nesne sınıfları, renkler veya şekiller gibi kategorik özelliklerdeki anomalileri tespit etmek için görüntüleri, etiketleri veya ısı haritalarını çizdirme gibi görsel yöntemler kullan.
Algoritmik Yöntemler: Veri dağılım modellerine dayalı aykırı değerleri tanımlamak için kümeleme (örneğin K-means kümeleme, DBSCAN) ve anomali algılama algoritmaları gibi araçlar kullan.

Link to this sectionEtiketlenmiş Verilerin Kalite Kontrolü#

Diğer teknik projeler gibi, etiketlenmiş veriler için de kalite kontrol bir zorunluluktur. Etiketlerin doğru ve tutarlı olduğundan emin olmak için onları düzenli olarak kontrol etmek iyi bir uygulamadır. Bu birkaç farklı yolla yapılabilir:

Etiketlenmiş verilerin örneklerini gözden geçirmek
Yaygın hataları tespit etmek için otomatik araçlar kullanmak
Başka birinin etiketleri tekrar kontrol etmesini sağlamak

Birden fazla kişiyle çalışıyorsan, farklı etiketleyiciler arasındaki tutarlılık önemlidir. İyi bir etiketleyici uyumu, kılavuzların net olduğu ve herkesin onları aynı şekilde takip ettiği anlamına gelir. Herkesi aynı sayfada tutar ve etiketleri tutarlı kılar.

İnceleme sırasında hatalar bulursan, bunları düzelt ve gelecekteki hatalardan kaçınmak için kılavuzları güncelle. Etiketleyicilere geri bildirim sağla ve hataları azaltmaya yardımcı olmak için düzenli eğitimler sun. Hataları ele almak için güçlü bir sürece sahip olmak, veri setini doğru ve güvenilir kılar.

Link to this sectionVerimli Veri Etiketleme Stratejileri#

Veri etiketleme sürecini daha pürüzsüz ve etkili hale getirmek için şu stratejileri uygulamayı düşün:

Net Etiketleme Kılavuzları: Tüm etiketleyicilerin görevleri tutarlı bir şekilde yorumladığından emin olmak için örneklerle ayrıntılı talimatlar sağla. Örneğin, kuşları etiketlerken, tüm kuşu mu yoksa sadece belirli kısımlarını mı dahil edeceğini belirt.
Düzenli Kalite Kontrolleri: Kriterler belirle ve işi gözden geçirmek için belirli metrikler kullan, sürekli geri bildirim yoluyla yüksek standartları koru.
Ön Etiketleme Araçlarını Kullan: Birçok modern etiketleme platformu, insanların daha sonra iyileştirebileceği ilk etiketleri otomatik olarak oluşturarak süreci önemli ölçüde hızlandırabilen yapay zeka destekli ön etiketleme özellikleri sunar.
Aktif Öğrenmeyi Uygula: Bu yaklaşım, en bilgilendirici örnekleri önce etiketlemeye öncelik verir, bu da model performansını korurken gereken toplam etiket sayısını azaltabilir.
Toplu İşleme: Tutarlılığı korumak ve verimliliği artırmak için benzer görüntüleri etiketleme için birlikte gruplandır.

Bu stratejiler, etiketleme süreci için gereken zamanı ve kaynakları azaltırken yüksek kaliteli etiketleri korumaya yardımcı olabilir.

Link to this sectionDüşüncelerini Toplulukla Paylaş#

Fikirlerini ve sorularını diğer bilgisayarlı görü meraklılarıyla paylaşmak projelerini hızlandırmaya yardımcı olabilir. İşte öğrenmek, sorun gidermek ve ağ kurmak için bazı harika yollar:

Link to this sectionNereden Yardım ve Destek Alabilirsin#

GitHub Issues: YOLO26 GitHub deposunu ziyaret et ve soru sormak, hataları bildirmek ve özellikler önermek için Issues sekmesini kullan. Topluluk ve sürdürücüler karşılaştığın her türlü sorunda yardımcı olmak için oradalar.
Ultralytics Discord Sunucusu: Diğer kullanıcılar ve geliştiricilerle bağlantı kurmak, destek almak, bilgi paylaşmak ve fikir alışverişinde bulunmak için Ultralytics Discord sunucusuna katıl.

Link to this sectionResmi Belgeler#

Ultralytics YOLO26 Dokümantasyonu: Sayısız bilgisayarlı görü görevi ve projesi hakkında kapsamlı kılavuzlar ve değerli içgörüler için resmi YOLO26 dokümantasyonuna başvur.

Link to this sectionSonuç#

Çeşitli, tarafsız veriler toplamak ve bunları doğru araçlarla tutarlı bir şekilde etiketlemek, güvenilir bir bilgisayarlı görü modelinin temelidir. Veri setini toplayıp etiketledikten sonra, eğitime ve değerlendirmeye geçmek için bilgisayarlı görü projesi adımları rehberine devam et.

Link to this sectionSSS#

Link to this sectionBilgisayarlı görü projeleri için veri toplamada önyargıdan kaçınmanın en iyi yolu nedir?#

Önyargıyı en aza indirmek için farklı kaynaklardan veri topla, ilgili tüm gruplar (farklı yaş, cinsiyet ve etnik kökenler gibi) arasında dengeli bir temsil sağla, ortaya çıkan önyargıları yakalamak için veri setini düzenli olarak gözden geçirip güncelle ve yeterince temsil edilmeyen sınıfları aşırı örnekleme, veri artırma ve adillik odaklı algoritmalar gibi azaltma tekniklerini uygula. Önyargıyı bu şekilde önlemek, bilgisayarlı görü modelinin çeşitli gerçek dünya senaryolarında iyi performans göstermesini sağlar ve genelleme yeteneğini geliştirir.

Link to this sectionVeri etiketlemede yüksek tutarlılığı ve doğruluğu nasıl sağlayabilirim?#

Detaylı talimatlar, örnekler ve görseller içeren net ve objektif etiketleme kılavuzları oluştur, ardından bunları tüm veri türlerine tutarlı bir şekilde uygula, böylece her etiket aynı kuralları takip eder. Kişisel önyargıyı azaltmak için etiketleyicileri tarafsız kalmaları konusunda eğit, kılavuzları düzenli olarak gözden geçirip güncelle ve doğruluğu yüksek tutmak ve proje hedefleriyle uyumlu hale getirmek için otomatik tutarlılık kontrolleri ile etiketleyiciler arası geri bildirim mekanizmalarını kullan.

Link to this sectionUltralytics YOLO modellerini eğitmek için kaç görüntüye ihtiyacım var?#

Transfer öğrenimi ile denemelere başlamak için sınıf başına birkaç yüz etiketli nesne yeterlidir, ancak güvenilir bir gerçek dünya performansı için Ultralytics, sınıf başına en az 1.500 görüntü ve 10.000 etiketli örnek önermektedir. Yeterince büyük bir veri setini makul bir eğitim programıyla eşleştir; yaklaşık 300 epoch yaygın bir başlangıç noktasıdır, model erken aşırı öğrenme (overfitting) gösterirse bu sayı azaltılabilir ve etiketlerini titizlikle, projenin özel hedefleriyle uyumlu tut. YOLO26 eğitim rehberinde ayrıntılı eğitim stratejilerini keşfet.

Link to this sectionUltralytics veri etiketleme aracı sağlıyor mu?#

Yes. Ultralytics Platform includes a built-in annotation editor that supports bounding boxes, polygons, keypoints, oriented boxes, and classification labels in a single workspace. SAM-powered smart annotation speeds up labeling for detection, segmentation, and OBB tasks by generating masks from a single click, and every annotation is stored in YOLO format, ready for training.

Link to this sectionBilgisayarlı görüde hangi veri etiketleme türleri yaygın olarak kullanılır?#

Bilgisayarlı görüdeki en yaygın veri etiketleme türleri; her biri farklı bir göreve uygun olan sınırlayıcı kutular, poligonlar, maskeler ve anahtar noktalardır:

Sınırlayıcı Kutular: Öncelikli olarak nesne algılama için kullanılır, bir görüntüdeki nesnelerin etrafındaki dikdörtgen kutulardır.
Çokgenler: Örnek segmentasyonu görevleri için uygun olan daha hassas nesne anahatları sağlar.
Maskeler: Nesneleri arka plandan ayırmak için anlamsal segmentasyonda kullanılan piksel düzeyinde ayrıntı sunar.
Anahtar Noktalar: Bir görüntü içindeki belirli ilgi noktalarını tanımlar, poz tahmini ve yüz işareti algılama gibi görevler için yararlıdır.

Uygun etiketleme türünü seçmek projenin gereksinimlerine bağlıdır. Bu etiketlerin nasıl uygulanacağı ve formatları hakkında daha fazla bilgiyi veri etiketleme kılavuzumuzda öğrenebilirsin.

Katkıda Bulunanlar

GLglenn-jocher¹¹ RAraimbekovm³ RIRizwanMunawar² ABabirami-vina¹

Oluşturulma 31 May 2024Güncellenme 3 hafta önce