Link to this sectionНабор данных SKU-110K#

Набор данных SKU-110K — это одноклассовый набор данных для обнаружения объектов, состоящий из 11 743 изображений плотно заставленных розничных полок, разделенных на 8 219 обучающих, 588 валидационных и 2 936 тестовых изображений. Каждый товар размечен одной ограничивающей рамкой в рамках единого класса object — название относится к более чем 110 000 уникальных складских единиц (SKU), запечатленных на сценах, а не к 110 000 классов обнаружения. Созданный Эраном Голдманом и коллегами для статьи CVPR 2019 Precise Detection in Densely Packed Scenes, он содержит более 1,7 миллиона размеченных товаров — в среднем около 147 на изображение, — что делает его сложным эталоном для моделей компьютерного зрения в условиях переполненных розничных магазинов.

Watch: How to Train YOLOv10 on SKU-110k Dataset using Ultralytics | Retail Dataset

Обнаружение плотно упакованных товаров на полках магазинов в наборе данных SKU-110K

Link to this sectionКлючевые особенности#

Одноклассовое обнаружение: Каждый товар помечен одной ограничивающей рамкой в рамках единого класса object (names: {0: object}) — аннотации не содержат меток категорий для каждого SKU.
Экстремальная плотность объектов: Изображения полок магазинов со всего мира содержат в среднем около 147 плотно упакованных товаров каждое, причем объекты часто выглядят похожими или даже идентичными и расположены в непосредственной близости друг от друга.
Масштаб: Более 110 000 уникальных SKU и свыше 1,7 миллиона аннотированных ограничивающих рамок на 11 743 изображениях бросают вызов современным детекторам объектов.

Link to this sectionСтруктура набора данных#

Набор данных SKU-110K разделен на три подмножества, все из которых имеют общий единый класс object:

Split	Изображения	Описание
Обучение	8 219	Изображения и аннотации для обучения модели
Validation	588	Отложенные изображения для оценки во время обучения
Тестовый	2 936	Изображения для финальной оценки обученной модели

Link to this sectionПрименение#

Набор данных SKU-110K широко используется для обучения и оценки моделей глубокого обучения в задачах обнаружения объектов, особенно на сценах с высокой плотностью, таких как витрины розничных магазинов. Его применения включают:

Управление товарными запасами в ритейле и их автоматизацию
Распознавание товаров на платформах электронной коммерции
Проверку соответствия планограмме
Системы самообслуживания в магазинах
Роботизированный сбор и сортировку товаров на складах

Чтобы аннотировать собственные изображения полок, обучать и управлять наборами данных для розничного обнаружения в браузере, используй полный рабочий процесс с Ultralytics Platform.

Link to this sectionYAML набора данных#

Файл SKU-110K.yaml определяет конфигурацию набора данных — пути к данным, имена классов и другие метаданные. Он поддерживается в репозитории Ultralytics по адресу https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/SKU-110K.yaml.

ultralytics/cfg/datasets/SKU-110K.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# SKU-110K retail items dataset https://github.com/eg4000/SKU110K_CVPR19 by Trax Retail
# Documentation: https://docs.ultralytics.com/datasets/detect/sku-110k
# Example usage: yolo train data=SKU-110K.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── SKU-110K ← downloads here (13.6 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: SKU-110K # dataset root dir
train: train.txt # train images (relative to 'path') 8219 images
val: val.txt # val images (relative to 'path') 588 images
test: test.txt # test images (optional) 2936 images

# Classes
names:
  0: object

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import shutil
  from pathlib import Path

  import numpy as np
  import polars as pl

  from ultralytics.utils import TQDM
  from ultralytics.utils.downloads import download
  from ultralytics.utils.ops import xyxy2xywh

  # Download
  dir = Path(yaml["path"])  # dataset root dir
  parent = Path(dir.parent)  # download dir
  urls = ["http://trax-geometry.s3.amazonaws.com/cvpr_challenge/SKU110K_fixed.tar.gz"]
  download(urls, dir=parent)

  # Rename directories
  if dir.exists():
      shutil.rmtree(dir)
  (parent / "SKU110K_fixed").rename(dir)  # rename dir
  (dir / "labels").mkdir(parents=True, exist_ok=True)  # create labels dir

  # Convert labels
  names = "image", "x1", "y1", "x2", "y2", "class", "image_width", "image_height"  # column names
  for d in "annotations_train.csv", "annotations_val.csv", "annotations_test.csv":
      x = pl.read_csv(dir / "annotations" / d, has_header=False, new_columns=names, infer_schema_length=None).to_numpy()  # annotations
      images, unique_images = x[:, 0], np.unique(x[:, 0])
      with open((dir / d).with_suffix(".txt").__str__().replace("annotations_", ""), "w", encoding="utf-8") as f:
          f.writelines(f"./images/{s}\n" for s in unique_images)
      for im in TQDM(unique_images, desc=f"Converting {dir / d}"):
          cls = 0  # single-class dataset
          with open((dir / "labels" / im).with_suffix(".txt"), "a", encoding="utf-8") as f:
              for r in x[images == im]:
                  w, h = r[6], r[7]  # image width, height
                  xywh = xyxy2xywh(np.array([[r[1] / w, r[2] / h, r[3] / w, r[4] / h]]))[0]  # instance
                  f.write(f"{cls} {xywh[0]:.5f} {xywh[1]:.5f} {xywh[2]:.5f} {xywh[3]:.5f}\n")  # write label

Link to this sectionИспользование#

Загрузка 13,6 ГБ

SKU-110K загружается автоматически при первом запуске обучения и требует около 13,6 ГБ свободного места на диске для своих 11 743 изображений. Скрипт загрузки также получает исходные аннотации и преобразует их в формат YOLO, что может занять несколько минут.

Чтобы обучить модель YOLO26n на наборе данных SKU-110K в течение 100 эпох при размере изображения 640, ты можешь использовать следующие фрагменты кода. Полный список доступных аргументов можно найти на странице обучения модели.

Пример обучения

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="SKU-110K.yaml", epochs=100, imgsz=640)

Link to this sectionПримеры данных и разметки#

Изображения SKU-110K фиксируют плотно расположенные товары на реальных полках магазинов, где десятки почти идентичных предметов стоят бок о бок. Вот пример изображения с его аннотациями:

Обнаружение розничных товаров на полках магазинов в SKU-110K

Изображение плотно заставленной розничной полки: Это изображение демонстрирует пример плотно упакованных объектов в условиях розничной полки. Объекты аннотированы ограничивающими рамками в рамках единственного класса object.

Плотное расположение товаров делает SKU-110K особенно ценным для разработки надежных решений компьютерного зрения для ритейла, так как большое количество объектов на изображение выводит детекторы далеко за пределы типичных эталонов.

Link to this sectionЦитирование и благодарности#

Если ты используешь набор данных SKU-110K в своей исследовательской или проектной работе, пожалуйста, сошлися на следующую статью:

Цитата

@inproceedings{goldman2019dense,
  author    = {Eran Goldman and Roei Herzig and Aviv Eisenschtat and Jacob Goldberger and Tal Hassner},
  title     = {Precise Detection in Densely Packed Scenes},
  booktitle = {Proc. Conf. Comput. Vision Pattern Recognition (CVPR)},
  year      = {2019}
}

Мы хотели бы выразить признательность Эрану Голдману и его коллегам за создание и поддержку набора данных SKU-110K как ценного ресурса для сообщества исследователей компьютерного зрения. Для получения дополнительной информации о наборе данных SKU-110K и его создателях посети GitHub-репозиторий набора данных SKU-110K.

Link to this sectionFAQ#

Link to this sectionДля чего используется набор данных SKU-110K?#

Набор данных SKU-110K — это одноклассовый набор данных для обнаружения объектов, состоящий из 11 743 изображений плотно заставленных полок магазинов, созданный Эраном Голдманом и коллегами для их статьи CVPR 2019. Каждый товар помечен одной ограничивающей рамкой object, а изображения охватывают более 110 000 уникальных складских единиц (SKU), что делает его мощным эталоном для обнаружения объектов на переполненных сценах и для построения систем компьютерного зрения в ритейле.

Link to this sectionСодержит ли набор данных SKU-110K 110 000 классов?#

Нет. SKU-110K является одноклассовым: каждый товар аннотирован одной ограничивающей рамкой класса object (names: {0: object}). «110K» в названии относится к количеству уникальных складских единиц (SKU), изображенных на снимках, а не к количеству классов обнаружения.

Link to this sectionСколько изображений и классов в наборе данных SKU-110K?#

Набор данных SKU-110K содержит 11 743 изображения — 8 219 для обучения, 588 для валидации и 2 936 для тестирования — и один класс обнаружения, object. Смотри раздел Структура набора данных и конфигурацию SKU-110K.yaml для получения подробностей.

Link to this sectionКакой объем загрузки набора данных SKU-110K?#

Размер SKU-110K составляет около 13,6 ГБ, и он автоматически загружается при первом запуске обучения с параметром data="SKU-110K.yaml" — ручная загрузка не требуется. Чтобы просмотреть другие, меньшие варианты, ознакомься с обзором наборов данных для обнаружения.

Link to this sectionКак мне обучить модель YOLO26 с использованием набора данных SKU-110K?#

Обучение модели YOLO26 на наборе данных SKU-110K выполняется просто. Вот пример обучения модели YOLO26n на 100 эпохах с размером изображения 640: