Meet YOLO26: next-gen vision AI.

Link to this sectionНабор данных TT100K#

Tsinghua-Tencent 100K (TT100K) — это крупномасштабный набор данных для тестирования систем распознавания дорожных знаков, созданный на основе 100 000 панорам Tencent Street View. Этот набор данных специально разработан для обнаружения и классификации дорожных знаков в реальных условиях, предоставляя исследователям и разработчикам комплексный ресурс для создания надежных систем распознавания знаков.

Набор данных содержит 100 000 изображений и более 30 000 экземпляров дорожных знаков, распределенных по 221 категории аннотаций. В исходной статье для обучения с учителем применяется порог в 100 экземпляров на класс, что дает часто используемое подмножество из 45 классов; однако предоставленная конфигурация набора данных Ultralytics сохраняет все 221 категорию с аннотациями, многие из которых встречаются очень редко. Эти изображения охватывают значительные вариации освещенности, погодных условий, углов обзора и расстояний, что делает их идеальными для обучения моделей, которым необходимо надежно работать в разнообразных реальных сценариях.

Этот набор данных особенно ценен для:

  • Систем автономного вождения
  • Систем помощи водителю (ADAS)
  • Приложений мониторинга дорожного движения
  • Городского планирования и анализа трафика
  • Исследований в области компьютерного зрения в реальных условиях

Link to this sectionКлючевые особенности#

Набор данных TT100K предоставляет несколько ключевых преимуществ:

  • Масштаб: 100 000 изображений высокого разрешения (2048×2048 пикселей)
  • Разнообразие: 221 категория дорожных знаков, охватывающая дорожные знаки Китая
  • Реальные условия: Большие вариации погоды, освещения и углов обзора
  • Богатые аннотации: Каждый знак включает метку класса, ограничивающую рамку (bbox) и пиксельную маску
  • Комплексный охват: Включает запрещающие, предупреждающие, предписывающие и информационные знаки
  • Разделение на обучение/тестирование: Предопределенные наборы для согласованной оценки

Link to this sectionСтруктура набора данных#

Набор данных TT100K разделен на три подмножества:

  1. Обучающий набор: Основная коллекция изображений дорожных сцен, используемая для обучения моделей обнаружению и классификации различных типов дорожных знаков.
  2. Валидационный набор: Подмножество, используемое во время разработки модели для мониторинга производительности и настройки гиперпараметров.
  3. Тестовый набор: Отложенная коллекция изображений, используемая для оценки способности итоговой модели обнаруживать и классифицировать дорожные знаки в реальных сценариях.

Набор данных TT100K включает 221 категорию дорожных знаков, организованных в несколько основных групп:

Знаки ограничения скорости (pl, pm)**

  1. pl_: Запрещающие знаки ограничения скорости (например, pl5, pl10, pl20, pl30, pl40, pl50, pl60, pl70, pl80, pl100, pl120)
  2. pm_: Знаки минимальной скорости (например, pm5, pm10, pm20, pm30, pm40, pm50, pm55)

Запрещающие знаки (p, pn, pr_)**

  1. p1-p29: Общие запрещающие знаки (въезд запрещен, парковка запрещена, остановка запрещена и т. д.)
  2. pn/pne: Знаки въезд запрещен и парковка запрещена
  3. pr: Различные знаки ограничений (например, pr10, pr20, pr30, pr40, pr50)

Предупреждающие знаки (w_)

  1. w1-w67: Предупреждающие знаки для различных дорожных опасностей, условий и ситуаций
  2. Включает пешеходные переходы, крутые повороты, скользкие дороги, животных, дорожные работы и т. д.

Знаки ограничения высоты/ширины (ph, pb, pw*)**

  1. ph_: Знаки ограничения высоты (например, ph2, ph2.5, ph3, ph3.5, ph4, ph4.5, ph5)
  2. pb/pw_: Знаки ограничения ширины

Информационные знаки (i, il, io, ip)**

  1. i1-i15: Общие информационные знаки
  2. il_: Информационные знаки ограничения скорости (il50, il60, il70, il80, il90, il100, il110)
  3. io: Другие информационные знаки
  4. ip: Информационные таблички

Link to this sectionYAML набора данных#

Файл YAML (Yet Another Markup Language) используется для определения конфигурации набора данных. Он содержит информацию о путях к данным, классах и другую важную информацию. Для набора данных TT100K файл TT100K.yaml включает функцию автоматической загрузки и преобразования.

ultralytics/cfg/datasets/TT100K.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Tsinghua-Tencent 100K (TT100K) dataset https://cg.cs.tsinghua.edu.cn/traffic-sign/ by Tsinghua University
# Documentation: https://cg.cs.tsinghua.edu.cn/traffic-sign/tutorial.html
# Paper: Traffic-Sign Detection and Classification in the Wild (CVPR 2016)
# License: CC BY-NC 2.0 license for non-commercial use only
# Example usage: yolo train data=TT100K.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── TT100K ← downloads here (~18 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: TT100K # dataset root dir
train: images/train # train images (relative to 'path') 6105 images
val: images/val # val images (relative to 'path') 7641 images (original 'other' split)
test: images/test # test images (relative to 'path') 3071 images

# Classes (221 traffic sign categories, 45 with sufficient training instances)
names:
  0: i1
  1: i10
  2: i11
  3: i12
  4: i13
  5: i14
  6: i15
  7: i2
  8: i3
  9: i4
  10: i5
  11: il100
  12: il110
  13: il50
  14: il60
  15: il70
  16: il80
  17: il90
  18: io
  19: ip
  20: p1
  21: p10
  22: p11
  23: p12
  24: p13
  25: p14
  26: p15
  27: p16
  28: p17
  29: p18
  30: p19
  31: p2
  32: p20
  33: p21
  34: p22
  35: p23
  36: p24
  37: p25
  38: p26
  39: p27
  40: p28
  41: p3
  42: p4
  43: p5
  44: p6
  45: p7
  46: p8
  47: p9
  48: pa10
  49: pa12
  50: pa13
  51: pa14
  52: pa8
  53: pb
  54: pc
  55: pg
  56: ph1.5
  57: ph2
  58: ph2.1
  59: ph2.2
  60: ph2.4
  61: ph2.5
  62: ph2.8
  63: ph2.9
  64: ph3
  65: ph3.2
  66: ph3.5
  67: ph3.8
  68: ph4
  69: ph4.2
  70: ph4.3
  71: ph4.5
  72: ph4.8
  73: ph5
  74: ph5.3
  75: ph5.5
  76: pl10
  77: pl100
  78: pl110
  79: pl120
  80: pl15
  81: pl20
  82: pl25
  83: pl30
  84: pl35
  85: pl40
  86: pl5
  87: pl50
  88: pl60
  89: pl65
  90: pl70
  91: pl80
  92: pl90
  93: pm10
  94: pm13
  95: pm15
  96: pm1.5
  97: pm2
  98: pm20
  99: pm25
  100: pm30
  101: pm35
  102: pm40
  103: pm46
  104: pm5
  105: pm50
  106: pm55
  107: pm8
  108: pn
  109: pne
  110: po
  111: pr10
  112: pr100
  113: pr20
  114: pr30
  115: pr40
  116: pr45
  117: pr50
  118: pr60
  119: pr70
  120: pr80
  121: ps
  122: pw2
  123: pw2.5
  124: pw3
  125: pw3.2
  126: pw3.5
  127: pw4
  128: pw4.2
  129: pw4.5
  130: w1
  131: w10
  132: w12
  133: w13
  134: w16
  135: w18
  136: w20
  137: w21
  138: w22
  139: w24
  140: w28
  141: w3
  142: w30
  143: w31
  144: w32
  145: w34
  146: w35
  147: w37
  148: w38
  149: w41
  150: w42
  151: w43
  152: w44
  153: w45
  154: w46
  155: w47
  156: w48
  157: w49
  158: w5
  159: w50
  160: w55
  161: w56
  162: w57
  163: w58
  164: w59
  165: w60
  166: w62
  167: w63
  168: w66
  169: w8
  170: wo
  171: i6
  172: i7
  173: i8
  174: i9
  175: ilx
  176: p29
  177: w29
  178: w33
  179: w36
  180: w39
  181: w4
  182: w40
  183: w51
  184: w52
  185: w53
  186: w54
  187: w6
  188: w61
  189: w64
  190: w65
  191: w67
  192: w7
  193: w9
  194: pax
  195: pd
  196: pe
  197: phx
  198: plx
  199: pmx
  200: pnl
  201: prx
  202: pwx
  203: w11
  204: w14
  205: w15
  206: w17
  207: w19
  208: w2
  209: w23
  210: w25
  211: w26
  212: w27
  213: pl0
  214: pl4
  215: pl3
  216: pm2.5
  217: ph4.4
  218: pn40
  219: ph3.3
  220: ph2.6

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import json
  import shutil
  from pathlib import Path

  from PIL import Image

  from ultralytics.utils import TQDM
  from ultralytics.utils.downloads import download

  def tt100k2yolo(dir):
      """Convert TT100K annotations to YOLO format with images/{split} and labels/{split} structure."""
      data_dir = dir / "data"
      anno_file = data_dir / "annotations.json"

      print("Loading annotations...")
      with open(anno_file, encoding="utf-8") as f:
          data = json.load(f)

      # Build class name to index mapping from yaml
      names = yaml["names"]
      class_to_idx = {v: k for k, v in names.items()}

      # Create directories
      for split in ["train", "val", "test"]:
          (dir / "images" / split).mkdir(parents=True, exist_ok=True)
          (dir / "labels" / split).mkdir(parents=True, exist_ok=True)

      print("Converting annotations to YOLO format...")
      skipped = 0
      for img_id, img_data in TQDM(data["imgs"].items(), desc="Processing"):
          img_path_str = img_data["path"]
          if "train" in img_path_str:
              split = "train"
          elif "test" in img_path_str:
              split = "test"
          else:
              split = "val"

          # Source and destination paths
          src_img = data_dir / img_path_str
          if not src_img.exists():
              continue

          dst_img = dir / "images" / split / src_img.name

          # Get image dimensions
          try:
              with Image.open(src_img) as img:
                  img_width, img_height = img.size
          except Exception as e:
              print(f"Error reading {src_img}: {e}")
              continue

          # Copy image to destination
          shutil.copy2(src_img, dst_img)

          # Convert annotations
          label_file = dir / "labels" / split / f"{src_img.stem}.txt"
          lines = []

          for obj in img_data.get("objects", []):
              category = obj["category"]
              if category not in class_to_idx:
                  skipped += 1
                  continue

              bbox = obj["bbox"]
              xmin, ymin = bbox["xmin"], bbox["ymin"]
              xmax, ymax = bbox["xmax"], bbox["ymax"]

              # Convert to YOLO format (normalized center coordinates and dimensions)
              x_center = ((xmin + xmax) / 2.0) / img_width
              y_center = ((ymin + ymax) / 2.0) / img_height
              width = (xmax - xmin) / img_width
              height = (ymax - ymin) / img_height

              # Clip to valid range
              x_center = max(0, min(1, x_center))
              y_center = max(0, min(1, y_center))
              width = max(0, min(1, width))
              height = max(0, min(1, height))

              cls_idx = class_to_idx[category]
              lines.append(f"{cls_idx} {x_center:.6f} {y_center:.6f} {width:.6f} {height:.6f}\n")

          # Write label file
          if lines:
              label_file.write_text("".join(lines), encoding="utf-8")

      if skipped:
          print(f"Skipped {skipped} annotations with unknown categories")
      print("Conversion complete!")

  # Download
  dir = Path(yaml["path"])  # dataset root dir
  urls = ["https://cg.cs.tsinghua.edu.cn/traffic-sign/data_model_code/data.zip"]
  download(urls, dir=dir, curl=True, threads=1)

  # Convert
  tt100k2yolo(dir)

Link to this sectionИспользование#

Чтобы обучить модель YOLO26 на наборе данных TT100K в течение 100 эпох с размером изображения 640, можно использовать следующие фрагменты кода. Набор данных будет автоматически загружен и преобразован в формат YOLO при первом использовании.

Пример обучения
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model - dataset will auto-download on first run
results = model.train(data="TT100K.yaml", epochs=100, imgsz=640)

Link to this sectionПримеры изображений и аннотации#

Вот типичные примеры из набора данных TT100K:

  1. Городская среда: Уличные сцены с несколькими дорожными знаками на различных расстояниях
  2. Магистральные сцены: Знаки на скоростных дорогах, включая ограничения скорости и указатели направлений
  3. Сложные перекрестки: Несколько знаков в непосредственной близости с различными ориентациями
  4. Сложные условия: Знаки при разном освещении (день/ночь), погодных условиях (дождь/туман) и углах обзора

Набор данных включает:

  1. Крупный план: Крупные, четко видимые знаки, занимающие значительную площадь изображения
  2. Удаленные знаки: Мелкие знаки, требующие возможностей высокоточного обнаружения
  3. Частично перекрытые знаки: Знаки, частично заслоненные транспортными средствами, деревьями или другими объектами
  4. Несколько знаков на изображении: Изображения, содержащие несколько разных типов знаков

Link to this sectionЦитирование и благодарности#

Если ты используешь набор данных TT100K в своей исследовательской или разработческой работе, пожалуйста, процитируй следующую статью:

Цитата
@InProceedings{Zhu_2016_CVPR,
    author = {Zhu, Zhe and Liang, Dun and Zhang, Songhai and Huang, Xiaolei and Li, Baoli and Hu, Shimin},
    title = {Traffic-Sign Detection and Classification in the Wild},
    booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
    month = {June},
    year = {2016}
}

Мы хотели бы выразить признательность университету Цинхуа и компании Tencent за сотрудничество в создании и поддержке этого ценного ресурса для сообществ компьютерного зрения и автономного вождения. Для получения дополнительной информации о наборе данных TT100K посети официальный веб-сайт набора данных.

Link to this sectionFAQ#

Link to this sectionДля чего используется набор данных TT100K?#

Набор данных Tsinghua-Tencent 100K (TT100K) специально разработан для обнаружения и классификации дорожных знаков в реальных условиях. Он в основном используется для:

  1. Обучения систем восприятия автономного вождения
  2. Разработки систем помощи водителю (ADAS)
  3. Исследований в области надежного обнаружения объектов в различных условиях
  4. Тестирования (бенчмаркинга) алгоритмов распознавания дорожных знаков
  5. Проверки производительности модели на мелких объектах на больших изображениях

Благодаря 100 000 разнообразных изображений улиц и 221 категории дорожных знаков, он предоставляет комплексный стенд для проверки обнаружения дорожных знаков в реальных условиях.

Link to this sectionСколько категорий дорожных знаков в TT100K?#

Набор данных TT100K содержит 221 различную категорию дорожных знаков, включая:

  1. Ограничения скорости: запрещающие pl* и минимальные скорости pm* (например, pl40, pl120, pm30, pm55)
  2. Запрещающие знаки: 29 типов общего запрета (p1-p29) плюс ограничения (pr*, pn, pne)
  3. Предупреждающие знаки: 60+ категорий предупреждений (w1-w67)
  4. Ограничения высоты/ширины: серии ph* высоты и pw* ширины для физических ограничений
  5. Информационные знаки: i1-i15, il*, io, ip для навигации и информации

Этот полный охват включает большинство дорожных знаков, встречающихся в дорожных сетях Китая.

Link to this sectionКак обучить модель YOLO26n с использованием набора данных TT100K?#

Чтобы обучить модель YOLO26n на наборе данных TT100K в течение 100 эпох с размером изображения 640, используй пример ниже.

Пример обучения
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="TT100K.yaml", epochs=100, imgsz=640)

Для получения подробных конфигураций обучения обратись к документации по обучению.

Link to this sectionЧто делает TT100K сложным по сравнению с другими наборами данных?#

TT100K представляет несколько уникальных проблем:

  1. Изменение масштаба: Знаки варьируются от очень маленьких (удаленные знаки на шоссе) до больших (крупные знаки в городской черте)
  2. Реальные условия: Экстремальные изменения освещенности, погоды и углов обзора
  3. Высокое разрешение: Изображения 2048×2048 пикселей требуют значительной вычислительной мощности
  4. Дисбаланс классов: Некоторые типы знаков встречаются гораздо чаще других
  5. Плотные сцены: На одном изображении может присутствовать несколько знаков
  6. Частичное перекрытие: Знаки могут быть частично перекрыты транспортными средствами, растительностью или конструкциями

Эти проблемы делают TT100K ценным бенчмарком для разработки надежных алгоритмов обнаружения.

Link to this sectionКак работать с большими размерами изображений в TT100K?#

Набор данных TT100K использует изображения 2048×2048 пикселей, которые могут быть ресурсоемкими. Вот рекомендуемые стратегии:

Для обучения:

# Option 1: Resize to standard YOLO size
model.train(data="TT100K.yaml", imgsz=640, batch=16)

# Option 2: Use larger size for better small object detection
model.train(data="TT100K.yaml", imgsz=1280, batch=4)

# Option 3: Multi-scale training
model.train(data="TT100K.yaml", imgsz=640, scale=0.5)  # trains at varying scales

Рекомендации:

  • Начни с imgsz=640 для первоначальных экспериментов
  • Используй imgsz=1280, если у тебя достаточно видеопамяти (24 ГБ+)
  • Рассмотри стратегии тайлинга для очень мелких знаков
  • Используй накопление градиента (gradient accumulation) для имитации больших размеров пакета (batch size)

Комментарии