Перейти к содержанию

Roboflow 100 наборов данных

Roboflow 100, спонсором которого является IntelЭто революционный эталонный набор данных для обнаружения объектов. Он включает в себя 100 различных наборов данных, отобранных из более чем 90 000 публичных наборов данных, доступных на Roboflow Universe. Этот бенчмарк специально разработан для проверки адаптивности моделей компьютерного зрения, таких как моделиUltralytics YOLO , к различным областям, включая здравоохранение, аэрофотосъемку и видеоигры.

Лицензирование

Ultralytics предлагает два варианта лицензирования для различных случаев использования:

  • ЛицензияAGPL-3.0 : Эта одобренная OSI лицензия с открытым исходным кодом идеально подходит для студентов и энтузиастов, способствуя открытому сотрудничеству и обмену знаниями. Более подробную информацию см. в файле LICENSE, а также посетите нашу страницуAGPL-3.0 License.
  • Корпоративная лицензия: Эта лицензия предназначена для коммерческого использования и позволяет без проблем интегрировать программное обеспечение Ultralytics и модели искусственного интеллекта в коммерческие продукты и услуги. Если ваш сценарий предполагает коммерческое применение, пожалуйста, свяжитесь с отделом лицензированияUltralytics .

Roboflow 100 Обзор

Основные характеристики

  • Разнообразные области: Включает 100 наборов данных по семи различным областям: Аэрофотосъемка, видеоигры, микроскопия, подводная съемка, документы, электромагнитная съемка и реальный мир.
  • Масштаб: Эталон включает в себя 224 714 изображений 805 классов, что представляет собой более 11 170 часов работы по маркировке данных.
  • Стандартизация: Все изображения предварительно обрабатываются и изменяют размер до 640x640 пикселей для согласованной оценки.
  • Чистая оценка: Сосредотачивается на устранении неоднозначности классов и отфильтровывает недопредставленные классы, чтобы обеспечить более чистую оценку модели.
  • Аннотации: Включает ограничительные рамки для объектов, подходящие для обучения и оценки моделей обнаружения объектов с помощью таких метрик, как mAP.

Структура набора данных

Набор данных Roboflow 100 разбит на семь категорий, каждая из которых содержит уникальную коллекцию наборов данных, изображений и классов:

  • Аэрофотосъемка: 7 наборов данных, 9 683 изображения, 24 класса.
  • Видеоигры: 7 наборов данных, 11 579 изображений, 88 классов.
  • Микроскопический: 11 наборов данных, 13 378 изображений, 28 классов.
  • Под водой: 5 наборов данных, 18 003 изображения, 39 классов.
  • Документы: 8 наборов данных, 24 813 изображений, 90 классов.
  • Электромагнитные: 12 наборов данных, 36 381 изображение, 41 класс.
  • Реальный мир: 50 наборов данных, 110 615 изображений, 495 классов.

Такая структура обеспечивает разнообразный и обширный полигон для тестирования моделей обнаружения объектов, отражающий широкий спектр реальных сценариев применения, которые можно найти в различных решенияхUltralytics .

Бенчмаркинг

Бенчмаркинг данных подразумевает оценку производительности моделей машинного обучения на определенных наборах данных с помощью стандартных метрик. К общим метрикам относятся точность, средняя точность (mAP) и F1-score. Подробнее о них вы можете узнать в нашем руководстве по метрикам производительностиYOLO .

Результаты бенчмаркинга

Результаты бенчмаркинга с помощью предоставленного скрипта будут сохранены в файле ultralytics-benchmarks/ каталог, а именно в evaluation.txt.

Пример бенчмаркинга

Следующий сценарий демонстрирует, как программно проверить модель Ultralytics YOLO (например, YOLOv11n) на всех 100 наборах данных в рамках бенчмарка Roboflow 100, используя RF100Benchmark класс.

import os
import shutil
from pathlib import Path

from ultralytics.utils.benchmarks import RF100Benchmark

# Initialize RF100Benchmark and set API key
benchmark = RF100Benchmark()
benchmark.set_key(api_key="YOUR_ROBOFLOW_API_KEY")

# Parse dataset and define file paths
names, cfg_yamls = benchmark.parse_dataset()
val_log_file = Path("ultralytics-benchmarks") / "validation.txt"
eval_log_file = Path("ultralytics-benchmarks") / "evaluation.txt"

# Run benchmarks on each dataset in RF100
for ind, path in enumerate(cfg_yamls):
    path = Path(path)
    if path.exists():
        # Fix YAML file and run training
        benchmark.fix_yaml(str(path))
        os.system(f"yolo detect train data={path} model=yolo11s.pt epochs=1 batch=16")

        # Run validation and evaluate
        os.system(f"yolo detect val data={path} model=runs/detect/train/weights/best.pt > {val_log_file} 2>&1")
        benchmark.evaluate(str(path), str(val_log_file), str(eval_log_file), ind)

        # Remove the 'runs' directory
        runs_dir = Path.cwd() / "runs"
        shutil.rmtree(runs_dir)
    else:
        print("YAML file path does not exist")
        continue

print("RF100 Benchmarking completed!")

Приложения

Roboflow 100 бесценен для различных приложений, связанных с компьютерным зрением и глубоким обучением. Исследователи и инженеры могут использовать этот эталон для:

  • Оценка производительности моделей обнаружения объектов в многодоменном контексте.
  • Проверить адаптивность и устойчивость моделей к реальным сценариям, выходящим за рамки обычных эталонных наборов данных, таких как COCO или PASCAL VOC.
  • Проверьте возможности моделей обнаружения объектов на различных наборах данных, включая такие специализированные области, как здравоохранение, аэрофотосъемка и видеоигры.
  • Сравните производительность модели при использовании различных архитектур нейронных сетей и методов оптимизации.
  • Определите специфические проблемы, для решения которых могут потребоваться специальные советы по обучению моделей или подходы к тонкой настройке, такие как трансферное обучение.

Чтобы получить больше идей и вдохновения для реального применения, изучите наши руководства по практическим проектам или ознакомьтесь с Ultralytics HUB для упрощенного обучения и развертывания моделей.

Использование

Набор данных Roboflow 100, включая метаданные и ссылки на скачивание, доступен на официальном сайте Репозиторий Roboflow 100 на GitHub. Вы можете получить доступ к набору данных и использовать его непосредственно оттуда для проведения бенчмаркинга. Ultralytics RF100Benchmark Утилита упрощает процесс загрузки и подготовки этих наборов данных для использования в моделях Ultralytics .

Образцы данных и аннотации

Roboflow 100 состоит из наборов данных с разнообразными изображениями, полученными с разных ракурсов и в разных областях. Ниже приведены примеры аннотированных изображений, включенных в эталон RF100, демонстрирующие разнообразие объектов и сцен. Такие методы, как расширение данных, могут еще больше увеличить разнообразие в процессе обучения.

Образцы данных и аннотации

Разнообразие, наблюдаемое в бенчмарке Roboflow 100, представляет собой значительный прогресс по сравнению с традиционными бенчмарками, которые часто фокусируются на оптимизации одной метрики в ограниченной области. Такой комплексный подход помогает разрабатывать более надежные и универсальные модели компьютерного зрения, способные хорошо работать во множестве различных сценариев.

Цитаты и благодарности

Если вы используете набор данных Roboflow 100 в своих исследованиях или разработках, пожалуйста, ссылайтесь на оригинальную статью:

@misc{rf100benchmark,
    Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
    Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
    Year = {2022},
    Eprint = {arXiv:2211.13523},
    url = {https://arxiv.org/abs/2211.13523}
}

Мы выражаем благодарность команде Roboflow и всем участникам за их значительные усилия по созданию и поддержке набора данных Roboflow 100 как ценного ресурса для сообщества компьютерного зрения.

Если вы заинтересованы в изучении других наборов данных для улучшения ваших проектов по обнаружению объектов и машинному обучению, посетите нашу обширную коллекцию наборов данных, которая включает в себя множество других наборов данных для обнаружения.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое набор данных Roboflow 100, и почему он важен для обнаружения объектов?

Набор данных Roboflow 100 является эталоном для моделей обнаружения объектов. Он включает в себя 100 различных наборов данных, полученных из Roboflow Universe, охватывающих такие области, как здравоохранение, аэрофотосъемка и видеоигры. Его значение заключается в том, что он предоставляет стандартизированный способ проверки адаптивности и устойчивости моделей в широком диапазоне реальных сценариев, выходя за рамки традиционных, часто ограниченных областью, эталонов.

Какие домены охватывает набор данных Roboflow 100?

Набор данных Roboflow 100 охватывает семь различных областей, что ставит перед моделями обнаружения объектов уникальные задачи:

  1. Аэрофотосъемка: 7 наборов данных (например, спутниковые снимки, виды с беспилотника).
  2. Видеоигры: 7 наборов данных (например, объекты из различных игровых сред).
  3. Микроскопический: 11 наборов данных (например, клетки, частицы).
  4. Под водой: 5 наборов данных (например, морские обитатели, подводные объекты).
  5. Документы: 8 наборов данных (например, текстовые области, элементы форм).
  6. Электромагнитные: 12 наборов данных (например, сигнатуры радаров, визуализации спектральных данных).
  7. Реальный мир: 50 наборов данных (широкая категория, включающая повседневные объекты, сцены, розничную торговлю и т.д.).

Такое разнообразие делает RF100 отличным ресурсом для оценки обобщаемости моделей компьютерного зрения.

Что следует указывать при цитировании набора данных Roboflow 100 в своих исследованиях?

При использовании набора данных Roboflow 100, пожалуйста, ссылайтесь на оригинальную статью, чтобы отдать должное создателям. Вот рекомендуемый формат цитирования BibTeX:

@misc{rf100benchmark,
    Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
    Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
    Year = {2022},
    Eprint = {arXiv:2211.13523},
    url = {https://arxiv.org/abs/2211.13523}
}

Для более детального изучения вопроса посетите нашу обширную коллекцию наборов данных или просмотрите другие наборы данных обнаружения, совместимые с моделями Ultralytics .

📅 Создано 1 год назад ✏️ Обновлено 24 дня назад

Комментарии