Набор данных Signature Detection Dataset
Этот набор данных предназначен для обнаружения рукописных подписей в документах. Он включает в себя различные типы документов с аннотированными подписями, предоставляя ценную информацию для приложений в области проверки документов и обнаружения мошенничества. Этот набор данных, необходимый для обучения алгоритмов компьютерного зрения, помогает в идентификации подписей в различных форматах документов, поддерживая исследования и практическое применение в анализе документов.
Структура набора данных
Набор данных для обнаружения подписей разделен на два подмножества:
- Обучающий набор: Содержит 143 изображения, каждое с соответствующими аннотациями.
- Набор для валидации: Включает 35 изображений, каждое с парными аннотациями.
Приложения
Этот набор данных может применяться в различных задачах компьютерного зрения, таких как обнаружение объектов, отслеживание объектов и анализ документов. В частности, его можно использовать для обучения и оценки моделей для идентификации подписей в документах, что имеет важное значение в:
- Верификация документов: Автоматизация процесса проверки юридических и финансовых документов
- Обнаружение мошенничества: Выявление потенциально подделанных или несанкционированных подписей
- Цифровая обработка документов: Оптимизация рабочих процессов в административном и юридическом секторах.
- Банковское дело и финансы: Повышение безопасности при обработке чеков и проверке кредитной документации
- Архивные исследования: Поддержка анализа и каталогизации исторических документов
Кроме того, он служит ценным ресурсом в образовательных целях, позволяя студентам и исследователям изучать характерные особенности различных типов документов.
YAML-файл набора данных
YAML-файл (Yet Another Markup Language) определяет конфигурацию набора данных, включая пути и информацию о классах. Для набора данных обнаружения подписей, signature.yaml
файл находится по адресу https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/signature.yaml.
ultralytics/cfg/datasets/signature.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# Signature dataset by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/signature/
# Example usage: yolo train data=signature.yaml
# parent
# ├── ultralytics
# └── datasets
# └── signature ← downloads here (11.3 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: signature # dataset root dir
train: images/train # train images (relative to 'path') 143 images
val: images/val # val images (relative to 'path') 35 images
# Classes
names:
0: signature
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/signature.zip
Использование
Чтобы обучить модель YOLO11n на наборе данных для обнаружения подписей в течение 100 эпох с размером изображения 640, используйте предоставленные примеры кода. Для получения полного списка доступных параметров обратитесь к странице Обучение модели.
Пример обучения
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="signature.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=signature.yaml model=yolo11n.pt epochs=100 imgsz=640
Пример инференса
from ultralytics import YOLO
# Load a model
model = YOLO("path/to/best.pt") # load a signature-detection fine-tuned model
# Inference using the model
results = model.predict("https://ultralytics.com/assets/signature-s.mp4", conf=0.75)
# Start prediction with a finetuned *.pt model
yolo detect predict model='path/to/best.pt' imgsz=640 source="https://ultralytics.com/assets/signature-s.mp4" conf=0.75
Примеры изображений и аннотации
Набор данных для обнаружения подписей включает в себя широкий спектр изображений, демонстрирующих различные типы документов и аннотированные подписи. Ниже приведены примеры изображений из набора данных, каждое из которых сопровождается соответствующими аннотациями.
- Мозаичное изображение: Здесь мы представляем обучающий пакет, состоящий из мозаичных изображений набора данных. Мозаика, метод обучения, объединяет несколько изображений в одно, обогащая разнообразие пакета. Этот метод помогает улучшить способность модели к обобщению для различных размеров подписи, соотношений сторон и контекстов.
Этот пример иллюстрирует разнообразие и сложность изображений в наборе данных Signature Detection Dataset, подчеркивая преимущества включения мозаики в процесс обучения.
Цитирование и благодарности
Набор данных выпущен и доступен под лицензией AGPL-3.0.
Часто задаваемые вопросы
Что такое набор данных Signature Detection Dataset и как его можно использовать?
Набор данных для обнаружения подписей представляет собой коллекцию аннотированных изображений, предназначенных для обнаружения человеческих подписей в различных типах документов. Он может применяться в задачах компьютерного зрения, таких как обнаружение объектов и отслеживание, в основном для проверки документов, обнаружения мошенничества и архивных исследований. Этот набор данных помогает обучать модели распознаванию подписей в различных контекстах, что делает его ценным как для исследований, так и для практического применения в интеллектуальном анализе документов.
Как обучить модель YOLO11n на наборе данных Signature Detection Dataset?
Чтобы обучить модель YOLO11n на датасете Signature Detection Dataset, выполните следующие действия:
- Загрузите
signature.yaml
файл конфигурации датасета из signature.yaml. - Используйте следующий скрипт на языке python или команду CLI, чтобы начать обучение:
Пример обучения
from ultralytics import YOLO
# Load a pretrained model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="signature.yaml", epochs=100, imgsz=640)
yolo detect train data=signature.yaml model=yolo11n.pt epochs=100 imgsz=640
Для получения более подробной информации обратитесь к странице Обучение.
Каковы основные области применения набора данных Signature Detection Dataset?
Набор данных для обнаружения подписей можно использовать для:
- Проверка документов: Автоматическая проверка наличия и подлинности человеческих подписей в документах.
- Обнаружение мошенничества: Выявление поддельных или мошеннических подписей в юридических и финансовых документах.
- Архивные исследования: Оказание помощи историкам и архивистам в цифровом анализе и каталогизации исторических документов.
- Образование: Поддержка академических исследований и преподавания в области компьютерного зрения и машинного обучения.
- Финансовые услуги: Повышение безопасности банковских транзакций и обработки кредитов путем проверки подлинности подписи.
Как я могу выполнить инференс, используя модель, обученную на наборе данных Signature Detection Dataset?
Чтобы выполнить инференс с использованием модели, обученной на датасете Signature Detection Dataset, выполните следующие действия:
- Загрузите вашу дообученную модель.
- Используйте приведенный ниже скрипт python или команду CLI для выполнения инференса:
Пример инференса
from ultralytics import YOLO
# Load the fine-tuned model
model = YOLO("path/to/best.pt")
# Perform inference
results = model.predict("https://ultralytics.com/assets/signature-s.mp4", conf=0.75)
yolo detect predict model='path/to/best.pt' imgsz=640 source="https://ultralytics.com/assets/signature-s.mp4" conf=0.75
Какова структура набора данных Signature Detection Dataset и где я могу найти дополнительную информацию?
Набор данных Signature Detection Dataset разделен на два подмножества:
- Обучающий набор: Содержит 143 изображения с аннотациями.
- Набор для валидации: Включает 35 изображений с аннотациями.
Для получения подробной информации вы можете обратиться к Структура набора данных раздела. Кроме того, просмотрите полную конфигурацию набора данных в signature.yaml
файле, расположенном по адресу signature.yaml.