انتقل إلى المحتوى

مجموعة بيانات كشف التواقيع

تركز مجموعة البيانات هذه على اكتشاف التوقيعات البشرية المكتوبة داخل المستندات. وتتضمن مجموعة متنوعة من أنواع المستندات ذات التوقيعات المشروحة، مما يوفر رؤى قيمة للتطبيقات في مجال التحقق من المستندات والكشف عن الاحتيال. تساعد مجموعة البيانات هذه، وهي ضرورية لتدريب خوارزميات الرؤية الحاسوبية، في تحديد التوقيعات في مختلف تنسيقات المستندات، مما يدعم الأبحاث والتطبيقات العملية في تحليل المستندات.

هيكل مجموعة البيانات

تنقسم مجموعة بيانات اكتشاف التوقيعات إلى ثلاث مجموعات فرعية:

  • مجموعة التدريب: تحتوي على 143 صورة، كل منها مع التعليقات التوضيحية المقابلة.
  • مجموعة التحقق من الصحة: تتضمن 35 صورة، كل منها مع تعليقات توضيحية مزدوجة.

التطبيقات

يمكن تطبيق مجموعة البيانات هذه في العديد من مهام الرؤية الحاسوبية مثل اكتشاف الأجسام وتتبع الأجسام وتحليل المستندات. وعلى وجه التحديد، يمكن استخدامها لتدريب وتقييم نماذج لتحديد التواقيع في المستندات، والتي يمكن أن يكون لها تطبيقات في التحقق من المستندات، والكشف عن الاحتيال، وأبحاث الأرشيف. بالإضافة إلى ذلك، يمكن أن تكون بمثابة مورد قيّم للأغراض التعليمية، مما يمكّن الطلاب والباحثين من دراسة وفهم خصائص وسلوكيات التوقيعات في أنواع مختلفة من المستندات.

مجموعة البيانات YAML

يحدد ملف YAML (لغة ترميز أخرى) تكوين مجموعة البيانات، بما في ذلك معلومات المسارات والفئات. بالنسبة لمجموعة بيانات الكشف عن التوقيع، فإن signature.yaml يقع الملف في https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/signature.yaml.

ultralytics/cfg/datasets/signature.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# Signature dataset by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/detect/signature/
# Example usage: yolo train data=signature.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── signature  ← downloads here (11.2 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/signature # dataset root dir
train: train/images # train images (relative to 'path') 143 images
val: valid/images # val images (relative to 'path') 35 images

# Classes
names:
  0: signature

# Download script/URL (optional)
download: https://ultralytics.com/assets/signature.zip

استخدام

لتدريب نموذج YOLOv8n على مجموعة بيانات اكتشاف التوقيع لـ 100 حلقة تدريبية بحجم صورة 640، استخدم نماذج التعليمات البرمجية المتوفرة. للحصول على قائمة شاملة بالمعلمات المتاحة، راجع صفحة تدريب النموذج.

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="signature.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=signature.yaml model=yolov8n.pt epochs=100 imgsz=640

مثال على الاستدلال

from ultralytics import YOLO

# Load a model
model = YOLO("path/to/best.pt")  # load a signature-detection fine-tuned model

# Inference using the model
results = model.predict("https://ultralytics.com/assets/signature-s.mp4", conf=0.75)
# Start prediction with a finetuned *.pt model
yolo detect predict model='path/to/best.pt' imgsz=640 source="https://ultralytics.com/assets/signature-s.mp4" conf=0.75

عينة من الصور والتعليقات التوضيحية

تضم مجموعة بيانات الكشف عن التوقيعات مجموعة متنوعة من الصور التي تعرض أنواعًا مختلفة من المستندات والتوقيعات المشروحة. فيما يلي أمثلة لصور من مجموعة البيانات، كل منها مصحوبة بشروحها التوضيحية المقابلة.

صورة نموذج مجموعة بيانات كشف التواقيع

  • الصور الفسيفسائية: نقدم هنا دفعة تدريبية تتكون من صور مجموعة بيانات موزّعة بالفسيفساء. الفسيفساء، وهي تقنية تدريب، تدمج صورًا متعددة في صورة واحدة، مما يثري تنوع الدُفعات. تساعد هذه الطريقة في تعزيز قدرة النموذج على التعميم عبر مختلف أحجام التواقيع ونسب الأبعاد والسياقات.

يوضح هذا المثال تنوّع وتعقيد الصور في مجموعة بيانات الكشف عن التواقيع مع التأكيد على فوائد تضمين الفسيفساء أثناء عملية التدريب.

الاستشهادات والشكر

تم إصدار مجموعة البيانات المتاحة تحت AGPL-3.0 الترخيص.



Created 2024-05-22, Updated 2024-06-02
Authors: glenn-jocher (1), RizwanMunawar (1)

التعليقات