Bộ dữ liệu tư thế chó
Giới thiệu
Bộ dữ liệu Dog-pose Ultralytics là một bộ dữ liệu chất lượng cao và mở rộng được tuyển chọn đặc biệt để ước tính điểm chính của chó. Với 6.773 hình ảnh đào tạo và 1.703 hình ảnh thử nghiệm, bộ dữ liệu này cung cấp nền tảng vững chắc để đào tạo các mô hình ước tính tư thế mạnh mẽ. Mỗi hình ảnh có chú thích bao gồm 24 điểm chính với 3 chiều cho mỗi điểm chính (x, y, khả năng hiển thị), khiến nó trở thành một nguồn tài nguyên có giá trị cho nghiên cứu và phát triển nâng cao về thị giác máy tính.
Bộ dữ liệu này được dự định sử dụng với Ultralytics HUB và YOLO11 .
Bộ dữ liệu YAML
Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình tập dữ liệu. Tệp này bao gồm các đường dẫn, chi tiết điểm chính và các thông tin liên quan khác. Trong trường hợp của tập dữ liệu Dog-pose, dog-pose.yaml
có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml.
ultralytics /cfg/datasets/dog-pose.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── dog-pose ← downloads here (337 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/dog-pose # dataset root dir
train: train # train images (relative to 'path') 6773 images
val: val # val images (relative to 'path') 1703 images
# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
# Classes
names:
0: dog
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip
Cách sử dụng
Để đào tạo mô hình YOLO11n-pose trên tập dữ liệu Dog-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.
Ví dụ về tàu hỏa
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-pose.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640
Hình ảnh mẫu và chú thích
Sau đây là một số ví dụ về hình ảnh từ tập dữ liệu Dog-pose, cùng với chú thích tương ứng:
- Mosaiced Image : Hình ảnh này minh họa một lô đào tạo bao gồm các hình ảnh tập dữ liệu mosaic. Mosaicing là một kỹ thuật được sử dụng trong quá trình đào tạo kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng tính đa dạng của các đối tượng và cảnh trong mỗi lô đào tạo. Điều này giúp cải thiện khả năng khái quát hóa của mô hình đối với các kích thước đối tượng, tỷ lệ khung hình và bối cảnh khác nhau.
Ví dụ này cho thấy sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu Dog-pose và lợi ích của việc sử dụng khảm trong quá trình đào tạo.
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng bộ dữ liệu Dog-pose trong công trình nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@inproceedings{khosla2011fgvc,
title={Novel dataset for Fine-Grained Image Categorization},
author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2011}
}
@inproceedings{deng2009imagenet,
title={ImageNet: A Large-Scale Hierarchical Image Database},
author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
year={2009}
}
Chúng tôi muốn cảm ơn nhóm Stanford đã tạo ra và duy trì nguồn tài nguyên có giá trị này cho cộng đồng thị giác máy tính . Để biết thêm thông tin về tập dữ liệu Dog-pose và những người tạo ra nó, hãy truy cập trang web Stanford Dogs Dataset .
CÂU HỎI THƯỜNG GẶP
Bộ dữ liệu Dog-pose là gì và nó được sử dụng như thế nào với Ultralytics YOLO11 ?
Bộ dữ liệu Dog-Pose có 6.773 hình ảnh đào tạo và 1.703 hình ảnh thử nghiệm được chú thích với 24 điểm chính để ước tính tư thế của chó. Nó được thiết kế để đào tạo và xác thực các mô hình với Ultralytics YOLO11 , hỗ trợ các ứng dụng như phân tích hành vi động vật, giám sát vật nuôi và nghiên cứu thú y. Các chú thích toàn diện của bộ dữ liệu làm cho nó lý tưởng để phát triển các mô hình ước tính tư thế chính xác cho chó.
Làm thế nào để tôi đào tạo một YOLO11 mô hình sử dụng tập dữ liệu Dog-pose trong Ultralytics ?
Để đào tạo mô hình YOLO11n-pose trên tập dữ liệu Dog-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, hãy làm theo các ví dụ sau:
Ví dụ về tàu hỏa
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-pose.pt")
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640
Để biết danh sách đầy đủ các đối số đào tạo, hãy tham khảo trang Đào tạo mẫu.
Lợi ích của việc sử dụng bộ dữ liệu Dog-pose là gì?
Bộ dữ liệu Dog-pose mang lại một số lợi ích:
Bộ dữ liệu lớn và đa dạng : Với hơn 8.400 hình ảnh, bộ dữ liệu này cung cấp dữ liệu đáng kể bao gồm nhiều tư thế, giống chó và bối cảnh khác nhau, cho phép đào tạo và đánh giá mô hình mạnh mẽ.
Chú thích điểm chính chi tiết : Mỗi hình ảnh bao gồm 24 điểm chính với 3 chiều cho mỗi điểm chính (x, y, khả năng hiển thị), cung cấp chú thích chính xác để đào tạo các mô hình phát hiện tư thế chính xác.
Các tình huống thực tế : Bao gồm hình ảnh từ nhiều môi trường khác nhau, nâng cao khả năng khái quát hóa của mô hình thành các ứng dụng thực tế như theo dõi vật nuôi và phân tích hành vi.
Ưu điểm của phương pháp học chuyển giao : Bộ dữ liệu hoạt động tốt với các kỹ thuật học chuyển giao , cho phép các mô hình được đào tạo trước trên bộ dữ liệu tư thế của con người thích ứng với các đặc điểm riêng của chó.
Để biết thêm về các tính năng và cách sử dụng, hãy xem phần Giới thiệu về Bộ dữ liệu .
Làm thế nào khảm có lợi cho YOLO11 quá trình đào tạo sử dụng tập dữ liệu Dog-pose?
Mosaicing, như minh họa trong các hình ảnh mẫu từ tập dữ liệu Dog-pose, kết hợp nhiều hình ảnh thành một hình ảnh tổng hợp duy nhất, làm phong phú thêm sự đa dạng của các đối tượng và cảnh trong mỗi đợt đào tạo. Kỹ thuật này mang lại một số lợi ích:
- Tăng sự đa dạng về tư thế, kích thước và bối cảnh của chó trong mỗi đợt
- Cải thiện khả năng phát hiện chó của mô hình trong các bối cảnh và quy mô khác nhau
- Tăng cường khả năng khái quát hóa bằng cách đưa mô hình vào nhiều mẫu hình ảnh đa dạng hơn
- Giảm tình trạng quá khớp bằng cách tạo ra các kết hợp mới của các ví dụ đào tạo
Cách tiếp cận này dẫn đến các mô hình mạnh mẽ hơn, hoạt động tốt hơn trong các tình huống thực tế. Ví dụ hình ảnh, hãy tham khảo phần Hình ảnh mẫu và Chú thích .
Tôi có thể tìm tệp YAML của bộ dữ liệu Dog-pose ở đâu và sử dụng nó như thế nào?
Tệp YAML của tập dữ liệu Dog-pose có thể được tìm thấy tại https://github.com/ ultralytics / ultralytics /blob/main/ ultralytics /cfg/datasets/dog-pose.yaml . Tệp này định nghĩa cấu hình tập dữ liệu, bao gồm đường dẫn, lớp, chi tiết điểm chính và thông tin liên quan khác. YAML chỉ định 24 điểm chính với 3 chiều cho mỗi điểm chính, làm cho nó phù hợp với các tác vụ ước tính tư thế chi tiết.
Để sử dụng tập tin này với YOLO11 tập lệnh đào tạo, chỉ cần tham chiếu nó trong lệnh đào tạo của bạn như được hiển thị trong phần Sử dụng . Bộ dữ liệu sẽ được tự động tải xuống khi sử dụng lần đầu tiên, giúp thiết lập dễ dàng.
Để biết thêm các câu hỏi thường gặp và tài liệu chi tiết, hãy truy cập Tài liệu Ultralytics .