Bộ dữ liệu Dog-Pose
Giới thiệu
Bộ dữ liệu Ultralytics Dog-pose là một bộ dữ liệu chất lượng cao và mở rộng, được tuyển chọn đặc biệt cho việc ước tính các điểm chính của chó. Với 6.773 ảnh huấn luyện và 1.703 ảnh kiểm tra, bộ dữ liệu này cung cấp một nền tảng vững chắc để huấn luyện các mô hình ước tính dáng điệu mạnh mẽ.
Xem: Cách Huấn luyện Ultralytics YOLO11 trên Bộ dữ liệu Ước tính Tư thế Chó Stanford | Hướng dẫn Từng bước🚀
Mỗi hình ảnh được chú thích bao gồm 24 điểm chính với 3 chiều trên mỗi điểm chính (x, y, visibility), làm cho nó trở thành một nguồn tài nguyên có giá trị cho nghiên cứu và phát triển nâng cao trong lĩnh vực thị giác máy tính.
Bộ dữ liệu này được thiết kế để sử dụng với Ultralytics HUB và YOLO11.
YAML bộ dữ liệu
Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình bộ dữ liệu. Nó bao gồm các đường dẫn, thông tin chi tiết về điểm đặc trưng và các thông tin liên quan khác. Trong trường hợp bộ dữ liệu Dog-pose, The dog-pose.yaml
có tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml.
ultralytics/cfg/datasets/dog-pose.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── dog-pose ← downloads here (337 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images
# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
# Classes
names:
0: dog
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip
Cách sử dụng
Để huấn luyện mô hình YOLO11n-pose trên tập dữ liệu Dog-pose trong 100 epochs với kích thước ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để có danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Training (Huấn luyện) của mô hình.
Ví dụ huấn luyện
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-pose.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640
Ảnh và Chú thích mẫu
Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu Dog-pose, cùng với các annotation (chú thích) tương ứng của chúng:
- Hình ảnh Mosaiced: Hình ảnh này minh họa một lô huấn luyện bao gồm các hình ảnh bộ dữ liệu được mosaiced. Mosaicing là một kỹ thuật được sử dụng trong quá trình huấn luyện, kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và cảnh trong mỗi lô huấn luyện. Điều này giúp cải thiện khả năng tổng quát hóa của mô hình đối với các kích thước, tỷ lệ khung hình và ngữ cảnh khác nhau của đối tượng.
Ví dụ này thể hiện sự đa dạng và phức tạp của hình ảnh trong bộ dữ liệu Dog-pose, cũng như lợi ích của việc sử dụng kỹ thuật ghép ảnh (mosaicing) trong quá trình huấn luyện.
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng bộ dữ liệu Dog-pose trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@inproceedings{khosla2011fgvc,
title={Novel dataset for Fine-Grained Image Categorization},
author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2011}
}
@inproceedings{deng2009imagenet,
title={ImageNet: A Large-Scale Hierarchical Image Database},
author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
year={2009}
}
Chúng tôi xin ghi nhận công của nhóm Stanford vì đã tạo ra và duy trì nguồn tài nguyên giá trị này cho cộng đồng thị giác máy tính. Để biết thêm thông tin về bộ dữ liệu Dog-pose và những người tạo ra nó, hãy truy cập trang web Stanford Dogs Dataset.
Câu hỏi thường gặp
Bộ dữ liệu Dog-pose là gì và nó được sử dụng như thế nào với Ultralytics YOLO11?
Bộ dữ liệu Dog-Pose có 6.773 hình ảnh huấn luyện và 1.703 hình ảnh kiểm tra được chú thích với 24 keypoint để ước tính tư thế chó. Nó được thiết kế để huấn luyện và xác thực các mô hình với Ultralytics YOLO11, hỗ trợ các ứng dụng như phân tích hành vi động vật, theo dõi thú cưng và nghiên cứu thú y. Các chú thích toàn diện của bộ dữ liệu làm cho nó trở nên lý tưởng để phát triển các mô hình ước tính tư thế chính xác cho chó.
Làm cách nào để huấn luyện mô hình YOLO11 bằng bộ dữ liệu Dog-pose trong Ultralytics?
Để huấn luyện mô hình YOLO11n-pose trên tập dữ liệu Dog-pose trong 100 epochs với kích thước ảnh là 640, hãy làm theo các ví dụ sau:
Ví dụ huấn luyện
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-pose.pt")
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640
Để có danh sách đầy đủ các đối số huấn luyện, hãy tham khảo trang Huấn luyện của mô hình.
Những lợi ích khi sử dụng bộ dữ liệu Dog-pose là gì?
Bộ dữ liệu Dog-pose mang lại một số lợi ích:
Bộ dữ liệu lớn và đa dạng: Với hơn 8.400 hình ảnh, nó cung cấp dữ liệu đáng kể bao gồm nhiều tư thế, giống chó và bối cảnh khác nhau, cho phép đào tạo và đánh giá mô hình mạnh mẽ.
Chú thích điểm chính chi tiết: Mỗi hình ảnh bao gồm 24 điểm chính với 3 chiều trên mỗi điểm chính (x, y, khả năng hiển thị), cung cấp các chú thích chính xác để huấn luyện các mô hình phát hiện dáng điệu chính xác.
Các Tình huống Thực tế: Bao gồm hình ảnh từ nhiều môi trường khác nhau, nâng cao khả năng khái quát hóa của mô hình đối với các ứng dụng thực tế như giám sát thú cưng và phân tích hành vi.
Lợi thế của học tăng cường: Tập dữ liệu hoạt động tốt với các kỹ thuật học tăng cường, cho phép các mô hình được huấn luyện trước trên tập dữ liệu tư thế người thích ứng với các đặc điểm cụ thể của chó.
Để biết thêm về các tính năng và cách sử dụng, hãy xem phần Giới Thiệu về Bộ Dữ Liệu.
Phương pháp khảm (mosaicing) mang lại lợi ích gì cho quá trình huấn luyện YOLO11 khi sử dụng bộ dữ liệu Dog-pose?
Ghép ảnh Mosaic, như được minh họa trong các sample_images từ bộ dữ liệu Dog-pose, hợp nhất nhiều hình ảnh thành một ảnh tổng hợp duy nhất, làm phong phú thêm sự đa dạng của các đối tượng và cảnh trong mỗi lô huấn luyện. Kỹ thuật này mang lại một số lợi ích:
- Tăng sự đa dạng về tư thế, kích thước và hình nền của chó trong mỗi batch
- Cải thiện khả năng của mô hình trong việc phát hiện chó trong các bối cảnh và tỷ lệ khác nhau
- Tăng cường khả năng khái quát hóa bằng cách cho mô hình tiếp xúc với nhiều mẫu hình ảnh đa dạng hơn
- Giảm tình trạng overfitting bằng cách tạo ra các tổ hợp mới lạ từ các ví dụ huấn luyện
Phương pháp này tạo ra các mô hình mạnh mẽ hơn, hoạt động tốt hơn trong các tình huống thực tế. Để xem các sample_images, hãy tham khảo phần Sample Images and Annotations.
Tôi có thể tìm thấy tệp YAML của bộ dữ liệu Dog-pose ở đâu và làm cách nào để sử dụng nó?
Bạn có thể tìm thấy tệp YAML của bộ dữ liệu Dog-pose tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml. Tệp này xác định cấu hình bộ dữ liệu, bao gồm đường dẫn, lớp, chi tiết điểm chính và thông tin liên quan khác. YAML chỉ định 24 điểm chính với 3 chiều trên mỗi điểm chính, phù hợp cho các tác vụ ước tính tư thế chi tiết.
Để sử dụng tệp này với các tập lệnh huấn luyện YOLO11, chỉ cần tham chiếu nó trong lệnh huấn luyện của bạn như được hiển thị trong phần Sử dụng. Bộ dữ liệu sẽ tự động được tải xuống khi sử dụng lần đầu, giúp việc thiết lập trở nên đơn giản.
Để xem thêm các câu hỏi thường gặp và tài liệu chi tiết, hãy truy cập Tài liệu Ultralytics.