Link to this sectionTập dữ liệu Dog-Pose#

Link to this sectionGiới thiệu#

Tập dữ liệu Dog-Pose của Ultralytics là một tập dữ liệu chất lượng cao và phong phú, được biên soạn đặc biệt cho việc ước tính điểm chính trên cơ thể chó, cung cấp 6.773 ảnh huấn luyện và 1.703 ảnh kiểm thử.

Watch: How to Train an Ultralytics YOLO Model on the Stanford Dog Pose Estimation Dataset | Step-by-Step Tutorial

Mỗi ảnh được gán nhãn bao gồm 24 điểm khóa với 3 chiều cho mỗi điểm khóa (x, y, độ hiển thị), biến nó thành một nguồn tài nguyên giá trị cho nghiên cứu và phát triển nâng cao trong thị giác máy tính.

Đối với một giống chó cụ thể hoặc một loài động vật hoàn toàn khác, Ultralytics Platform hỗ trợ tải lên, gán nhãn và huấn luyện một model điểm chính tùy chỉnh trên dữ liệu của riêng bạn mà không cần quản lý hạ tầng.

Link to this sectionCấu trúc tập dữ liệu#

Tổng số ảnh: 8.476 (6.773 huấn luyện / 1.703 kiểm thử) cùng các tệp nhãn định dạng YOLO tương ứng.
Điểm khóa: 24 điểm mỗi con chó với các bộ ba (x, y, visibility).
Dung lượng tải xuống: ~337 MB.

Bố cục:

datasets/dog-pose/
├── images/{train,val}
└── labels/{train,val}

Link to this sectionYAML tập dữ liệu#

Tệp YAML được sử dụng để xác định cấu hình tập dữ liệu. Nó bao gồm các đường dẫn, thông tin chi tiết về điểm khóa (keypoint) và các thông tin liên quan khác. Đối với tập dữ liệu Dog-Pose, tệp dog-pose.yaml có sẵn tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml.

ultralytics/cfg/datasets/dog-pose.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── dog-pose ← downloads here (337 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images

# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)

# Classes
names:
  0: dog

# Keypoint names per class
kpt_names:
  0:
    - front_left_paw
    - front_left_knee
    - front_left_elbow
    - rear_left_paw
    - rear_left_knee
    - rear_left_elbow
    - front_right_paw
    - front_right_knee
    - front_right_elbow
    - rear_right_paw
    - rear_right_knee
    - rear_right_elbow
    - tail_start
    - tail_end
    - left_ear_base
    - right_ear_base
    - nose
    - chin
    - left_ear_tip
    - right_ear_tip
    - left_eye
    - right_eye
    - withers
    - throat

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip

Link to this sectionCách sử dụng#

Để huấn luyện model YOLO26n-pose trên tập dữ liệu Dog-Pose trong 100 epochs với kích thước ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để xem danh sách đầy đủ các tham số khả dụng, hãy tham khảo trang Training của model.

Ví dụ về Training

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)

Link to this sectionHình ảnh mẫu và chú thích#

Dưới đây là một số ví dụ về ảnh từ tập dữ liệu Dog-Pose, cùng với các chú thích tương ứng của chúng:

Dog pose estimation dataset mosaic training batch

Hình ảnh Mosaiced: Hình ảnh này minh họa một batch huấn luyện bao gồm các hình ảnh từ tập dữ liệu đã được áp dụng kỹ thuật Mosaic. Mosaic là một kỹ thuật được sử dụng trong quá trình huấn luyện nhằm kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và bối cảnh trong mỗi batch huấn luyện. Điều này giúp cải thiện khả năng tổng quát hóa của model đối với các kích thước đối tượng, tỷ lệ khung hình và bối cảnh khác nhau.

Ví dụ này minh họa sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu Dog-Pose và lợi ích của việc sử dụng kỹ thuật mosaicing trong quá trình huấn luyện.

Link to this sectionTrích dẫn và Ghi nhận#

Nếu bạn sử dụng tập dữ liệu Dog-Pose trong nghiên cứu hoặc công việc phát triển của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn

@inproceedings{khosla2011fgvc,
  title={Novel dataset for Fine-Grained Image Categorization},
  author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
  booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2011}
}
@inproceedings{deng2009imagenet,
  title={ImageNet: A Large-Scale Hierarchical Image Database},
  author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
  booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
  year={2009}
}

Chúng tôi xin ghi nhận nhóm nghiên cứu Stanford vì đã tạo ra và duy trì nguồn tài nguyên quý giá này cho cộng đồng computer vision. Để biết thêm thông tin về tập dữ liệu Dog-Pose và các tác giả, hãy truy cập Trang web Tập dữ liệu Stanford Dogs.

Link to this sectionCâu hỏi thường gặp#

Link to this sectionTập dữ liệu Dog-Pose là gì và nó được sử dụng như thế nào với Ultralytics YOLO26?#

Tập dữ liệu Dog-Pose bao gồm 6.773 ảnh huấn luyện và 1.703 ảnh kiểm thử được chú thích với 24 điểm chính cho việc ước tính tư thế chó. Nó được thiết kế để huấn luyện và kiểm thử các model với Ultralytics YOLO26, hỗ trợ các ứng dụng như phân tích hành vi động vật, giám sát thú cưng và nghiên cứu thú y. Các chú thích toàn diện của tập dữ liệu này khiến nó trở nên lý tưởng cho việc phát triển các model ước tính tư thế chính xác cho loài chó.

Link to this sectionLàm thế nào để tôi huấn luyện model YOLO26 sử dụng tập dữ liệu Dog-Pose trong Ultralytics?#

Tải yolo26n-pose.pt và gọi model.train(data="dog-pose.yaml", epochs=100, imgsz=640) — xem phần Train Example ở trên để có đoạn mã Python và CLI đầy đủ, và trang Training của model để biết danh sách tham số toàn diện.

Link to this sectionLợi ích của việc sử dụng tập dữ liệu Dog-Pose là gì?#

Với tổng số 8.476 ảnh (6.773 huấn luyện / 1.703 kiểm thử) bao phủ nhiều giống chó và tư thế khác nhau, cùng 24 điểm chính trong 3 chiều (x, y, khả năng hiển thị) trên mỗi chú thích, tập dữ liệu Dog-Pose cung cấp cho các model khả năng bao quát kịch bản thực tế cần thiết cho các ứng dụng như giám sát thú cưng và phân tích hành vi. Để biết thêm về các tính năng và cách sử dụng, hãy xem phần Dataset Introduction.

Link to this sectionKỹ thuật mosaicing mang lại lợi ích gì cho quá trình huấn luyện YOLO26 sử dụng tập dữ liệu Dog-Pose?#

Mosaicing kết hợp nhiều hình ảnh Dog-Pose thành một ảnh huấn luyện duy nhất, giúp tăng sự đa dạng về tư thế, kích thước và phông nền của chó mà model nhìn thấy trong mỗi bước, điều này cải thiện khả năng tổng quát hóa cho các ngữ cảnh và quy mô mới trong khi giảm thiểu quá khớp (overfitting). Để xem ví dụ về hình ảnh, hãy tham khảo phần Sample Images and Annotations.

Link to this sectionTôi có thể tìm tệp YAML của tập dữ liệu Dog-Pose ở đâu và làm thế nào để sử dụng nó?#

Tệp YAML của tập dữ liệu Dog-Pose có thể được tìm thấy tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml. Tệp này định nghĩa cấu hình tập dữ liệu, bao gồm các đường dẫn, lớp, chi tiết điểm chính và các thông tin liên quan khác. Tệp YAML chỉ định 24 điểm chính với 3 chiều cho mỗi điểm, làm cho nó phù hợp cho các tác vụ ước tính tư thế chi tiết.

Để sử dụng tệp này với các tập lệnh huấn luyện YOLO26, chỉ cần tham chiếu nó trong lệnh huấn luyện của bạn như được hiển thị trong phần Cách sử dụng. Tập dữ liệu sẽ được tự động tải xuống khi sử dụng lần đầu, giúp việc thiết lập trở nên đơn giản.

Để biết thêm về các model keypoint, hãy xem tài liệu tác vụ Pose Estimation.

Người đóng góp

GLglenn-jocher⁹ RAraimbekovm³ RIRizwanMunawar² PDpderrenger¹

Đã tạo 16 thg 11, 2024Đã cập nhật Hôm kia