Bộ dữ liệu Keypoint của bàn tay
Giới thiệu
Bộ dữ liệu điểm chính của bàn tay chứa 26.768 hình ảnh bàn tay được chú thích bằng các điểm chính, làm cho nó phù hợp để đào tạo các mô hình như Ultralytics YOLO cho các nhiệm vụ ước tính tư thế. Các chú thích được tạo ra bằng cách sử dụng Google Thư viện MediaPipe đảm bảo độ chính xác và tính nhất quán cao, đồng thời tập dữ liệu tương thích với định dạng Ultralytics YOLO11 .
Điểm mốc bàn tay
Điểm chính
Bộ dữ liệu bao gồm các điểm chính để phát hiện bàn tay. Các điểm chính được chú thích như sau:
- Cổ tay
- Ngón cái (4 điểm)
- Ngón trỏ (4 điểm)
- Ngón giữa (4 điểm)
- Ngón đeo nhẫn (4 điểm)
- Ngón út (4 điểm)
Mỗi bàn tay có tổng cộng 21 điểm chính.
Các tính năng chính
- Bộ dữ liệu lớn : 26.768 hình ảnh có chú thích điểm chính bằng tay.
- Khả năng tương thích của YOLO11 : Sẵn sàng sử dụng với các mẫu YOLO11.
- 21 Điểm chính : Minh họa chi tiết tư thế bàn tay.
Cấu trúc tập dữ liệu
Bộ dữ liệu điểm chính của bàn tay được chia thành hai tập con:
- Train : Tập hợp con này chứa 18.776 hình ảnh từ tập dữ liệu điểm chính của bàn tay, được chú thích để đào tạo các mô hình ước tính tư thế.
- Val : Tập hợp con này chứa 7992 hình ảnh có thể được sử dụng cho mục đích xác thực trong quá trình đào tạo mô hình.
Ứng dụng
Keypoint bàn tay có thể được sử dụng để nhận dạng cử chỉ, điều khiển AR/VR, thao tác robot và phân tích chuyển động bàn tay trong chăm sóc sức khỏe. Chúng cũng có thể được áp dụng trong hoạt hình để ghi lại chuyển động và hệ thống xác thực sinh trắc học để bảo mật.
Tập dữ liệu YAML
Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình tập dữ liệu. Tệp này chứa thông tin về các đường dẫn, lớp và thông tin liên quan khác của tập dữ liệu. Trong trường hợp của tập dữ liệu Hand Keypoints, hand-keypoints.yaml
Tệp được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/hand-keypoints.yaml.
ultralytics /cfg/datasets/hand-keypoints.yaml
# Ultralytics YOLO 🚀, AGPL-3.0 license
# Hand Keypoints dataset by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/pose/hand-keypoints/
# Example usage: yolo train data=hand-keypoints.yaml
# parent
# ├── ultralytics
# └── datasets
# └── hand-keypoints ← downloads here (369 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/hand-keypoints # dataset root dir
train: train # train images (relative to 'path') 18776 images
val: val # val images (relative to 'path') 7992 images
# Keypoints
kpt_shape: [21, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx:
[0, 1, 2, 4, 3, 10, 11, 12, 13, 14, 5, 6, 7, 8, 9, 15, 16, 17, 18, 19, 20]
# Classes
names:
0: hand
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/hand-keypoints.zip
Sử dụng
Để đào tạo mô hình YOLO11n-pose trên tập dữ liệu Hand Keypoints cho 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.
Ví dụ về tàu hỏa
Hình ảnh mẫu và chú thích
Bộ dữ liệu Hand keypoints chứa một tập hợp đa dạng các hình ảnh có bàn tay con người được chú thích bằng các điểm chính. Sau đây là một số ví dụ về hình ảnh từ bộ dữ liệu, cùng với các chú thích tương ứng của chúng:
- Hình ảnh khảm: Hình ảnh này thể hiện một lô đào tạo bao gồm các hình ảnh tập dữ liệu được khảm. Khảm là một kỹ thuật được sử dụng trong quá trình đào tạo kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và cảnh trong mỗi đợt đào tạo. Điều này giúp cải thiện khả năng khái quát hóa mô hình cho các kích thước đối tượng, tỷ lệ khung hình và ngữ cảnh khác nhau.
Ví dụ này cho thấy sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu Hand Keypoints và lợi ích của việc sử dụng khảm trong quá trình đào tạo.
Trích dẫn và xác nhận
Nếu bạn sử dụng tập dữ liệu hand-keypoints trong công tác nghiên cứu hoặc phát triển của mình, vui lòng ghi rõ các nguồn sau:
Chúng tôi muốn cảm ơn các nguồn sau đây đã cung cấp hình ảnh được sử dụng trong tập dữ liệu này:
Hình ảnh được thu thập và sử dụng theo giấy phép tương ứng do từng nền tảng cung cấp và được phân phối theo Giấy phép Creative Commons Ghi công-Phi thương mại-Chia sẻ tương tự 4.0 Quốc tế .
Chúng tôi cũng muốn cảm ơn người tạo ra tập dữ liệu này, Rion Dsilva , vì những đóng góp to lớn của ông cho nghiên cứu về Vision AI.
FAQ
Làm thế nào để đào tạo mô hình YOLO11 trên tập dữ liệu Hand Keypoints?
Để đào tạo mô hình YOLO11 trên tập dữ liệu Hand Keypoints, bạn có thể sử dụng Python hoặc giao diện dòng lệnh ( CLI ). Sau đây là ví dụ về việc đào tạo mô hình YOLO11n-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640:
Ví dụ
Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.
Các tính năng chính của tập dữ liệu Hand Keypoints là gì?
Bộ dữ liệu Hand Keypoints được thiết kế cho các nhiệm vụ ước tính tư thế nâng cao và bao gồm một số tính năng chính:
- Bộ dữ liệu lớn : Bao gồm 26.768 hình ảnh có chú thích điểm chính bằng tay.
- Khả năng tương thích của YOLO11 : Sẵn sàng sử dụng với các mẫu YOLO11.
- 21 Điểm chính : Minh họa chi tiết tư thế bàn tay, bao gồm khớp cổ tay và ngón tay.
Để biết thêm chi tiết, bạn có thể khám phá phần Bộ dữ liệu điểm chính của bàn tay .
Những ứng dụng nào có thể hưởng lợi từ việc sử dụng bộ dữ liệu Hand Keypoints?
Bộ dữ liệu Hand Keypoints có thể được áp dụng trong nhiều lĩnh vực khác nhau, bao gồm:
- Nhận dạng cử chỉ : Tăng cường tương tác giữa con người và máy tính.
- Điều khiển AR/VR : Cải thiện trải nghiệm của người dùng trong thực tế tăng cường và thực tế ảo.
- Điều khiển bằng robot : Cho phép điều khiển chính xác bàn tay robot.
- Chăm sóc sức khỏe : Phân tích chuyển động của bàn tay để chẩn đoán y khoa.
- Hoạt hình : Ghi lại chuyển động để tạo hình ảnh động chân thực.
- Xác thực sinh trắc học : Tăng cường hệ thống bảo mật.
Để biết thêm thông tin, hãy tham khảo phần Ứng dụng .
Bộ dữ liệu Hand Keypoints được cấu trúc như thế nào?
Bộ dữ liệu Hand Keypoints được chia thành hai tập con:
- Train : Bao gồm 18.776 hình ảnh để đào tạo các mô hình ước tính tư thế.
- Val : Bao gồm 7.992 hình ảnh phục vụ mục đích xác thực trong quá trình đào tạo mô hình.
Cấu trúc này đảm bảo quá trình đào tạo và xác thực toàn diện. Để biết thêm chi tiết, hãy xem phần Cấu trúc tập dữ liệu .
Làm thế nào để sử dụng tệp dữ liệu YAML để đào tạo?
Cấu hình tập dữ liệu được xác định trong tệp YAML, bao gồm các đường dẫn, lớp và thông tin liên quan khác. hand-keypoints.yaml
tập tin có thể được tìm thấy tại hand-keypoints.yaml.
Để sử dụng tệp YAML này để đào tạo, hãy chỉ định tệp này trong tập lệnh đào tạo của bạn hoặc CLI lệnh như được hiển thị trong ví dụ đào tạo ở trên. Để biết thêm chi tiết, hãy tham khảo phần YAML của Bộ dữ liệu .