Roboflow 100 Bộ dữ liệu
Roboflow 100, được tài trợ bởi Intel , là một bộ dữ liệu chuẩn phát hiện đối tượng mang tính đột phá. Nó bao gồm 100 bộ dữ liệu đa dạng được lấy mẫu từ hơn 90.000 bộ dữ liệu công khai có sẵn trên Roboflow Vũ trụ. Tiêu chuẩn này được thiết kế riêng để kiểm tra khả năng thích ứng của các mô hình thị giác máy tính , như mô hình YOLO Ultralytics , với nhiều lĩnh vực khác nhau, bao gồm chăm sóc sức khỏe, hình ảnh trên không và trò chơi điện tử.
Cấp phép
Ultralytics cung cấp hai tùy chọn cấp phép để phù hợp với các trường hợp sử dụng khác nhau:
- Giấy phép AGPL-3.0 : Giấy phép nguồn mở được OSI chấp thuận này lý tưởng cho sinh viên và những người đam mê, thúc đẩy sự cộng tác cởi mở và chia sẻ kiến thức. Xem tệp LICENSE để biết thêm chi tiết và truy cập trang Giấy phép AGPL-3.0 của chúng tôi.
- Giấy phép doanh nghiệp : Được thiết kế cho mục đích thương mại, giấy phép này cho phép tích hợp liền mạch Ultralytics phần mềm và mô hình AI thành các sản phẩm và dịch vụ thương mại. Nếu kịch bản của bạn liên quan đến các ứng dụng thương mại, vui lòng liên hệ qua Ultralytics Licensing .
Các tính năng chính
- Nhiều lĩnh vực đa dạng : Bao gồm 100 tập dữ liệu thuộc bảy lĩnh vực riêng biệt: Trên không, Trò chơi điện tử, Kính hiển vi, Dưới nước, Tài liệu, Điện từ và Thế giới thực.
- Quy mô : Tiêu chuẩn này bao gồm 224.714 hình ảnh trên 805 lớp, tương ứng với hơn 11.170 giờ nỗ lực gắn nhãn dữ liệu .
- Chuẩn hóa : Tất cả hình ảnh đều được xử lý trước và thay đổi kích thước thành 640x640 pixel để đánh giá thống nhất.
- Đánh giá sạch : Tập trung vào việc loại bỏ sự mơ hồ về lớp và lọc ra các lớp chưa được đại diện đầy đủ để đảm bảo đánh giá mô hình sạch hơn.
- Chú thích : Bao gồm các hộp giới hạn cho các đối tượng, phù hợp để đào tạo và đánh giá các mô hình phát hiện đối tượng bằng các số liệu như mAP .
Cấu trúc tập dữ liệu
Các Roboflow 100 tập dữ liệu được sắp xếp thành bảy danh mục, mỗi danh mục chứa một bộ sưu tập tập dữ liệu, hình ảnh và lớp duy nhất:
- Ảnh trên không : 7 tập dữ liệu, 9.683 hình ảnh, 24 lớp.
- Trò chơi điện tử : 7 tập dữ liệu, 11.579 hình ảnh, 88 lớp.
- Kính hiển vi : 11 tập dữ liệu, 13.378 hình ảnh, 28 lớp.
- Dưới nước : 5 tập dữ liệu, 18.003 hình ảnh, 39 lớp.
- Tài liệu : 8 tập dữ liệu, 24.813 hình ảnh, 90 lớp.
- Điện từ : 12 tập dữ liệu, 36.381 hình ảnh, 41 lớp.
- Thế giới thực : 50 tập dữ liệu, 110.615 hình ảnh, 495 lớp.
Cấu trúc này cung cấp một nền tảng thử nghiệm đa dạng và toàn diện cho các mô hình phát hiện đối tượng , phản ánh nhiều tình huống ứng dụng thực tế có trong nhiều Giải pháp Ultralytics khác nhau.
Đánh giá chuẩn
Chuẩn hóa tập dữ liệu liên quan đến việc đánh giá hiệu suất của các mô hình học máy trên các tập dữ liệu cụ thể bằng các số liệu chuẩn hóa. Các số liệu phổ biến bao gồm độ chính xác , độ chính xác trung bình (mAP) và điểm F1 . Bạn có thể tìm hiểu thêm về những số liệu này trong hướng dẫn về số liệu hiệu suất YOLO của chúng tôi.
Kết quả chuẩn mực
Kết quả đánh giá chuẩn bằng cách sử dụng tập lệnh được cung cấp sẽ được lưu trữ trong ultralytics-benchmarks/
thư mục, cụ thể là trong evaluation.txt
.
Ví dụ về chuẩn mực
Đoạn mã sau đây trình bày cách lập trình chuẩn mực một Ultralytics YOLO mô hình (ví dụ, YOLOv11n) trên tất cả 100 tập dữ liệu trong Roboflow 100 điểm chuẩn sử dụng RF100Benchmark
lớp học.
import os
import shutil
from pathlib import Path
from ultralytics.utils.benchmarks import RF100Benchmark
# Initialize RF100Benchmark and set API key
benchmark = RF100Benchmark()
benchmark.set_key(api_key="YOUR_ROBOFLOW_API_KEY")
# Parse dataset and define file paths
names, cfg_yamls = benchmark.parse_dataset()
val_log_file = Path("ultralytics-benchmarks") / "validation.txt"
eval_log_file = Path("ultralytics-benchmarks") / "evaluation.txt"
# Run benchmarks on each dataset in RF100
for ind, path in enumerate(cfg_yamls):
path = Path(path)
if path.exists():
# Fix YAML file and run training
benchmark.fix_yaml(str(path))
os.system(f"yolo detect train data={path} model=yolo11s.pt epochs=1 batch=16")
# Run validation and evaluate
os.system(f"yolo detect val data={path} model=runs/detect/train/weights/best.pt > {val_log_file} 2>&1")
benchmark.evaluate(str(path), str(val_log_file), str(eval_log_file), ind)
# Remove the 'runs' directory
runs_dir = Path.cwd() / "runs"
shutil.rmtree(runs_dir)
else:
print("YAML file path does not exist")
continue
print("RF100 Benchmarking completed!")
Ứng dụng
Roboflow 100 là vô giá đối với nhiều ứng dụng liên quan đến thị giác máy tính và học sâu . Các nhà nghiên cứu và kỹ sư có thể tận dụng chuẩn mực này để:
- Đánh giá hiệu suất của các mô hình phát hiện đối tượng trong bối cảnh đa miền.
- Kiểm tra khả năng thích ứng và độ mạnh mẽ của các mô hình đối với các tình huống thực tế vượt ra ngoài các tập dữ liệu chuẩn phổ biến như COCO hoặc PASCAL VOC .
- Đánh giá chuẩn khả năng của các mô hình phát hiện đối tượng trên nhiều tập dữ liệu khác nhau, bao gồm các lĩnh vực chuyên biệt như chăm sóc sức khỏe, hình ảnh trên không và trò chơi điện tử.
- So sánh hiệu suất mô hình trên các kiến trúc mạng nơ-ron và kỹ thuật tối ưu hóa khác nhau.
- Xác định những thách thức cụ thể trong từng lĩnh vực có thể yêu cầu các mẹo đào tạo mô hình chuyên biệt hoặc các phương pháp tinh chỉnh như học chuyển giao .
Để biết thêm ý tưởng và nguồn cảm hứng về các ứng dụng thực tế, hãy khám phá hướng dẫn của chúng tôi về các dự án thực tế hoặc xem Ultralytics HUB để đào tạo và triển khai mô hình hợp lý.
Cách sử dụng
Các Roboflow 100 tập dữ liệu, bao gồm siêu dữ liệu và liên kết tải xuống, có sẵn trên trang web chính thức Roboflow 100 kho lưu trữ GitHub. Bạn có thể truy cập và sử dụng tập dữ liệu trực tiếp từ đó cho nhu cầu đánh giá chuẩn của mình. Ultralytics RF100Benchmark
tiện ích đơn giản hóa quá trình tải xuống và chuẩn bị các tập dữ liệu này để sử dụng với Ultralytics mô hình.
Dữ liệu mẫu và chú thích
Roboflow 100 bao gồm các tập dữ liệu với nhiều hình ảnh đa dạng được chụp từ nhiều góc độ và miền khác nhau. Dưới đây là các ví dụ về hình ảnh có chú thích được đưa vào chuẩn RF100, thể hiện sự đa dạng của các đối tượng và cảnh. Các kỹ thuật như tăng cường dữ liệu có thể tăng cường thêm tính đa dạng trong quá trình đào tạo.
Sự đa dạng được nhìn thấy trong Roboflow Tiêu chuẩn 100 là một bước tiến đáng kể so với các tiêu chuẩn truyền thống, thường tập trung vào việc tối ưu hóa một số liệu duy nhất trong một phạm vi hạn chế. Phương pháp tiếp cận toàn diện này hỗ trợ phát triển các mô hình thị giác máy tính mạnh mẽ và linh hoạt hơn, có khả năng hoạt động tốt trong nhiều tình huống khác nhau.
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng Roboflow 100 tập dữ liệu trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo gốc:
@misc{rf100benchmark,
Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
Year = {2022},
Eprint = {arXiv:2211.13523},
url = {https://arxiv.org/abs/2211.13523}
}
Chúng tôi xin gửi lời cảm ơn tới Roboflow nhóm và tất cả những người đóng góp vì những nỗ lực đáng kể của họ trong việc tạo ra và duy trì Roboflow 100 tập dữ liệu là nguồn tài nguyên có giá trị cho cộng đồng thị giác máy tính.
Nếu bạn muốn khám phá thêm nhiều tập dữ liệu hơn để nâng cao khả năng phát hiện đối tượng và dự án học máy của mình, hãy truy cập bộ sưu tập dữ liệu toàn diện của chúng tôi , bao gồm nhiều tập dữ liệu phát hiện khác.
CÂU HỎI THƯỜNG GẶP
Cái gì là Roboflow 100 tập dữ liệu và tại sao nó lại quan trọng đối với việc phát hiện đối tượng?
Bộ dữ liệu Roboflow 100 là chuẩn mực cho các mô hình phát hiện đối tượng . Nó bao gồm 100 bộ dữ liệu đa dạng có nguồn gốc từ Roboflow Universe, bao gồm các lĩnh vực như chăm sóc sức khỏe, hình ảnh trên không và trò chơi điện tử. Ý nghĩa của nó nằm ở việc cung cấp một cách chuẩn hóa để kiểm tra khả năng thích ứng và độ mạnh mẽ của mô hình trong nhiều tình huống thực tế, vượt ra ngoài các chuẩn mực truyền thống, thường bị giới hạn trong phạm vi miền.
Những miền nào được bao phủ bởi Roboflow 100 tập dữ liệu?
Bộ dữ liệu Roboflow 100 bao gồm bảy miền khác nhau, mang đến những thách thức độc đáo cho các mô hình phát hiện đối tượng :
- Ảnh trên không : 7 tập dữ liệu (ví dụ: hình ảnh vệ tinh, chế độ xem bằng máy bay không người lái).
- Trò chơi điện tử : 7 tập dữ liệu (ví dụ: các đối tượng từ nhiều môi trường trò chơi khác nhau).
- Kính hiển vi : 11 tập dữ liệu (ví dụ: tế bào, hạt).
- Dưới nước : 5 tập dữ liệu (ví dụ: sinh vật biển, vật thể chìm).
- Tài liệu : 8 tập dữ liệu (ví dụ: vùng văn bản, phần tử biểu mẫu).
- Điện từ : 12 tập dữ liệu (ví dụ: tín hiệu radar, hình ảnh dữ liệu quang phổ).
- Thế giới thực : 50 tập dữ liệu (một danh mục rộng bao gồm các vật dụng hàng ngày, cảnh vật, bán lẻ, v.v.).
Sự đa dạng này khiến RF100 trở thành nguồn tài nguyên tuyệt vời để đánh giá khả năng tổng quát hóa của các mô hình thị giác máy tính.
Tôi nên bao gồm những gì khi trích dẫn Roboflow 100 tập dữ liệu trong nghiên cứu của tôi?
Khi sử dụng Roboflow 100 tập dữ liệu, vui lòng trích dẫn bài báo gốc để ghi nhận công lao của người sáng tạo. Sau đây là trích dẫn BibTeX được đề xuất:
@misc{rf100benchmark,
Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
Year = {2022},
Eprint = {arXiv:2211.13523},
url = {https://arxiv.org/abs/2211.13523}
}
Để khám phá thêm, hãy cân nhắc truy cập bộ sưu tập dữ liệu toàn diện của chúng tôi hoặc duyệt các bộ dữ liệu phát hiện khác tương thích với Ultralytics mô hình.