Tập dữ liệu ImageNet
ImageNet là cơ sở dữ liệu lớn về hình ảnh có chú thích được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng trực quan. Cơ sở dữ liệu này chứa hơn 14 triệu hình ảnh, với mỗi hình ảnh được chú thích bằng synset WordNet, khiến nó trở thành một trong những nguồn tài nguyên mở rộng nhất hiện có để đào tạo các mô hình học sâu trong các tác vụ thị giác máy tính .
Mô hình đào tạo sẵn ImageNet
Mẫu | kích thước (điểm ảnh) | Acc Top 1 | Acc Top 5 | Tốc độ CPU ONNX (Cô) | Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) | Params (M) | Thất bại (B) ở 640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5,0 ± 0,3 | 1,1 ± 0,0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7,9 ± 0,2 | 1,3 ± 0,0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17,2 ± 0,4 | 2,0 ± 0,0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23,2 ± 0,3 | 2,8 ± 0,0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41,4 ± 0,9 | 3,8 ± 0,0 | 28.4 | 110.4 |
Các tính năng chính
- ImageNet chứa hơn 14 triệu hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng.
- Tập dữ liệu được tổ chức theo hệ thống phân cấp WordNet, với mỗi cú pháp đại diện cho một danh mục.
- ImageNet được sử dụng rộng rãi để đào tạo và đánh giá chuẩn trong lĩnh vực thị giác máy tính, đặc biệt là cho nhiệm vụ phân loại hình ảnh và phát hiện đối tượng .
- Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là công cụ thúc đẩy nghiên cứu thị giác máy tính.
Cấu trúc tập dữ liệu
Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng cấu trúc phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một thể loại và mỗi danh mục được mô tả bởi một tập hợp cú pháp (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một nguồn tài nguyên phong phú cho các mô hình đào tạo để nhận ra các đối tượng khác nhau và mối quan hệ của chúng.
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực thị giác máy tính. Nó đã cung cấp một nền tảng cho các nhà nghiên cứu và nhà phát triển để đánh giá các thuật toán và mô hình của họ trên một bộ dữ liệu quy mô lớn với các số liệu đánh giá được tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình học sâu để phân loại hình ảnh, phát hiện đối tượng và các nhiệm vụ thị giác máy tính khác.
Ứng dụng
Bộ dữ liệu ImageNet được sử dụng rộng rãi để đào tạo và đánh giá các mô hình học sâu trong các tác vụ thị giác máy tính khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và bản địa hóa đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG và ResNet, đã được phát triển và đo điểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.
Sử dụng
Để đào tạo mô hình học sâu trên tập dữ liệu ImageNet trong 100 kỷ nguyên với kích thước hình ảnh là 224x224, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.
Ví dụ về tàu hỏa
Hình ảnh mẫu và chú thích
Bộ dữ liệu ImageNet chứa hình ảnh có độ phân giải cao trải dài hàng ngàn danh mục đối tượng, cung cấp bộ dữ liệu đa dạng và phong phú để đào tạo và đánh giá các mô hình thị giác máy tính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:
Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong tập dữ liệu ImageNet, làm nổi bật tầm quan trọng của một tập dữ liệu đa dạng để đào tạo các mô hình thị giác máy tính mạnh mẽ.
Trích dẫn và xác nhận
Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Chúng tôi muốn cảm ơn nhóm ImageNet, do Olga Russakovsky, Jia Deng và Li Fei-Fei dẫn đầu, đã tạo ra và duy trì tập dữ liệu ImageNet như một nguồn tài nguyên có giá trị cho cộng đồng nghiên cứu về máy học và thị giác máy tính. Để biết thêm thông tin về tập dữ liệu ImageNet và những người tạo ra nó, hãy truy cập trang web ImageNet .
FAQ
Tập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong thị giác máy tính?
Tập dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh có độ phân giải cao được phân loại bằng cú pháp WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng trực quan, bao gồm phân loại hình ảnh và phát hiện đối tượng. Các chú thích và khối lượng tuyệt đối của tập dữ liệu cung cấp một nguồn tài nguyên phong phú để đào tạo các mô hình học sâu. Đáng chú ý, các mô hình như AlexNet, VGG và ResNet đã được đào tạo và đo điểm chuẩn bằng ImageNet, thể hiện vai trò của nó trong việc thúc đẩy thị giác máy tính.
Làm thế nào tôi có thể sử dụng một pretrained YOLO mô hình để phân loại hình ảnh trên tập dữ liệu ImageNet?
Để sử dụng một pretrained Ultralytics YOLO mô hình phân loại hình ảnh trên tập dữ liệu ImageNet, hãy làm theo các bước sau:
Ví dụ về tàu hỏa
Để biết thêm hướng dẫn đào tạo chuyên sâu, hãy tham khảo trang Đào tạo của chúng tôi.
Tại sao tôi nên sử dụng Ultralytics Các mô hình được đào tạo trước YOLO11 cho các dự án tập dữ liệu ImageNet của tôi?
Ultralytics Các mô hình được đào tạo trước YOLO11 cung cấp hiệu suất tiên tiến về mặt tốc độ và độ chính xác cho nhiều tác vụ thị giác máy tính khác nhau. Ví dụ, mô hình YOLO11n-cls, với độ chính xác top-1 là 69,0% và độ chính xác top-5 là 88,3%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình được đào tạo trước giúp giảm tài nguyên tính toán cần thiết để đào tạo từ đầu và đẩy nhanh chu kỳ phát triển. Tìm hiểu thêm về số liệu hiệu suất của các mô hình YOLO11 trong phần Mô hình được đào tạo trước của ImageNet .
Tập dữ liệu ImageNet được cấu trúc như thế nào và tại sao nó lại quan trọng?
Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một tập hợp (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, lý tưởng cho các mô hình đào tạo để nhận dạng nhiều đối tượng. Sự đa dạng và phong phú về chú thích của ImageNet làm cho nó trở thành một bộ dữ liệu có giá trị để phát triển các mô hình học sâu mạnh mẽ và có thể khái quát hóa. Thông tin thêm về tổ chức này có thể được tìm thấy trong phần Cấu trúc tập dữ liệu .
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong thị giác máy tính?
Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đã đóng vai trò then chốt trong việc thúc đẩy những tiến bộ trong thị giác máy tính bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một tập dữ liệu chuẩn hóa quy mô lớn. Nó cung cấp các số liệu đánh giá chuẩn hóa, thúc đẩy sự đổi mới và phát triển trong các lĩnh vực như phân loại hình ảnh, phát hiện đối tượng và phân đoạn hình ảnh . Thử thách này liên tục thúc đẩy ranh giới của những gì có thể với công nghệ học sâu và thị giác máy tính.