Meet YOLO26: next-gen vision AI.

Link to this sectionTập dữ liệu ImageNet#

ImageNet là cơ sở dữ liệu quy mô lớn chứa các hình ảnh đã được chú thích, được thiết kế để sử dụng trong nghiên cứu nhận dạng đối tượng thị giác. Nó chứa hơn 14 triệu hình ảnh, với mỗi hình ảnh được chú thích bằng các synset WordNet, biến nó trở thành một trong những tài nguyên mở rộng nhất hiện có để huấn luyện các mô hình deep learning trong các tác vụ computer vision.

Link to this sectionCác mô hình được huấn luyện trước trên ImageNet#

Mô hìnhkích thước
(pixel)
acc
top1
acc
top5
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B) tại 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

Link to this sectionTính năng chính#

  • ImageNet chứa hơn 14 triệu hình ảnh độ phân giải cao bao gồm hàng ngàn danh mục đối tượng.
  • Tập dữ liệu được tổ chức theo cấu trúc phân cấp WordNet, với mỗi synset đại diện cho một danh mục.
  • ImageNet được sử dụng rộng rãi để huấn luyện và đánh giá benchmark trong lĩnh vực computer vision, đặc biệt là cho các tác vụ image classificationobject detection.
  • Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) hàng năm đóng vai trò quan trọng trong việc thúc đẩy nghiên cứu về computer vision.

Link to this sectionCấu trúc tập dữ liệu#

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet. Mỗi nút trong hệ thống phân cấp đại diện cho một danh mục và mỗi danh mục được mô tả bởi một synset (một tập hợp các thuật ngữ đồng nghĩa). Các hình ảnh trong ImageNet được chú thích bằng một hoặc nhiều synset, cung cấp một tài nguyên phong phú để huấn luyện các mô hình nhận diện nhiều đối tượng khác nhau và mối quan hệ giữa chúng.

Link to this sectionThử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC)#

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hàng năm là một sự kiện quan trọng trong lĩnh vực computer vision. Nó cung cấp một nền tảng cho các nhà nghiên cứu và lập trình viên đánh giá thuật toán và mô hình của họ trên một tập dữ liệu quy mô lớn với các chỉ số đánh giá tiêu chuẩn hóa. ILSVRC đã dẫn đến những tiến bộ đáng kể trong việc phát triển các mô hình deep learning cho phân loại hình ảnh, phát hiện đối tượng và các tác vụ computer vision khác.

Link to this sectionCác ứng dụng#

Tập dữ liệu ImageNet được sử dụng rộng rãi để huấn luyện và đánh giá các mô hình deep learning trong nhiều tác vụ computer vision khác nhau, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng và định vị đối tượng. Một số kiến trúc deep learning phổ biến, chẳng hạn như AlexNet, VGG, và ResNet, đã được phát triển và kiểm chuẩn bằng cách sử dụng tập dữ liệu ImageNet.

Link to this sectionCách sử dụng#

Để huấn luyện một mô hình deep learning trên tập dữ liệu ImageNet trong 100 epochs với kích thước hình ảnh 224x224, bạn có thể sử dụng các đoạn mã sau đây. Để có danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Training của mô hình.

Ví dụ huấn luyện
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Link to this sectionHình ảnh mẫu và chú thích#

Tập dữ liệu ImageNet chứa các hình ảnh độ phân giải cao bao gồm hàng ngàn danh mục đối tượng, cung cấp một tập dữ liệu đa dạng và phong phú để huấn luyện và đánh giá các mô hình computer vision. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu:

Hình ảnh mẫu tập dữ liệu phân loại ImageNet

Ví dụ này minh họa sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu ImageNet, nhấn mạnh tầm quan trọng của một tập dữ liệu đa dạng để huấn luyện các mô hình computer vision mạnh mẽ.

Link to this sectionTrích dẫn và Ghi nhận#

Nếu bạn sử dụng tập dữ liệu ImageNet trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

Trích dẫn
@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Chúng tôi xin gửi lời cảm ơn đến nhóm ImageNet, dẫn đầu bởi Olga Russakovsky, Jia Deng và Li Fei-Fei, vì đã tạo và duy trì tập dữ liệu ImageNet như một tài nguyên có giá trị cho cộng đồng nghiên cứu machine learning và computer vision. Để biết thêm thông tin về tập dữ liệu ImageNet và những người sáng tạo ra nó, hãy truy cập trang web ImageNet.

Link to this sectionFAQ#

Link to this sectionTập dữ liệu ImageNet là gì và nó được sử dụng như thế nào trong computer vision?#

Tập dữ liệu ImageNet là một cơ sở dữ liệu quy mô lớn bao gồm hơn 14 triệu hình ảnh độ phân giải cao được phân loại bằng các synset WordNet. Nó được sử dụng rộng rãi trong nghiên cứu nhận dạng đối tượng thị giác, bao gồm phân loại hình ảnh và phát hiện đối tượng. Các chú thích và khối lượng dữ liệu khổng lồ của nó cung cấp một tài nguyên phong phú để huấn luyện các mô hình deep learning. Đáng chú ý, các mô hình như AlexNet, VGG, và ResNet đã được huấn luyện và kiểm chuẩn bằng ImageNet, thể hiện vai trò của nó trong việc thúc đẩy computer vision.

Link to this sectionLàm thế nào để tôi có thể sử dụng một mô hình YOLO được huấn luyện trước để phân loại hình ảnh trên tập dữ liệu ImageNet?#

Để sử dụng một mô hình Ultralytics YOLO được huấn luyện trước để phân loại hình ảnh trên tập dữ liệu ImageNet, hãy làm theo các bước sau:

Ví dụ huấn luyện
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Để được hướng dẫn huấn luyện chuyên sâu hơn, hãy tham khảo trang Training của chúng tôi.

Link to this sectionTại sao tôi nên sử dụng các mô hình Ultralytics YOLO26 được huấn luyện trước cho các dự án tập dữ liệu ImageNet của mình?#

Các mô hình Ultralytics YOLO26 được huấn luyện trước mang lại hiệu suất tối tân về tốc độ và accuracy cho các tác vụ computer vision khác nhau. Ví dụ, mô hình YOLO26n-cls, với độ chính xác top-1 là 71,4% và độ chính xác top-5 là 90,1%, được tối ưu hóa cho các ứng dụng thời gian thực. Các mô hình được huấn luyện trước giúp giảm tài nguyên tính toán cần thiết để huấn luyện từ đầu và đẩy nhanh chu kỳ phát triển. Tìm hiểu thêm về các chỉ số hiệu suất của mô hình YOLO26 trong phần Các mô hình được huấn luyện trước trên ImageNet.

Link to this sectionTập dữ liệu ImageNet được cấu trúc như thế nào và tại sao nó lại quan trọng?#

Tập dữ liệu ImageNet được tổ chức bằng cách sử dụng hệ thống phân cấp WordNet, trong đó mỗi nút trong hệ thống phân cấp đại diện cho một danh mục được mô tả bởi một synset (một tập hợp các thuật ngữ đồng nghĩa). Cấu trúc này cho phép chú thích chi tiết, giúp nó trở nên lý tưởng để huấn luyện các mô hình nhận diện nhiều loại đối tượng khác nhau. Sự đa dạng và độ phong phú trong chú thích của ImageNet khiến nó trở thành một tập dữ liệu có giá trị để phát triển các mô hình deep learning mạnh mẽ và có tính tổng quát cao. Bạn có thể tìm hiểu thêm về cách tổ chức này trong phần Cấu trúc tập dữ liệu.

Link to this sectionThử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) đóng vai trò gì trong computer vision?#

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hàng năm là yếu tố then chốt trong việc thúc đẩy những tiến bộ trong computer vision bằng cách cung cấp một nền tảng cạnh tranh để đánh giá các thuật toán trên một tập dữ liệu tiêu chuẩn, quy mô lớn. Nó cung cấp các chỉ số đánh giá tiêu chuẩn hóa, thúc đẩy sự đổi mới và phát triển trong các lĩnh vực như phân loại hình ảnh, phát hiện đối tượng và image segmentation. Thử thách này đã liên tục đẩy xa giới hạn của những gì khả thi với các công nghệ deep learning và computer vision.

Bình luận