Chuyển đến nội dung

YOLO11 so với YOLOv5 : Sự phát triển của công nghệ phát hiện đối tượng tiên tiến

Sự phát triển của việc phát hiện đối tượng theo thời gian thực đã được định hình đáng kể bởi Ultralytics YOLO YOLOv5 , ra mắt năm 2020, đã thiết lập tiêu chuẩn toàn cầu về tính dễ sử dụng, tốc độ và độ tin cậy, trở thành một trong những mô hình AI thị giác được triển khai nhiều nhất trong lịch sử. YOLO11 , phiên bản mới nhất, được xây dựng dựa trên nền tảng huyền thoại này để mang lại độ chính xác, hiệu quả và tính linh hoạt chưa từng có.

Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa hai công cụ mạnh mẽ này, giúp các nhà phát triển và nhà nghiên cứu hiểu được những thay đổi về kiến trúc, mức tăng hiệu suất và trường hợp sử dụng lý tưởng cho từng công cụ.

Phân tích hiệu suất

Khoảng cách hiệu suất giữa YOLO11 Và YOLOv5 làm nổi bật những tiến bộ nhanh chóng trong thiết kế mạng lưới nơ-ron. Trong khi YOLOv5 vẫn là một mô hình có năng lực, YOLO11 luôn vượt trội hơn nó trên tất cả các thang đo mô hình, đặc biệt là về mặt CPU tốc độ suy luận và độ chính xác phát hiện.

Các chỉ số hiệu suất chính

Bảng dưới đây trình bày so sánh trực tiếp trên tập dữ liệu COCO . Một quan sát quan trọng là hiệu quả của YOLO11n , đạt 39,5 mAP , vượt xa mức 28,0 của YOLOv5n. mAP , trong khi cũng chạy nhanh hơn trên CPU phần cứng.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Độ chính xác so với Hiệu quả

YOLO11 thể hiện sự thay đổi mô hình trong sự đánh đổi giữa "hiệu quả và độ chính xác".

  • Phát hiện vật thể nhỏ: YOLO11 cải thiện đáng kể khả năng phát hiện các vật thể nhỏ so với YOLOv5 , nhờ vào các lớp trích xuất tính năng tinh tế của nó.
  • Hiệu suất tính toán: YOLO11l đạt 53,4 mAP chỉ với 25,3 triệu tham số. Ngược lại, YOLOv5l cần 53,2 triệu tham số để đạt được mức thấp hơn mAP của 49,0. Việc giảm 50% các tham số để có độ chính xác cao hơn sẽ giúp giảm mức sử dụng bộ nhớ và thời gian đào tạo nhanh hơn.

Không neo so với dựa trên neo

Một trong những khác biệt kỹ thuật quan trọng nhất là cơ chế đầu phát hiện. YOLOv5 sử dụng phương pháp dựa trên neo , yêu cầu các hộp neo được xác định trước, phải được điều chỉnh cho các tập dữ liệu cụ thể để đạt được hiệu suất tối ưu.

YOLO11 sử dụng thiết kế không neo . Điều này giúp loại bỏ nhu cầu tính toán hộp neo thủ công, đơn giản hóa quy trình đào tạo và cải thiện khả năng khái quát hóa trên nhiều tập dữ liệu khác nhau mà không cần điều chỉnh siêu tham số.

Kiến trúc và thiết kế mô hình

Sự khác biệt về mặt kiến trúc giữa hai mô hình này phản ánh sự tiến triển của nghiên cứu thị giác máy tính trong nhiều năm.

YOLOv5 : Tiêu chuẩn đã được chứng minh

YOLOv5 đã giới thiệu một giao diện thân thiện với người dùng PyTorch việc triển khai giúp cho việc phát hiện đối tượng trở nên dễ dàng hơn với mọi người.

  • Backbone: Sử dụng CSPDarknet53 đã được sửa đổi, có hiệu quả cao nhưng tốn nhiều tài nguyên tính toán hơn so với các giải pháp thay thế hiện đại.
  • Trọng tâm: Ưu tiên sự cân bằng giữa tốc độ và độ chính xác, mang tính đột phá khi ra mắt vào năm 2020.
  • Di sản: Nó vẫn là "lựa chọn an toàn" cho các hệ thống đã được tích hợp sâu với các định dạng đầu vào/đầu ra cụ thể.

Tìm hiểu thêm về YOLOv5

YOLO11 : Đỉnh cao

YOLO11 tích hợp các kỹ thuật học sâu mới nhất để tối đa hóa khả năng tái sử dụng tính năng và giảm thiểu chi phí tính toán.

  • Khối C3k2: Là sự phát triển của nút thắt CSP, khối này cho phép luồng gradient và hợp nhất tính năng hiệu quả hơn.
  • Mô-đun C2PSA: Giới thiệu các cơ chế chú ý không gian, cho phép mô hình tập trung vào các khu vực quan trọng của hình ảnh để định vị đối tượng tốt hơn.
  • Đầu đa nhiệm: Không giống như YOLOv5 , đòi hỏi các nhánh mô hình riêng biệt cho các nhiệm vụ khác nhau, YOLO11 hỗ trợ Phát hiện đối tượng , Phân đoạn thể hiện , Ước tính tư thế , Hộp giới hạn định hướng (OBB) và Phân loại trong một khuôn khổ thống nhất.

Tìm hiểu thêm về YOLO11

Bảng so sánh: Thông số kỹ thuật

Tính năngYOLOv5YOLO11
Kiến trúcXương sống CSPDarknetXương sống tinh chỉnh với C3k2 và C2PSA
Đầu dò tìm (Detection Head)Dựa trên mỏ neoKhông có neo
Nhiệm vụPhát hiện, Phân đoạn, Phân loạiPhát hiện, Phân đoạn, Phân loại, Đặt ra, OBB, Theo dõi
Giấy phépAGPL-3.0AGPL-3.0
Ngày phát hànhTháng 6 năm 2020Tháng 9 năm 2024
Dễ sử dụngCao (Dòng lệnh & PyTorch Hub)Rất cao (Thống nhất Python SDK & CLI )

Đào tạo và Hệ sinh thái

Cả hai mô hình đều được hưởng lợi từ hệ sinh thái Ultralytics mạnh mẽ, cung cấp các công cụ liền mạch để quản lý dữ liệu, đào tạo và triển khai.

Hiệu quả đào tạo

YOLO11 được thiết kế để đào tạo nhanh hơn và hội tụ nhanh hơn YOLOv5 .

  • Mặc định thông minh: Ultralytics Công cụ tự động cấu hình siêu tham số dựa trên kích thước tập dữ liệu và mô hình, giảm nhu cầu điều chỉnh siêu tham số thủ công.
  • Sử dụng bộ nhớ: Nhờ số lượng tham số giảm, YOLO11 các mô hình thường tiêu thụ ít hơn GPU VRAM trong quá trình đào tạo, cho phép xử lý khối lượng lớn hơn trên phần cứng của người dùng.

Ví dụ về mã: Đào tạo YOLO11

Đào tạo YOLO11 được sắp xếp hợp lý bằng cách sử dụng ultralytics Python gói. Ví dụ sau đây trình bày cách đào tạo mô hình YOLO11n trên COCO8 tập dữ liệu.

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model
# The device argument can be 'cpu', 0 for GPU, or [0, 1] for multi-GPU
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

Tích hợp hệ sinh thái

Trong khi YOLOv5 có một bộ sưu tập lớn các hướng dẫn của bên thứ ba do tuổi đời của nó, YOLO11 được tích hợp sẵn vào hiện đại Ultralytics gói. Gói này cung cấp quyền truy cập ngay lập tức vào các tính năng nâng cao:

  • Xuất một cú nhấp chuột: Xuất sang ONNX , OpenVINO , TensorRT , Và CoreML chỉ với một lệnh duy nhất.
  • Theo dõi: Hỗ trợ tích hợp để theo dõi đối tượng (BoT-SORT, ByteTrack) mà không cần kho lưu trữ bên ngoài.
  • Explorer: Sử dụng Ultralytics Explorer API để trực quan hóa và truy vấn các tập dữ liệu của bạn bằng SQL và tìm kiếm ngữ nghĩa.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn mô hình phù hợp phụ thuộc vào các yêu cầu và hạn chế cụ thể của dự án.

Khi nào nên chọn YOLO11

YOLO11 là lựa chọn được khuyến nghị cho 95% các dự án mới .

  1. Những phát triển mới: Nếu bạn đang bắt đầu từ con số 0, YOLO11 cung cấp khả năng chuẩn bị cho tương lai, độ chính xác và tốc độ tốt nhất.
  2. Triển khai CPU : Dành cho các thiết bị biên chạy trên CPU (ví dụ: Raspberry Pi, điện thoại di động), YOLO11n nhanh hơn và chính xác hơn đáng kể so với YOLOv5n.
  3. Nhiệm vụ phức tạp: Các dự án yêu cầu ước tính tư thế hoặc OBB (ví dụ: hình ảnh trên không, phân tích tài liệu) được hỗ trợ gốc bởi YOLO11 .
  4. Đám mây & Máy chủ: Thông lượng cao của YOLO11 làm cho nó trở nên lý tưởng để xử lý luồng video lớn theo thời gian thực.

Khi nào nên gắn bó với YOLOv5

YOLOv5 vẫn là một lựa chọn khả thi cho các tình huống di sản cụ thể.

  1. Bảo trì di sản: Nếu bạn có một hệ thống sản xuất được kết nối chặt chẽ với YOLOv5 cơ sở mã hoặc định dạng đầu ra.
  2. Điều chỉnh phần cứng cụ thể: Một số bộ tăng tốc nhúng cũ hơn có thể có chương trình cơ sở được tối ưu hóa cao được xác thực cụ thể cho YOLOv5 các lớp (mặc dù hầu hết các thời gian chạy hiện đại như OpenVINO bây giờ ưa chuộng kiến trúc mới hơn).
  3. Cơ sở học thuật: Các nhà nghiên cứu so sánh với các cơ sở lịch sử thường trích dẫn YOLOv5 do sự hiện diện lâu dài của nó trong văn học.

Di cư đến YOLO11

Di cư từ YOLOv5 ĐẾN YOLO11 rất đơn giản. Định dạng tập dữ liệu ( YOLO TXT) vẫn giữ nguyên, nghĩa là bạn có thể sử dụng lại các tập dữ liệu có chú thích hiện có của mình mà không cần sửa đổi. Python Cấu trúc API cũng rất giống nhau, thường chỉ yêu cầu thay đổi chuỗi tên mô hình (ví dụ: từ yolov5su.pt đến yolo11n.pt trong vòng ultralytics bưu kiện).

Khám phá các lựa chọn khác

Ultralytics hỗ trợ nhiều loại mô hình khác nhau không chỉ YOLO11 Và YOLOv5 . Tùy thuộc vào nhu cầu cụ thể của bạn, bạn có thể cân nhắc:

  • YOLOv8 : Tiền thân trực tiếp của YOLO11 , cung cấp sự cân bằng tuyệt vời giữa các tính năng và khả năng ứng dụng rộng rãi trong ngành.
  • YOLOv10 : Một kiến trúc tập trung vào NMS - đào tạo miễn phí để giảm độ trễ trong các ứng dụng thời gian thực cụ thể.
  • RT-DETR : Một bộ phát hiện dựa trên máy biến áp có độ chính xác vượt trội trong những trường hợp mà tốc độ suy luận không quan trọng bằng độ chính xác tối đa.
  • YOLOv9 : Được biết đến với khái niệm Thông tin Gradient có thể lập trình (PGI), mang lại hiệu suất mạnh mẽ cho các tác vụ phát hiện khó.

Kết luận

Sự chuyển đổi từ YOLOv5 ĐẾN YOLO11 đánh dấu một cột mốc quan trọng trong lịch sử thị giác máy tính. YOLOv5 đã dân chủ hóa AI, giúp việc phát hiện vật thể trở nên dễ dàng với tất cả mọi người. YOLO11 hoàn thiện tầm nhìn này, mang đến một mô hình nhanh hơn, nhẹ hơn và chính xác hơn.

Đối với các nhà phát triển đang tìm kiếm hiệu suất trên mỗi watt tốt nhất và bộ tính năng linh hoạt nhất, YOLO11 là người chiến thắng rõ ràng . Việc tích hợp nó vào hoạt động Ultralytics Hệ sinh thái đảm bảo rằng bạn có quyền truy cập vào các công cụ mới nhất, API đơn giản và một cộng đồng phát triển mạnh mẽ để hỗ trợ hành trình AI của bạn.

Bạn đã sẵn sàng nâng cấp chưa? Hãy xem Tài liệu YOLO11 hoặc khám phá kho lưu trữ GitHub để bắt đầu ngay hôm nay.


Bình luận