YOLO11 so với YOLOv8 : Sự tiến hóa kiến trúc và phân tích hiệu suất
Việc lựa chọn mô hình thị giác máy tính tối ưu là một quyết định quan trọng đối với các nhà phát triển và nhà nghiên cứu, những người mong muốn cân bằng giữa độ chính xác, tốc độ và hiệu quả tài nguyên. Trang này cung cấp so sánh kỹ thuật toàn diện giữa Ultralytics YOLO11 và Ultralytics YOLOv8 , hai kiến trúc hàng đầu trong ngành được thiết kế cho các tác vụ phát hiện đối tượng và thị giác nâng cao. Chúng tôi phân tích các cải tiến về kiến trúc, số liệu chuẩn và các kịch bản triển khai lý tưởng của chúng để giúp bạn xác định lựa chọn phù hợp nhất cho các ứng dụng trí tuệ nhân tạo của mình.
Ultralytics YOLO11
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
YOLO11 đại diện cho sự phát triển mới nhất trong YOLO loạt, cải tiến đáng kể về mặt kỹ thuật trong việc trích xuất tính năng và hiệu quả xử lý. Bằng cách tinh chỉnh kiến trúc xương sống và cổ, YOLO11 đạt được Độ chính xác trung bình ( mAP ) cao hơn trong khi sử dụng ít tham số hơn so với các phiên bản trước. Nó hỗ trợ sẵn một loạt các tác vụ, bao gồm phân đoạn thực thể , phân loại hình ảnh , ước lượng tư thế và hộp giới hạn định hướng (OBB).
Kiến trúc và các tính năng chính
Các YOLO11 Kiến trúc này giới thiệu khối C3k2 , một phiên bản tối ưu của nút thắt CSP (Cross Stage Partial - Phân đoạn Giao thoa), và mô-đun C2PSA (Cross Stage Partial with Spatial Attention - Phân đoạn Giao thoa với Chú ý Không gian). Các thành phần này nâng cao khả năng của mô hình trong việc nắm bắt các mẫu hình ảnh phức tạp và các mối quan hệ không gian, đồng thời giảm thiểu chi phí tính toán. Triết lý thiết kế này đảm bảo rằng YOLO11 vượt trội trong các tình huống suy luận thời gian thực , đặc biệt là trên các thiết bị biên nơi tài nguyên tính toán bị hạn chế.
Điểm mạnh
- Độ chính xác hiện đại: Mang lại hiệu suất phát hiện vượt trội trên mọi quy mô mô hình, luôn vượt trội hơn các lần lặp trước trên tập dữ liệu COCO .
- Hiệu quả CPU : Các lựa chọn kiến trúc được tối ưu hóa mang lại tốc độ suy luận nhanh hơn đáng kể trên CPU, khiến đây trở thành lựa chọn hàng đầu cho các triển khai không có máy chủ hoặc biên.
- Hiệu quả tham số: Đạt được độ chính xác cao với ít tham số và FLOP hơn, giảm yêu cầu lưu trữ mô hình .
- Unified Framework: Xử lý liền mạch nhiều tác vụ thị giác trong một API duy nhất, dễ sử dụng.
Điểm yếu
- Độ trưởng thành của hệ sinh thái: Là một bản phát hành mới hơn, khối lượng hướng dẫn của bên thứ ba và nội dung do cộng đồng tạo ra đang tăng nhanh nhưng có thể không rộng rãi bằng các bản đã được thiết lập YOLOv8 .
- Cường độ tài nguyên cho các mô hình lớn: Mặc dù hiệu quả, các biến thể lớn nhất (ví dụ: YOLO11x) vẫn đòi hỏi đáng kể GPU tài nguyên đào tạo và suy luận thông lượng cao.
Các Trường hợp Sử dụng
YOLO11 là sự lựa chọn hàng đầu cho các ứng dụng yêu cầu tỷ lệ độ chính xác/tốc độ cao nhất có thể:
- Edge AI: Triển khai tính năng phát hiện hiệu suất cao trên các thiết bị NVIDIA Jetson hoặc Raspberry Pi.
- Robot thời gian thực: Cho phép điều hướng tự động và tương tác với vật thể với độ trễ tối thiểu.
- Chụp ảnh y tế: Hỗ trợ phân tích hình ảnh y tế chính xác để chẩn đoán, trong đó độ chính xác là tối quan trọng.
Ultralytics YOLOv8
Tác giả: Glenn Jocher, Ayush Chaurasia, Jing Qiu
Tổ chức: Ultralytics
Ngày: 2023-01-10
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolov8 /
Phát hành vào đầu năm 2023, YOLOv8 đã định nghĩa lại tiêu chuẩn phát hiện vật thể theo thời gian thực. Công nghệ này giới thiệu đầu phát hiện không cần neo và mô-đun xương sống C2f , đánh dấu một bước chuyển đáng kể so với các phương pháp dựa trên neo. YOLOv8 nổi tiếng về tính ổn định, tính linh hoạt và hệ sinh thái khổng lồ phát triển xung quanh nó, khiến nó trở thành một trong những mô hình thị giác được áp dụng rộng rãi nhất trên toàn cầu.
Kiến trúc và các tính năng chính
YOLOv8 Sử dụng một phiên bản cải tiến của xương sống CSPDarknet53, tích hợp các mô-đun C2f cho phép luồng gradient phong phú hơn. Thiết kế không neo của nó giúp đơn giản hóa quy trình triệt tiêu không cực đại ( NMS ) và giảm độ phức tạp của việc điều chỉnh siêu tham số liên quan đến hộp neo. Mô hình có khả năng mở rộng cao, cung cấp các biến thể từ Nano (n) đến Cực lớn (x) để phù hợp với nhiều ngân sách tính toán khác nhau.
Điểm mạnh
- Độ tin cậy đã được chứng minh: được thử nghiệm rộng rãi trong môi trường sản xuất trên toàn thế giới, đảm bảo tính ổn định cao.
- Hệ sinh thái phong phú: được hỗ trợ bởi hàng ngàn hướng dẫn, tích hợp và dự án cộng đồng.
- Tính linh hoạt: Giống như YOLO11 , nó hỗ trợ phát hiện, phân đoạn, phân loại và ước tính tư thế.
- Đường cơ sở mạnh mẽ: tiếp tục cung cấp hiệu suất cạnh tranh vượt trội hơn nhiều công ty không YOLO kiến trúc.
Điểm yếu
- Khoảng cách hiệu suất: Nói chung là vượt qua YOLO11 cả về độ chính xác ( mAP ) và tốc độ suy luận, đặc biệt là trên CPU phần cứng.
- Chi phí tính toán cao hơn: Yêu cầu nhiều tham số và FLOP hơn một chút để đạt được độ chính xác tương đương YOLO11 .
Các Trường hợp Sử dụng
YOLOv8 vẫn là một lựa chọn tuyệt vời cho:
- Hệ thống kế thừa: Các dự án đã được tích hợp với YOLOv8 quy trình làm việc đòi hỏi sự ổn định hơn là hiệu suất vượt trội.
- Công cụ giáo dục: Học các khái niệm về thị giác máy tính bằng mô hình có nhiều tài liệu và ví dụ từ cộng đồng.
- Phát hiện mục đích chung: Hiệu suất đáng tin cậy cho các ứng dụng giám sát và bảo mật tiêu chuẩn.
So sánh trực tiếp hiệu năng
Sự khác biệt quan trọng nhất giữa hai mô hình này nằm ở hiệu quả của chúng. YOLO11 đạt được "cải thiện Pareto" YOLOv8 —cung cấp độ chính xác cao hơn với chi phí tính toán thấp hơn.
Phân tích hiệu quả và tốc độ
Các tối ưu hóa kiến trúc trong YOLO11 (C3k2, C2PSA) cho phép nó xử lý hình ảnh nhanh hơn trong khi vẫn giữ được các đặc điểm chi tiết hơn. Điều này thể hiện rõ nhất trong suy luận CPU , trong đó YOLO11 Các mô hình cho thấy tốc độ tăng đáng kể. Ví dụ, mô hình YOLO11n nhanh hơn khoảng 30% trên CPU hơn YOLOv8n trong khi cũng đạt được mức cao hơn mAP .
Về mặt suy luận GPU , YOLO11 Các mô hình cũng chứng minh độ trễ thấp hơn ở hầu hết các kích cỡ, khiến chúng trở nên cực kỳ hiệu quả đối với các quy trình xử lý video thời gian thực.
Hiệu quả bộ nhớ
Cả hai Ultralytics YOLO11 Và YOLOv8 được thiết kế để tiêu thụ ít bộ nhớ trong quá trình đào tạo và suy luận so với các mô hình dựa trên bộ biến đổi như RT-DETR . Điều này giúp chúng dễ tiếp cận hơn nhiều đối với các nhà phát triển sử dụng phần cứng cấp độ người tiêu dùng hoặc môi trường đám mây với hạn chế CUDA ký ức.
Số liệu so sánh
Bảng dưới đây minh họa những cải tiến về hiệu suất. Lưu ý việc giảm các tham số và FLOP cho YOLO11 cùng với sự gia tăng mAP .
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
Các Ultralytics Lợi thế của hệ sinh thái
Lựa chọn một Ultralytics mô hình có nghĩa là tiếp cận được hệ sinh thái toàn diện được thiết kế để hợp lý hóa toàn bộ vòng đời MLOps .
- Dễ sử dụng: Cả hai mô hình đều có chung Python API và Giao diện dòng lệnh ( CLI ). Chuyển đổi từ YOLOv8 ĐẾN YOLO11 thường chỉ yêu cầu thay đổi một ký tự duy nhất trong chuỗi mã của bạn (ví dụ:
"yolov8n.pt"đến"yolo11n.pt"). - Hiệu quả đào tạo: Ultralytics Các mô hình sử dụng các quy trình huấn luyện nâng cao, bao gồm tăng cường khảm và phát triển siêu tham số. Các trọng số được huấn luyện sẵn có, cho phép học chuyển giao hiệu quả trên các tập dữ liệu tùy chỉnh.
- Tính linh hoạt: Không giống như nhiều đối thủ cạnh tranh bị giới hạn ở các nhiệm vụ cụ thể, Ultralytics các mô hình cung cấp hỗ trợ gốc cho việc phát hiện, phân đoạn, phân loại, tư thế và OBB trong một gói thống nhất.
- Triển khai: Xuất mô hình dễ dàng sang các định dạng như ONNX , TensorRT , CoreML , Và OpenVINO để triển khai tối ưu trên nhiều phần cứng khác nhau.
Ví dụ sử dụng hợp nhất
Thiết kế API chia sẻ cho phép thử nghiệm dễ dàng. Sau đây là cách bạn có thể tải và chạy dự đoán với cả hai mô hình:
from ultralytics import YOLO
# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt") # or "yolov8n.pt"
# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Kết luận: Bạn nên chọn mô hình nào?
Đối với đại đa số các dự án mới, YOLO11 là lựa chọn được khuyến nghị . Những tiến bộ về kiến trúc của nó mang lại lợi thế rõ ràng về cả độ chính xác lẫn tốc độ, đặc biệt là đối với các ứng dụng điện toán biên , nơi hiệu suất là yếu tố then chốt. Số lượng tham số được giảm thiểu cũng đồng nghĩa với việc giảm yêu cầu lưu trữ và thời gian tải xuống nhanh hơn cho các triển khai di động.
YOLOv8 vẫn là một công cụ mạnh mẽ và có liên quan, đặc biệt đối với các nhóm có đường ống hiện có được tích hợp sâu với các YOLOv8 phiên bản hoặc dành cho những người dựa vào sự trưởng thành tuyệt đối của hệ sinh thái tài liệu của nó. Tuy nhiên, việc di chuyển sang YOLO11 nói chung là đơn giản và mang lại hiệu quả tức thì.
Cả hai mô hình đều được phát hành theo giấy phép AGPL-3.0 , thúc đẩy sự hợp tác nguồn mở, với Giấy phép Doanh nghiệp dành cho các sản phẩm thương mại yêu cầu khả năng độc quyền.
Khám phá các Mô hình Khác
Trong khi YOLO11 Và YOLOv8 là những máy dò mục đích chung tuyệt vời, các yêu cầu cụ thể có thể được hưởng lợi từ các kiến trúc khác trong Ultralytics gia đình:
- YOLOv10 : Tập trung vào NMS -đào tạo miễn phí để có độ trễ thấp hơn.
- YOLOv9 : Nhấn mạnh thông tin độ dốc có thể lập trình để đào tạo mô hình sâu.
- RT-DETR : Máy dò dựa trên máy biến áp cung cấp độ chính xác cao, mặc dù có yêu cầu về bộ nhớ và tính toán cao hơn.
Khám phá đầy đủ các so sánh mô hình của chúng tôi để tìm ra mô hình phù hợp nhất cho dự án của bạn.