YOLO11 so với YOLOv6-3.0: So sánh chi tiết các Mô hình
Việc lựa chọn mô hình thị giác máy tính phù hợp là rất quan trọng để đạt được hiệu suất tối ưu trong các tác vụ phát hiện đối tượng. Trang này cung cấp so sánh kỹ thuật giữa Ultralytics YOLO11 và YOLOv6-3.0, tập trung vào kiến trúc, các số liệu hiệu suất, các phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn lựa mô hình phù hợp nhất cho dự án của mình. Mặc dù cả hai đều là các công cụ phát hiện mạnh mẽ, YOLO11 nổi bật như một giải pháp linh hoạt, hiệu quả và thân thiện với người dùng hơn, được tích hợp vào một hệ sinh thái toàn diện và được duy trì tích cực.
Ultralytics YOLO11
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 là mô hình hiện đại mới nhất từ Ultralytics, đại diện cho sự phát triển mới nhất trong series YOLO. Được phát hành vào tháng 9 năm 2024, nó được xây dựng dựa trên các phiên bản trước như YOLOv8 với các cải tiến kiến trúc nhằm nâng cao cả tốc độ và độ chính xác. YOLO11 được thiết kế để có hiệu suất và hiệu quả vượt trội trên một loạt các tác vụ thị giác máy tính, bao gồm phát hiện đối tượng, phân đoạn thể hiện, phân loại hình ảnh, ước tính tư thế và hộp giới hạn theo hướng (OBB).
Kiến trúc và các tính năng chính
YOLO11 có kiến trúc được tối ưu hóa, đạt được sự cân bằng tinh tế giữa kích thước mô hình, tốc độ suy luận và độ chính xác. Các cải tiến chính bao gồm các lớp trích xuất đặc trưng nâng cao và cấu trúc mạng được tinh giản, giảm thiểu chi phí tính toán. Thiết kế này đảm bảo hiệu suất hiệu quả trên các phần cứng khác nhau, từ thiết bị biên đến máy chủ đám mây. Là một detector không neo, YOLO11 đơn giản hóa quy trình phát hiện và thường cải thiện khả năng tổng quát hóa, khiến nó trở thành một lựa chọn hiện đại và hiệu quả hơn.
Điểm mạnh
- Cân bằng hiệu suất vượt trội: Đạt được điểm mAP cao hơn với số lượng tham số ít hơn so với nhiều đối thủ cạnh tranh, mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, như được thấy trong bảng hiệu suất bên dưới.
- Tính linh hoạt: Hỗ trợ nhiều tác vụ thị giác trong một khuôn khổ duy nhất, thống nhất, cung cấp một giải pháp toàn diện vượt xa việc phát hiện đối tượng đơn thuần. Đây là một lợi thế đáng kể so với các mô hình đơn tác vụ như YOLOv6.
- Dễ sử dụng: Hưởng lợi từ hệ sinh thái Ultralytics được tối ưu hóa, có Python API đơn giản, tài liệu phong phú và trọng số đã được huấn luyện trước luôn sẵn sàng.
- Hệ sinh thái được duy trì tốt: Được phát triển và hỗ trợ tích cực bởi Ultralytics, với các bản cập nhật thường xuyên, hỗ trợ cộng đồng mạnh mẽ thông qua GitHub và Discord, và tích hợp liền mạch với Ultralytics HUB để huấn luyện và triển khai không cần code.
- Hiệu Quả Huấn Luyện: Cung cấp quy trình huấn luyện hiệu quả cao, thường yêu cầu ít bộ nhớ hơn so với các kiến trúc khác như mô hình dựa trên transformer, vốn chậm hơn khi huấn luyện và tốn nhiều tài nguyên hơn.
Điểm yếu
- Mô hình mới: Vì là bản phát hành mới nhất, số lượng hướng dẫn từ cộng đồng và các công cụ của bên thứ ba vẫn đang tăng lên so với các mô hình đã được thiết lập như YOLOv5.
- Phát Hiện Vật Thể Nhỏ: Giống như hầu hết các detector một giai đoạn, có thể gặp khó khăn với các vật thể cực kỳ nhỏ so với các detector hai giai đoạn chuyên dụng, mặc dù nó vẫn hoạt động mạnh mẽ trong hầu hết các tình huống.
Các trường hợp sử dụng lý tưởng
Sự kết hợp giữa độ chính xác, tốc độ và tính linh hoạt của YOLO11 khiến nó trở nên lý tưởng cho một loạt các ứng dụng hiện đại:
- Các ứng dụng thời gian thực đòi hỏi độ chính xác cao (ví dụ: hệ thống tự động, robot).
- Các tình huống đa nhiệm vụ cần phát hiện, phân đoạn và ước tính tư thế đồng thời, chẳng hạn như trong hệ thống an ninh tiên tiến.
- Triển khai trên nhiều nền tảng khác nhau, từ các thiết bị biên có tài nguyên hạn chế (NVIDIA Jetson, Raspberry Pi) đến cơ sở hạ tầng đám mây mạnh mẽ.
- Các ứng dụng trong an ninh, bán lẻ, chăm sóc sức khỏe và sản xuất.
YOLOv6-3.0
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Tài liệu: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0, được phát triển bởi Meituan, là một framework phát hiện đối tượng được thiết kế chủ yếu cho các ứng dụng công nghiệp. Được phát hành vào đầu năm 2023, nó hướng đến việc cung cấp sự cân bằng giữa tốc độ và độ chính xác phù hợp với các tình huống triển khai thực tế vào thời điểm đó.
Kiến trúc và các tính năng chính
YOLOv6 giới thiệu các sửa đổi kiến trúc như backbone và neck hiệu quả. Phiên bản 3.0 tiếp tục tinh chỉnh các yếu tố này và kết hợp các kỹ thuật như tự chưng cất trong quá trình huấn luyện để tăng hiệu suất. Nó cũng cung cấp các mô hình cụ thể được tối ưu hóa để triển khai trên thiết bị di động (YOLOv6Lite), thể hiện sự tập trung vào tối ưu hóa phần cứng cụ thể.
Điểm mạnh
- Sự cân bằng tốt giữa tốc độ và độ chính xác: Mang lại hiệu suất cạnh tranh, đặc biệt cho các tác vụ phát hiện đối tượng công nghiệp, nơi tốc độ là mối quan tâm hàng đầu.
- Hỗ trợ lượng tử hóa: Cung cấp các công cụ và hướng dẫn cho lượng tử hóa mô hình, điều này có lợi cho việc triển khai trên phần cứng có tài nguyên hạn chế.
- Tối ưu hóa cho thiết bị di động: Bao gồm các biến thể YOLOv6Lite được thiết kế đặc biệt để suy luận trên thiết bị di động hoặc dựa trên CPU.
Điểm yếu
- Tính linh hoạt của tác vụ bị hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu sự hỗ trợ gốc cho phân đoạn, phân loại hoặc ước tính tư thế được tìm thấy trong khuôn khổ Ultralytics YOLO11 toàn diện. Điều này hạn chế khả năng áp dụng của nó trong các dự án AI đa diện, hiện đại.
- Hệ sinh thái và Bảo trì: Mặc dù là mã nguồn mở, hệ sinh thái này không toàn diện hoặc được duy trì tích cực như nền tảng Ultralytics. Điều này có thể dẫn đến việc cập nhật chậm hơn, ít tích hợp hơn và ít hỗ trợ từ cộng đồng hơn cho các nhà phát triển.
- Mức sử dụng tài nguyên cao hơn: Như được hiển thị trong bảng bên dưới, các mô hình YOLOv6 lớn hơn có thể có số lượng tham số và FLOP lớn hơn đáng kể so với các mô hình YOLO11 tương đương cho mAP tương tự, có khả năng đòi hỏi nhiều tài nguyên tính toán hơn cho quá trình huấn luyện và triển khai.
Các trường hợp sử dụng lý tưởng
YOLOv6-3.0 phù hợp cho:
- Các ứng dụng công nghiệp mà tốc độ phát hiện đối tượng là yếu tố quan trọng nhất.
- Các tình huống triển khai tận dụng lượng tử hóa hoặc yêu cầu các mô hình được tối ưu hóa cho thiết bị di động đối với các hệ thống cũ.
- Các dự án chỉ tập trung vào phát hiện đối tượng và không yêu cầu khả năng đa nhiệm.
So sánh Hiệu suất: YOLO11 so với YOLOv6-3.0
Bảng sau cung cấp so sánh hiệu suất chi tiết giữa các mô hình YOLO11 và YOLOv6-3.0 trên bộ dữ liệu COCO.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Dữ liệu cho thấy rõ ràng rằng các mô hình YOLO11 liên tục đạt được điểm mAP cao hơn so với các đối tác YOLOv6-3.0 của chúng ở các quy mô tương tự, đồng thời sử dụng ít tham số và FLOP hơn đáng kể. Ví dụ: YOLO11m vượt trội hơn YOLOv6-3.0m về độ chính xác (51,5 so với 50,0 mAP) với số lượng tham số gần bằng một nửa (20,1M so với 34,9M). Hiệu quả vượt trội này làm cho YOLO11 trở thành một giải pháp mạnh mẽ và hiệu quả về chi phí hơn để triển khai. Trong khi YOLOv6-3.0n cho thấy khả năng suy luận GPU rất nhanh, YOLO11 mang lại sự cân bằng tổng thể tốt hơn nhiều về độ chính xác, kích thước mô hình và tính linh hoạt.
Kết luận và Đề xuất
Trong khi YOLOv6-3.0 là một đóng góp vững chắc cho lĩnh vực phát hiện đối tượng, Ultralytics YOLO11 là người chiến thắng rõ ràng cho các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp thị giác máy tính hiện đại, linh hoạt và hiệu quả.
YOLO11 không chỉ mang lại độ chính xác cao hơn với ít tài nguyên tính toán hơn mà còn mở rộng khả năng của nó sang một loạt các tác vụ bao gồm phân đoạn, phân loại và ước tính tư thế trong một khuôn khổ duy nhất, dễ sử dụng. Hệ sinh thái Ultralytics mạnh mẽ và được duy trì tích cực, hoàn chỉnh với tài liệu mở rộng, hỗ trợ cộng đồng và các công cụ như Ultralytics HUB, đảm bảo trải nghiệm phát triển và triển khai suôn sẻ.
Đối với bất kỳ dự án mới nào, YOLO11 là lựa chọn được khuyến nghị. Đối với những người quan tâm đến các kiến trúc hiện đại khác, việc khám phá so sánh với các mô hình như YOLOv10 hoặc RT-DETR cũng có thể cung cấp những hiểu biết giá trị.