So sánh chi tiết mô hình YOLOv6-3.0 và YOLO11
Việc lựa chọn mô hình thị giác máy tính phù hợp là rất quan trọng để đạt được hiệu suất tối ưu trong các tác vụ phát hiện đối tượng. Trang này cung cấp so sánh kỹ thuật giữa YOLOv6-3.0 và Ultralytics YOLO11, tập trung vào kiến trúc, các số liệu hiệu suất, các phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn lựa mô hình phù hợp nhất cho dự án của mình. Mặc dù cả hai đều là các mô hình mạnh mẽ, YOLO11 đại diện cho sự mới nhất về hiệu quả và tính linh hoạt hiện đại.
YOLOv6-3.0
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 13-01-2023
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
Tài liệu: https://docs.ultralytics.com/models/yolov6/
YOLOv6-3.0, được phát triển bởi Meituan, là một framework phát hiện đối tượng được thiết kế chủ yếu cho các ứng dụng công nghiệp. Được phát hành vào đầu năm 2023, nó hướng đến việc cung cấp sự cân bằng giữa tốc độ và độ chính xác phù hợp với các tình huống triển khai thực tế, nơi suy luận theo thời gian thực là một ưu tiên.
Kiến trúc và các tính năng chính
YOLOv6 giới thiệu các sửa đổi kiến trúc như backbone và neck hiệu quả, nhận biết phần cứng. Phiên bản 3.0 tiếp tục tinh chỉnh các yếu tố này và kết hợp các kỹ thuật như tự chưng cất trong quá trình huấn luyện để tăng hiệu suất. Nó cũng cung cấp các mô hình cụ thể được tối ưu hóa để triển khai trên thiết bị di động (YOLOv6Lite), thể hiện sự tập trung vào điện toán biên.
Điểm mạnh
- Sự cân bằng tốt giữa tốc độ và độ chính xác: Mang lại hiệu suất cạnh tranh, đặc biệt cho các tác vụ phát hiện đối tượng công nghiệp.
- Hỗ trợ lượng tử hóa: Cung cấp các công cụ và hướng dẫn cho lượng tử hóa mô hình, có lợi cho việc triển khai trên phần cứng có tài nguyên hạn chế.
- Tối ưu hóa cho thiết bị di động: Bao gồm các biến thể YOLOv6Lite được thiết kế đặc biệt để suy luận trên thiết bị di động hoặc dựa trên CPU.
Điểm yếu
- Tính linh hoạt của tác vụ bị hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, thiếu sự hỗ trợ gốc cho phân đoạn thể hiện, phân loại hình ảnh hoặc ước tính tư thế được tìm thấy trong Ultralytics YOLO11.
- Hệ sinh thái và Bảo trì: Mặc dù là mã nguồn mở, hệ sinh thái này không toàn diện hoặc được duy trì tích cực như nền tảng Ultralytics, có khả năng dẫn đến việc cập nhật chậm hơn và ít hỗ trợ từ cộng đồng hơn.
- Sử dụng tài nguyên cao hơn: Các mô hình YOLOv6 lớn hơn có thể có số lượng tham số và FLOPs lớn hơn đáng kể so với các mô hình YOLO11 tương đương để đạt được mAP tương tự, có khả năng đòi hỏi nhiều tài nguyên tính toán hơn như được hiển thị trong bảng dưới đây.
Các trường hợp sử dụng lý tưởng
YOLOv6-3.0 rất phù hợp cho:
- Các ứng dụng công nghiệp mà tốc độ phát hiện đối tượng là rất quan trọng, chẳng hạn như trong sản xuất để kiểm soát chất lượng.
- Các tình huống triển khai tận dụng lượng tử hóa hoặc yêu cầu các mô hình được tối ưu hóa cho thiết bị di động.
- Các dự án chỉ tập trung vào phát hiện đối tượng mà không cần khả năng đa nhiệm.
Ultralytics YOLO11
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 là mô hình hiện đại mới nhất từ Ultralytics, đại diện cho sự phát triển mới nhất trong series YOLO. Được phát hành vào tháng 9 năm 2024, nó được xây dựng dựa trên các phiên bản trước như YOLOv8 với các cải tiến kiến trúc nhằm nâng cao cả tốc độ và độ chính xác. YOLO11 được thiết kế để có hiệu suất và hiệu quả vượt trội trên một loạt các tác vụ thị giác máy tính.
Kiến trúc và các tính năng chính
YOLO11 có kiến trúc được tối ưu hóa, đạt được sự cân bằng tinh tế giữa kích thước mô hình, tốc độ suy luận và độ chính xác. Các cải tiến chính bao gồm các lớp trích xuất đặc trưng nâng cao và cấu trúc mạng được tinh giản, giảm thiểu chi phí tính toán. Thiết kế này đảm bảo hiệu suất hiệu quả trên các phần cứng khác nhau, từ thiết bị biên như NVIDIA Jetson đến các máy chủ đám mây mạnh mẽ. Là một detector không neo, YOLO11 đơn giản hóa quy trình phát hiện và thường cải thiện khả năng tổng quát hóa.
Điểm mạnh
- Cân bằng hiệu suất vượt trội: Đạt được điểm mAP cao hơn với số lượng tham số và FLOPs ít hơn so với các đối thủ cạnh tranh, mang lại sự cân bằng tuyệt vời giữa tốc độ và độ chính xác.
- Tính linh hoạt: Hỗ trợ nhiều tác vụ thị giác trong một khuôn khổ duy nhất — bao gồm phát hiện, phân vùng thể hiện, phân loại, ước tính tư thế và hộp giới hạn định hướng (OBB) — cung cấp một giải pháp toàn diện.
- Dễ sử dụng: Hưởng lợi từ hệ sinh thái Ultralytics được tối ưu hóa, có Python API đơn giản, tài liệu phong phú và trọng số đã được huấn luyện trước luôn sẵn sàng.
- Hệ sinh thái được duy trì tốt: Được Ultralytics tích cực phát triển và hỗ trợ, với các bản cập nhật thường xuyên, hỗ trợ cộng đồng mạnh mẽ thông qua GitHub và Discord, đồng thời tích hợp với Ultralytics HUB để huấn luyện và triển khai liền mạch.
- Hiệu Quả Huấn Luyện: Cung cấp quy trình huấn luyện hiệu quả, thường yêu cầu ít bộ nhớ hơn so với các loại mô hình khác như transformer.
Điểm yếu
- Mô hình mới: Vì là bản phát hành mới nhất, số lượng hướng dẫn từ cộng đồng và các công cụ của bên thứ ba vẫn đang tăng lên so với các mô hình đã được thiết lập như YOLOv5.
- Phát Hiện Vật Thể Nhỏ: Giống như hầu hết các trình dò tìm một giai đoạn, có thể gặp phải những thách thức với các vật thể cực kỳ nhỏ so với các trình dò tìm hai giai đoạn chuyên dụng.
Các trường hợp sử dụng lý tưởng
Sự kết hợp giữa độ chính xác, tốc độ và tính linh hoạt của YOLO11 khiến nó trở nên lý tưởng cho:
- Các ứng dụng thời gian thực đòi hỏi độ chính xác cao, chẳng hạn như hệ thống tự hành và robotics.
- Các tình huống đa nhiệm cần phát hiện, phân đoạn và ước tính tư thế đồng thời.
- Triển khai trên nhiều nền tảng khác nhau, từ các thiết bị hạn chế về tài nguyên như Raspberry Pi đến cơ sở hạ tầng đám mây mạnh mẽ.
- Các ứng dụng trong an ninh, bán lẻ, chăm sóc sức khỏe và logistics.
So sánh hiệu suất
Các điểm chuẩn hiệu suất dưới đây, được đánh giá trên tập dữ liệu COCO, minh họa rõ ràng những ưu điểm của YOLO11. Để có mức độ chính xác tương đương, các mô hình YOLO11 hiệu quả hơn đáng kể. Ví dụ: YOLO11l đạt mAPval cao hơn là 53.4 chỉ với 25.3 triệu tham số và 86.9 tỷ FLOPs, trong khi YOLOv6-3.0l chỉ đạt 52.8 mAPval trong khi yêu cầu hơn gấp đôi số lượng tham số (59.6 triệu) và FLOPs (150.7 tỷ). Hiệu quả vượt trội này làm cho YOLO11 trở thành một lựa chọn có khả năng mở rộng và tiết kiệm chi phí hơn cho việc triển khai.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Phương pháp luận huấn luyện
Cả hai mô hình đều sử dụng các phương pháp huấn luyện học sâu tiêu chuẩn. YOLOv6-3.0 sử dụng các kỹ thuật như tự chưng cất để cải thiện hiệu suất. Tuy nhiên, Ultralytics YOLO11 được hưởng lợi từ việc tích hợp sâu vào hệ sinh thái Ultralytics toàn diện, mang lại trải nghiệm thân thiện và hợp lý hơn đáng kể.
Đào tạo với YOLO11 được đơn giản hóa thông qua gói Python và Ultralytics HUB, cung cấp các công cụ để dễ dàng điều chỉnh siêu tham số, tải dữ liệu hiệu quả và ghi nhật ký tự động với các nền tảng như TensorBoard và Weights & Biases. Hơn nữa, kiến trúc của YOLO11 được tối ưu hóa cho hiệu quả đào tạo, thường đòi hỏi ít bộ nhớ và thời gian hơn. Cả hai mô hình đều cung cấp các trọng số được đào tạo trước trên bộ dữ liệu COCO để tạo điều kiện thuận lợi cho học chuyển giao.
Kết luận
Trong khi YOLOv6-3.0 mang lại hiệu suất vững chắc cho các trường hợp sử dụng công nghiệp cụ thể, Ultralytics YOLO11 nổi lên như một lựa chọn vượt trội cho hầu hết các nhà phát triển và nhà nghiên cứu. YOLO11 cung cấp độ chính xác hiện đại, hiệu quả đáng kể (thông số và FLOP thấp hơn cho mAP cao hơn) và tính linh hoạt đặc biệt trên nhiều tác vụ thị giác máy tính. Ưu điểm lớn nhất của nó nằm ở tính dễ sử dụng tuyệt vời, được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ, được ghi chép đầy đủ và được duy trì tích cực. Sự cân bằng hiệu suất mạnh mẽ này làm cho nó phù hợp với nhiều ứng dụng và môi trường triển khai hơn, từ biên đến đám mây.
Đối với người dùng khám phá các lựa chọn thay thế, Ultralytics cũng cung cấp các mô hình hiệu suất cao khác như YOLOv10, YOLOv9 và YOLOv8. Bạn có thể tìm thấy các so sánh sâu hơn với các mô hình như RT-DETR, YOLOX và YOLOv7 trong tài liệu của Ultralytics.