YOLO11 so với PP-YOLOE+: So sánh mô hình chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa yêu cầu về độ chính xác, tốc độ và hiệu quả triển khai. Trang này cung cấp so sánh kỹ thuật toàn diện giữa Ultralytics YOLO11, mô hình hiện đại nhất từ Ultralytics và PP-YOLOE+, một mô hình mạnh mẽ từ hệ sinh thái PaddlePaddle của Baidu. Mặc dù cả hai mô hình đều có khả năng cao, YOLO11 nổi bật với sự cân bằng hiệu suất vượt trội, tính dễ sử dụng đặc biệt và tích hợp vào một hệ sinh thái linh hoạt, được duy trì tốt, khiến nó trở thành lựa chọn được đề xuất cho một loạt các ứng dụng thị giác máy tính.
Ultralytics YOLO11: Hiệu suất và Tính linh hoạt Vượt trội
Ultralytics YOLO11 là mô hình hàng đầu mới nhất từ Ultralytics, được thiết kế bởi Glenn Jocher và Jing Qiu. Được phát hành vào ngày 27 tháng 9 năm 2024, nó được xây dựng dựa trên di sản của những người tiền nhiệm rất thành công như YOLOv8 để thiết lập một tiêu chuẩn mới trong phát hiện đối tượng theo thời gian thực và hơn thế nữa. YOLO11 được thiết kế để có hiệu quả, tính linh hoạt và thân thiện với người dùng tối đa, giúp các nhà phát triển và nhà nghiên cứu ở khắp mọi nơi có thể tiếp cận thị giác máy tính tiên tiến.
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Kiến trúc và các tính năng chính
YOLO11 có kiến trúc không neo, một giai đoạn phức tạp, giúp tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác. Thiết kế mạng lưới được tinh giản giúp giảm số lượng tham số và tải tính toán, dẫn đến tốc độ suy luận nhanh hơn và yêu cầu bộ nhớ thấp hơn. Hiệu quả này làm cho YOLO11 trở nên lý tưởng để triển khai trên các phần cứng khác nhau, từ các thiết bị biên hạn chế về tài nguyên như NVIDIA Jetson đến các máy chủ đám mây mạnh mẽ.
Một trong những thế mạnh lớn nhất của YOLO11 là tính linh hoạt. Nó không chỉ là một mô hình phát hiện đối tượng mà còn là một framework thị giác toàn diện hỗ trợ phân đoạn instance, phân loại ảnh, ước tính tư thế và hộp giới hạn theo hướng (OBB). Khả năng đa nhiệm này được tích hợp liền mạch vào hệ sinh thái Ultralytics, nổi tiếng với sự dễ sử dụng. Với Python API và CLI đơn giản, tài liệu phong phú và một cộng đồng hỗ trợ, các nhà phát triển có thể bắt đầu chỉ trong vài phút. Hệ sinh thái này cũng bao gồm các công cụ như Ultralytics HUB để huấn luyện và triển khai không cần code, giúp giảm bớt rào cản gia nhập.
Điểm mạnh
- Cân bằng hiệu suất vượt trội: Đạt được sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, thường vượt trội hơn so với các đối thủ cạnh tranh với số lượng tham số ít hơn.
- Hiệu quả vượt trội: Được tối ưu hóa cho suy luận tốc độ cao trên cả CPU và GPU, với mức sử dụng bộ nhớ thấp hơn trong quá trình đào tạo và triển khai.
- Tính Linh hoạt Vượt trội: Một framework duy nhất hỗ trợ một loạt các tác vụ thị giác máy tính, cung cấp một giải pháp thống nhất cho các dự án phức tạp.
- Dễ sử dụng: Có trải nghiệm người dùng được tối ưu hóa với API đơn giản, tài liệu đầy đủ và vô số hướng dẫn.
- Hệ sinh thái được duy trì tốt: Hưởng lợi từ quá trình phát triển tích cực, cập nhật thường xuyên, sự hỗ trợ mạnh mẽ từ cộng đồng và tích hợp liền mạch với các công cụ MLOps.
- Efficient Training: Đi kèm với các trọng số được huấn luyện trước có sẵn và các quy trình huấn luyện được tối ưu hóa, cho phép chu kỳ phát triển nhanh hơn.
Điểm yếu
- Là một detector một giai đoạn, nó có thể gặp khó khăn với các đối tượng cực nhỏ trong các cảnh dày đặc so với các detector hai giai đoạn chuyên dụng.
- Các mô hình lớn nhất, như YOLO11x, yêu cầu tài nguyên tính toán đáng kể để đạt được hiệu suất thời gian thực, một đặc điểm chung của các mô hình có độ chính xác cao.
Các Trường hợp Sử dụng
Sự kết hợp giữa tốc độ, độ chính xác và tính linh hoạt của YOLO11 khiến nó trở thành lựa chọn lý tưởng cho một loạt các ứng dụng đòi hỏi khắt khe:
- Tự động hóa công nghiệp: Dành cho kiểm soát chất lượng trong sản xuất và robotics.
- Thành Phố Thông Minh: Cung cấp năng lượng cho giám sát giao thông thời gian thực và hệ thống an ninh công cộng.
- Phân tích bán lẻ: Nâng cao quản lý hàng tồn kho và ngăn chặn trộm cắp.
- Chăm sóc sức khỏe: Hỗ trợ trong phân tích hình ảnh y tế để chẩn đoán nhanh hơn.
PP-YOLOE+: Độ chính xác cao trong hệ sinh thái PaddlePaddle
PP-YOLOE+ là một mô hình phát hiện đối tượng được phát triển bởi Baidu và được phát hành vào năm 2022 như một phần của bộ PaddleDetection. Nó là một detector không neo, một giai đoạn, tập trung vào việc đạt được độ chính xác cao trong khi vẫn duy trì hiệu quả hợp lý, đặc biệt là trong PaddlePaddle framework deep learning.
Tác giả: Nhóm tác giả PaddlePaddle
Tổ chức: Baidu
Ngày: 02-04-2022
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
Tài liệu: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
Kiến trúc và các tính năng chính
PP-YOLOE+ cũng sử dụng thiết kế không cần anchor box để đơn giản hóa detection head. Kiến trúc của nó thường sử dụng các backbone như CSPRepResNet và kết hợp các kỹ thuật như Varifocal Loss và ET-Head hiệu quả để tăng hiệu suất. Mô hình được tối ưu hóa cao cho hệ sinh thái PaddlePaddle, đây là yếu tố thiết kế cốt lõi của nó.
Điểm mạnh và Điểm yếu
PP-YOLOE+ là một trình diễn mạnh mẽ, mang lại điểm số mAP cao, đặc biệt là với các biến thể mô hình lớn hơn của nó. Tuy nhiên, điểm yếu chính của nó nằm ở sự phụ thuộc vào hệ sinh thái. Việc bị ràng buộc với PaddlePaddle có thể tạo ra một đường cong học tập và thách thức tích hợp đáng kể cho phần lớn các nhà phát triển và nhà nghiên cứu làm việc với PyTorch. Hơn nữa, như được hiển thị trong bảng hiệu suất, các mô hình của nó thường yêu cầu nhiều tham số và FLOP hơn đáng kể để đạt được độ chính xác tương đương với YOLO11, làm cho chúng kém hiệu quả về mặt tính toán hơn.
Các Trường hợp Sử dụng
PP-YOLOE+ rất phù hợp cho các ứng dụng mà độ chính xác cao là tối quan trọng và môi trường phát triển đã dựa trên PaddlePaddle.
- Kiểm tra công nghiệp: Phát hiện các khuyết tật trên dây chuyền sản xuất.
- Bán lẻ: Tự động hóa việc kiểm tra và phân tích hàng tồn kho.
- Tái chế: Xác định vật liệu cho phân loại tự động.
Phân tích hiệu năng: YOLO11 so với PP-YOLOE+
Khi so sánh các số liệu hiệu suất, Ultralytics YOLO11 thể hiện một lợi thế rõ ràng về hiệu quả và tốc độ đồng thời mang lại độ chính xác hiện đại.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
- Độ chính xác so với Hiệu quả: YOLO11 liên tục đạt được điểm mAP cao hơn PP-YOLOE+ ở các quy mô mô hình tương tự (ví dụ: YOLO11m so với PP-YOLOE+m). Quan trọng là, nó thực hiện điều này với số lượng tham số và FLOP ít hơn đáng kể. Ví dụ: YOLO11x phù hợp với mAP của PP-YOLOE+x nhưng chỉ với 58% số lượng tham số và ít FLOP hơn, khiến nó trở thành một mô hình hiệu quả hơn nhiều.
- Tốc độ suy luận: YOLO11 nhanh hơn đáng kể trên toàn diện. Trên GPU T4, mọi biến thể YOLO11 đều vượt trội hơn so với đối tác PP-YOLOE+ của nó. Tính khả dụng của các điểm chuẩn CPU cho YOLO11 càng làm nổi bật tính linh hoạt trong triển khai của nó, một lợi thế chính cho các ứng dụng không có GPU chuyên dụng.
Đào tạo, Tính khả dụng và Hệ sinh thái
Vượt xa hiệu suất thô, trải nghiệm của nhà phát triển là nơi Ultralytics YOLO11 thực sự tỏa sáng. Hệ sinh thái Ultralytics được xây dựng trên PyTorch, framework học sâu phổ biến nhất, đảm bảo một cộng đồng lớn, tài nguyên phong phú và hỗ trợ phần cứng rộng rãi. Quá trình huấn luyện, xác thực và triển khai được sắp xếp hợp lý thành các lệnh đơn giản, trực quan.
Ngược lại, PP-YOLOE+ bị giới hạn trong khuôn khổ PaddlePaddle. Mặc dù mạnh mẽ, hệ sinh thái này ít phổ biến hơn, có khả năng dẫn đến кривая học tập dốc hơn, ít tài nguyên do cộng đồng đóng góp hơn và nhiều khó khăn hơn khi tích hợp với các công cụ khác. Quá trình huấn luyện và mức sử dụng bộ nhớ của YOLO11 cũng được tối ưu hóa cao, cho phép thử nghiệm và triển khai nhanh hơn trên nhiều loại phần cứng hơn.
Kết luận: Tại sao YOLO11 là lựa chọn được khuyến nghị
Mặc dù PP-YOLOE+ là một mô hình phát hiện đối tượng đáng khen ngợi, Ultralytics YOLO11 là lựa chọn vượt trội cho phần lớn các trường hợp sử dụng. Nó cung cấp một gói hấp dẫn hơn về độ chính xác hiện đại, tốc độ suy luận vượt trội và hiệu quả tính toán nổi bật.
Những ưu điểm chính của YOLO11 là:
- Better Overall Performance: Độ chính xác cao hơn với ít tài nguyên tính toán hơn.
- Tính linh hoạt cao hơn: Một framework duy nhất, thống nhất cho nhiều tác vụ thị giác.
- Sự Dễ Dàng Sử Dụng Vượt Bậc: Một API và hệ sinh thái thân thiện với người dùng giúp tăng tốc quá trình phát triển.
- Cộng đồng và Hỗ trợ rộng lớn hơn: Được xây dựng trên PyTorch và được hỗ trợ bởi đội ngũ Ultralytics và cộng đồng năng động.
Đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một mô hình AI thị giác mạnh mẽ, linh hoạt và dễ sử dụng, YOLO11 là người chiến thắng rõ ràng, cho phép tạo ra các ứng dụng tiên tiến với tốc độ và hiệu quả cao hơn.
Khám phá các Mô hình Khác
Nếu bạn đang khám phá các kiến trúc khác nhau, bạn cũng có thể quan tâm đến các mô hình hiện đại khác có sẵn trong hệ sinh thái Ultralytics. Hãy xem các trang so sánh khác của chúng tôi: