YOLO11 so với EfficientDet: So Sánh Kỹ Thuật Chi Tiết
Trang này cung cấp so sánh kỹ thuật chi tiết giữa Ultralytics YOLO11 và EfficientDet, hai mô hình phát hiện đối tượng nổi bật. Chúng tôi phân tích kiến trúc, điểm chuẩn hiệu suất và tính phù hợp của chúng cho các ứng dụng khác nhau để hỗ trợ bạn lựa chọn mô hình tối ưu cho nhu cầu thị giác máy tính của bạn. Mặc dù cả hai mô hình đều hướng đến mục tiêu phát hiện đối tượng hiệu quả và chính xác, nhưng chúng xuất phát từ các dòng nghiên cứu khác nhau (Ultralytics và Google) và sử dụng các triết lý kiến trúc khác biệt.
Ultralytics YOLO11
Ultralytics YOLO11 đại diện cho sự tiến bộ mới nhất trong series YOLO (You Only Look Once), được phát triển bởi Ultralytics và nổi tiếng với khả năng nhận diện đối tượng trong thời gian thực vượt trội. Nó được xây dựng dựa trên thành công của các phiên bản tiền nhiệm như YOLOv8, tập trung vào việc nâng cao cả độ chính xác và hiệu quả tính toán.
Chi tiết kỹ thuật:
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: https://docs.ultralytics.com/models/yolo11/
Kiến trúc và các tính năng chính
YOLO11 sử dụng kiến trúc một giai đoạn, không neo được tối ưu hóa cho tốc độ và độ chính xác. Các tính năng chính bao gồm các lớp trích xuất đặc trưng được tinh chỉnh và cấu trúc mạng hợp lý, giảm số lượng tham số và tải tính toán. Thiết kế này đảm bảo hiệu suất tuyệt vời trên các phần cứng khác nhau, từ thiết bị biên (NVIDIA Jetson, Raspberry Pi) đến máy chủ đám mây.
Một ưu điểm lớn của YOLO11 là tính linh hoạt và tích hợp của nó trong hệ sinh thái Ultralytics. Nó hỗ trợ nhiều tác vụ ngoài phát hiện đối tượng, bao gồm phân vùng thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn có hướng (OBB). Framework Ultralytics cung cấp API Python và CLI đơn giản, tài liệu mở rộng, trọng số được huấn luyện trước có sẵn và quy trình huấn luyện hiệu quả với yêu cầu bộ nhớ thấp hơn so với nhiều kiến trúc khác. Hệ sinh thái được hưởng lợi từ quá trình phát triển tích cực, hỗ trợ cộng đồng mạnh mẽ và tích hợp liền mạch với các công cụ như Ultralytics HUB để MLOps được sắp xếp hợp lý.
Điểm mạnh
- Tốc độ và hiệu quả cao: Tốc độ suy luận tuyệt vời, lý tưởng cho các ứng dụng thời gian thực.
- Độ chính xác cao: Đạt được điểm số mAP hiện đại nhất trên các kích thước mô hình.
- Tính linh hoạt: Hỗ trợ các tác vụ phát hiện, phân vùng, phân loại, dáng điệu và OBB trong một khuôn khổ duy nhất.
- Dễ sử dụng: API đơn giản, tài liệu toàn diện và hệ sinh thái thân thiện với người dùng.
- Hệ sinh thái được duy trì tốt: Được phát triển tích cực, cộng đồng mạnh mẽ, cập nhật thường xuyên và các công cụ như Ultralytics HUB.
- Hiệu quả huấn luyện: Thời gian huấn luyện nhanh hơn và sử dụng bộ nhớ thấp hơn so với nhiều lựa chọn thay thế.
- Deployment Flexibility (Tính linh hoạt khi triển khai): Được tối ưu hóa cho phần cứng đa dạng từ edge đến cloud.
Điểm yếu
- Các mô hình nhỏ hơn ưu tiên tốc độ, điều này có thể liên quan đến sự đánh đổi về độ chính xác tối đa có thể đạt được so với các biến thể lớn nhất.
- Là một detector một giai đoạn, có thể gặp khó khăn với các đối tượng cực nhỏ trong một số cảnh phức tạp nhất định.
Các trường hợp sử dụng lý tưởng
YOLO11 vượt trội trong các ứng dụng đòi hỏi hiệu suất thời gian thực và độ chính xác cao:
- Hệ thống tự động: Robot học và xe tự lái.
- An ninh: Hệ thống giám sát và phòng chống trộm cắp.
- Tự động hóa công nghiệp: Kiểm soát chất lượng và nâng cao hiệu quả tái chế.
- Bán lẻ: Quản lý hàng tồn kho và phân tích khách hàng.
EfficientDet của Google
EfficientDet là một họ các mô hình phát hiện đối tượng được giới thiệu bởi nhóm Google Brain. Nó được thiết kế để đạt được hiệu quả cao bằng cách tối ưu hóa sự đánh đổi giữa độ chính xác và tài nguyên tính toán (tham số và FLOP).
Chi tiết kỹ thuật:
- Tác giả: Mingxing Tan, Ruoming Pang, Quoc V. Le
- Tổ chức: Google
- Date: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- Tài liệu: https://github.com/google/automl/tree/master/efficientdet#readme
Kiến trúc và các tính năng chính
Kiến trúc của EfficientDet được xây dựng dựa trên ba đổi mới chính:
- EfficientNet Backbone: Sử dụng EfficientNet hiệu quả cao làm backbone để trích xuất đặc trưng.
- BiFPN (Mạng lưới Kim tự tháp Đặc trưng Hai hướng): Một mạng lưới đặc trưng mới cho phép hợp nhất đặc trưng đa tỷ lệ đơn giản và nhanh chóng, cải thiện các FPN truyền thống bằng cách thêm các kết nối có trọng số.
- Compound Scaling: Một phương pháp điều chỉnh đồng đều độ sâu, độ rộng và độ phân giải cho backbone, mạng đặc trưng và mạng dự đoán hộp/lớp. Điều này cho phép mô hình được điều chỉnh từ các biến thể nhỏ (D0) đến lớn (D7) để phù hợp với các giới hạn tài nguyên khác nhau.
Điểm mạnh
- Hiệu quả cao về tham số: Cung cấp độ chính xác cao với số lượng tham số và FLOP tương đối thấp.
- Khả năng mở rộng: Phương pháp mở rộng hỗn hợp cung cấp một lộ trình rõ ràng để điều chỉnh mô hình cho các mục tiêu hiệu suất khác nhau.
- Hiệu suất chuẩn mạnh mẽ: Đạt được kết quả hiện đại nhất trên tập dữ liệu COCO vào thời điểm phát hành.
Điểm yếu
- Tốc độ suy luận chậm hơn: Mặc dù hiệu quả về FLOP, EfficientDet thường có độ trễ suy luận cao hơn so với các mô hình YOLO, đặc biệt là trên GPU, khiến nó kém phù hợp hơn cho nhiều ứng dụng thời gian thực.
- Tính linh hoạt hạn chế: Được thiết kế chủ yếu cho phát hiện đối tượng và thiếu sự hỗ trợ gốc cho các tác vụ khác như phân đoạn thể hiện, ước tính tư thế hoặc OBB được tích hợp vào framework Ultralytics YOLO.
- Hệ sinh thái ít tích hợp hơn: Kho lưu trữ gốc chủ yếu là một sản phẩm nghiên cứu. Nó thiếu tài liệu toàn diện, API đơn giản và các công cụ tích hợp như Ultralytics HUB giúp đơn giản hóa quy trình làm việc từ đầu đến cuối, từ đào tạo đến triển khai.
- Phụ thuộc Framework: Triển khai chính thức bằng TensorFlow, điều này có thể là một hạn chế đối với các nhà phát triển và nhà nghiên cứu chủ yếu làm việc trong hệ sinh thái PyTorch.
Các trường hợp sử dụng lý tưởng
EfficientDet rất phù hợp cho các tình huống mà kích thước mô hình và chi phí tính toán lý thuyết là những hạn chế quan trọng nhất:
- Edge AI: Triển khai trên các thiết bị di động hoặc nhúng, nơi bộ nhớ và sức mạnh xử lý bị hạn chế nghiêm trọng.
- Nghiên cứu học thuật: Nghiên cứu các quy luật mở rộng mô hình và hiệu quả kiến trúc.
- Các ứng dụng đám mây: Các tình huống trong đó giảm thiểu chi phí tính toán trên mỗi lần suy luận quan trọng hơn đạt được độ trễ thấp nhất có thể.
Hiệu năng và điểm chuẩn: YOLO11 so với EfficientDet
Khi so sánh hiệu suất, điều quan trọng là phải xem xét không chỉ mAP. Mặc dù cả hai họ mô hình đều cung cấp một loạt các mức độ chính xác, YOLO11 được thiết kế để có tốc độ thực tế vượt trội. Bảng dưới đây cho thấy rằng đối với một mAP tương tự, các mô hình YOLO11 nhanh hơn đáng kể, đặc biệt khi được tăng tốc với TensorRT trên GPU.
Ví dụ: YOLO11m đạt được cùng mAP 51,5 như EfficientDet-d5 nhưng nhanh hơn 14 lần trên GPU T4 (4,7 ms so với 67,86 ms) và sử dụng ít hơn 40% tham số. Điều này làm nổi bật sự cân bằng vượt trội giữa độ chính xác, tốc độ và kích thước mô hình của YOLO11, khiến nó trở thành một lựa chọn thiết thực hơn nhiều cho các ứng dụng yêu cầu xử lý theo thời gian thực.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Kết luận: Bạn nên chọn mô hình nào?
Mặc dù EfficientDet là một bước tiến quan trọng trong hiệu quả của mô hình, Ultralytics YOLO11 đại diện cho một giải pháp hiện đại, thiết thực và mạnh mẽ hơn cho phần lớn các ứng dụng thị giác máy tính.
-
Chọn EfficientDet nếu ràng buộc chính của bạn là giảm thiểu FLOP lý thuyết hoặc số lượng tham số và bạn cảm thấy thoải mái khi làm việc trong framework định hướng nghiên cứu của nó.
-
Chọn Ultralytics YOLO11 cho hầu hết các trường hợp khác. Sự cân bằng vượt trội giữa tốc độ và độ chính xác, tính linh hoạt đáng kinh ngạc trên nhiều tác vụ thị giác và dễ sử dụng khiến nó trở thành lựa chọn dứt khoát cho các nhà phát triển và nhà nghiên cứu. Hệ sinh thái được duy trì tốt, bao gồm tài liệu toàn diện, hỗ trợ cộng đồng tích cực và các công cụ như Ultralytics HUB, đảm bảo trải nghiệm phát triển và triển khai suôn sẻ, từ thử nghiệm ban đầu đến sản xuất ở quy mô lớn.
So sánh các mô hình khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến YOLO11 và các mô hình liên quan khác sau:
- So sánh YOLO11 và YOLOv10
- So sánh YOLO11 và YOLOv9
- So sánh YOLO11 và YOLOv8
- So sánh YOLO11 và YOLOv7
- YOLO11 so với RT-DETR
- YOLOX so sánh với EfficientDet
- YOLOv8 so sánh với EfficientDet