Link to this sectionYOLO11 so với EfficientDet#
Việc lựa chọn mạng thần kinh tối ưu cho các dự án computer vision đòi hỏi sự hiểu biết sâu sắc về các kiến trúc hiện có. Hướng dẫn này cung cấp một bản so sánh kỹ thuật chuyên sâu giữa Ultralytics YOLO11 và EfficientDet của Google. Chúng ta sẽ khám phá sự khác biệt về kiến trúc, performance metrics, hiệu quả huấn luyện và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho khối lượng công việc machine learning của mình.
Link to this sectionBối cảnh và thông số kỹ thuật của mô hình#
Cả hai mô hình đều có tác động đáng kể đến bối cảnh deep learning, mặc dù chúng bắt nguồn từ các triết lý thiết kế và thời kỳ phát triển AI khác nhau.
Link to this sectionChi tiết về YOLO11#
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Link to this sectionChi tiết về EfficientDet#
Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google
Ngày: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Tài liệu: https://github.com/google/automl/tree/master/efficientdet#readme
Khi làm việc với các mô hình computer vision, hệ sinh thái xung quanh cũng quan trọng không kém bản thân mô hình đó. Ultralytics ecosystem mang lại trải nghiệm nhà phát triển tuyệt vời, cung cấp tài liệu phong phú, hỗ trợ cộng đồng tích cực và khả năng xuất mô hình liền mạch sang các định dạng như ONNX và TensorRT.
Link to this sectionCải tiến kiến trúc#
Link to this sectionEfficientDet: BiFPN và Compound Scaling#
Được giới thiệu vào cuối năm 2019, EfficientDet hướng tới việc tối đa hóa độ chính xác đồng thời giảm thiểu chi phí tính toán. Nó đạt được điều này chủ yếu thông qua hai cơ chế. Thứ nhất, nó sử dụng backbone EfficientNet giúp mở rộng quy mô độ sâu, chiều rộng và độ phân giải một cách nhất quán. Thứ hai, nó giới thiệu Bi-directional Feature Pyramid Network (BiFPN), cho phép feature fusion đa quy mô nhanh chóng và dễ dàng.
Mặc dù rất hiệu quả vào thời điểm ra mắt, sự phụ thuộc của EfficientDet vào thư viện AutoML của TensorFlow có thể khiến nó trở nên cứng nhắc. Các nhà nghiên cứu thường thấy việc model pruning và tùy chỉnh sửa đổi trở nên khó khăn hơn so với các framework hiện đại, có tính mô-đun dựa trên PyTorch.
Link to this sectionYOLO11: Tăng cường trích xuất đặc trưng và tính linh hoạt#
YOLO11 đại diện cho một bước tiến đáng kể trong object detection architectures. Nó được xây dựng dựa trên sự thành công của các phiên bản tiền nhiệm, giới thiệu các khối C3k2 tinh chỉnh và mô-đun Spatial Pyramid Pooling cải tiến. Những cải tiến này dẫn đến khả năng feature extraction vượt trội, cho phép YOLO11 nắm bắt các mẫu hình ảnh phức tạp với độ rõ nét đặc biệt.
Một lợi thế lớn của YOLO11 là tính linh hoạt. Trong khi EfficientDet hoàn toàn là một mô hình object detection, YOLO11 hỗ trợ nguyên bản instance segmentation, image classification, pose estimation và oriented bounding boxes (OBB). Hơn nữa, YOLO11 tự hào về yêu cầu bộ nhớ cực kỳ thấp trong cả quá trình huấn luyện và inference, khiến nó vượt trội hoàn toàn so với các mô hình cũ và các vision transformers cồng kềnh khi triển khai trong các môi trường edge AI hạn chế về tài nguyên.
Link to this sectionHiệu năng và Benchmark#
Sự cân bằng giữa độ chính xác, được đo bằng mean Average Precision (mAP), và tốc độ inference là yếu tố quyết định quan trọng cho việc triển khai thực tế. Bảng dưới đây minh họa hiệu suất thô của cả hai dòng mô hình trên COCO dataset tiêu chuẩn.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Như đã thấy, YOLO11 đạt được sự cân bằng hiệu suất rất thuận lợi. YOLO11x đạt độ chính xác tổng thể cao nhất (54.7 mAP), trong khi các biến thể YOLO11 nhỏ hơn hoàn toàn vượt trội về tốc độ inference trên GPU (thấp tới 1.5ms trên T4 sử dụng TensorRT).
Link to this sectionHiệu quả huấn luyện và hệ sinh thái#
Một trong những đặc điểm định hình các mô hình Ultralytics là tính dễ sử dụng. Việc huấn luyện một mô hình EfficientDet thường đòi hỏi phải điều hướng qua các cấu hình đồ thị TensorFlow phức tạp và quản lý các chuỗi phụ thuộc rắc rối. Ngược lại, YOLO11 được xây dựng trên nền tảng PyTorch sạch sẽ và hiện đại.
Điều này hệ sinh thái được duy trì tốt đồng nghĩa với việc các nhà phát triển có thể cài đặt package, tải mô hình đã được huấn luyện trước và bắt đầu huấn luyện trên một dataset tùy chỉnh chỉ với vài dòng code.
Link to this sectionVí dụ mã Python#
Đây là một ví dụ hoàn chỉnh có thể chạy được, minh họa sự đơn giản của Ultralytics API. Script này tải xuống một mô hình YOLO11 được huấn luyện trước, huấn luyện nó và chạy dự đoán nhanh.
from ultralytics import YOLO
# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")
# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")
# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the output bounding boxes
prediction[0].show()Link to this sectionHướng tới tương lai: Lợi thế của YOLO26#
Mặc dù YOLO11 cực kỳ mạnh mẽ, các đội ngũ bắt đầu các dự án mới nên cân nhắc kỹ Ultralytics YOLO26, ra mắt vào tháng 1 năm 2026. YOLO26 đại diện cho một sự thay đổi mô hình trong sự đơn giản khi triển khai và hiệu suất ở môi trường edge.
Những cải tiến chính của YOLO26 bao gồm:
- Thiết kế End-to-End NMS-Free: Bằng cách loại bỏ Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, YOLO26 đảm bảo độ trễ thấp, ổn định, rất quan trọng cho các ứng dụng robotics tốc độ cao và xe tự lái.
- Inference trên CPU nhanh hơn tới 43%: Đối với các triển khai thiếu GPU chuyên dụng, YOLO26 được tối ưu hóa đặc biệt để tối đa hóa lưu lượng xử lý trên các bộ xử lý tiêu chuẩn.
- MuSGD Optimizer: Lấy cảm hứng từ Kimi K2 của Moonshot AI, bộ tối ưu hóa lai này mang lại sự ổn định khi huấn luyện LLM cho lĩnh vực computer vision, cho phép hội tụ nhanh hơn.
- ProgLoss + STAL: Các hàm mất mát cải tiến này giúp tăng cường đáng kể khả năng nhận dạng các vật thể nhỏ, vốn thường là điểm đau đầu trong satellite image analysis và phân tích cảnh quay từ drone.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp hợp lý hóa quy trình xuất mô hình sang các thiết bị edge.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLO11 và EfficientDet phụ thuộc vào các yêu cầu cụ thể của dự án, các hạn chế khi triển khai và ưu tiên về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLO11#
YOLO11 là lựa chọn mạnh mẽ cho:
- Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
- Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
- Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.
Link to this sectionKhi nào nên chọn EfficientDet#
EfficientDet được khuyến nghị cho:
- Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
- Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
- Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKết luận#
EfficientDet từng là một kiến trúc tiên phong chứng minh tính khả thi của việc compound scaling trong object detection. Tuy nhiên, tốc độ phát triển nhanh chóng của nghiên cứu AI đã mang đến các mô hình có năng lực hơn, dễ tích hợp hơn và chạy nhanh hơn.
Với khả năng đa nhiệm mạnh mẽ, tốc độ inference trên GPU đáng kinh ngạc và có lẽ là API thân thiện với nhà phát triển nhất trong ngành, YOLO11 là người chiến thắng rõ ràng cho các pipeline thị giác hiện đại. Đối với những ai nhắm tới công nghệ tiên tiến nhất—đặc biệt là cho các triển khai edge-first—việc nâng cấp lên YOLO26 cung cấp sự kết hợp tối ưu giữa tốc độ NMS-free và độ chính xác vượt trội.