YOLO11 So sánh kỹ thuật giữa EfficientDet và các kiến trúc thị giác máy tính khác.
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của dự án. Bài so sánh này khám phá những khác biệt kỹ thuật giữa Ultralytics YOLO11 , một bộ phát hiện thời gian thực tiên tiến được ra mắt vào cuối năm 2024, và Google EfficientDet , một kiến trúc có tầm ảnh hưởng lớn từ năm 2019 đã giới thiệu khả năng mở rộng phức hợp vào lĩnh vực này.
Mặc dù EfficientDet đã thiết lập các tiêu chuẩn về hiệu quả tham số ngay từ khi ra mắt, YOLO11 Đây là kết quả của nhiều năm đổi mới liên tục, tập trung vào việc tối đa hóa tốc độ suy luận, độ chính xác và tính khả dụng cho các ứng dụng AI biên và đám mây hiện đại.
Mẫu xe đời mới hơn hiện có sẵn
Trong khi YOLO11 Là một mô hình mạnh mẽ, Ultralytics YOLO26 (phát hành tháng 1 năm 2026) hiện là lựa chọn tiên tiến được khuyến nghị cho các dự án mới. YOLO26 cung cấp giải pháp toàn diện từ đầu đến cuối. NMS - Thiết kế miễn phí, suy luận nhanh hơn và độ chính xác được cải thiện.
Các chỉ số hiệu suất và phân tích
Bảng sau đây trình bày sự so sánh trực tiếp các chỉ số hiệu suất trên tập dữ liệu COCO . Các chỉ số chính bao gồm Độ chính xác trung bình (Mean Average Precision) ( mAP ) về độ chính xác, tốc độ suy luận (độ trễ) trên các phần cứng khác nhau, kích thước mô hình (tham số) và độ phức tạp tính toán (FLOPs).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Những Điểm Chính
- Độ trễ suy luận: Ultralytics YOLO11 vượt trội hơn hẳn EfficientDet về độ trễ. Ví dụ, YOLO11x đạt độ chính xác cao hơn (54,7). mAP ) hơn EfficientDet-d7 (53,7 mAP ) trong khi hoạt động nhanh hơn hơn 10 lần trên T4 GPU (11,3ms so với 128,07ms).
- Hiệu quả kiến trúc: Trong khi EfficientDet tối ưu hóa cho FLOPs (các phép toán dấu phẩy động), YOLO11 Được tối ưu hóa cho việc sử dụng phần cứng. Điều này làm nổi bật một sự khác biệt quan trọng trong các chỉ số hiệu suất AI : số phép tính FLOP thấp hơn không phải lúc nào cũng đồng nghĩa với tốc độ suy luận thực tế nhanh hơn do chi phí truy cập bộ nhớ và các hạn chế về song song hóa.
- Khả năng mở rộng của mô hình: YOLO11 cung cấp một đường cong tỷ lệ thực tế hơn. Mô hình "nano" (YOLO11n) cung cấp tỷ lệ sử dụng được là 39,5. mAP với tốc độ đáng kinh ngạc, trong khi EfficientDet-d0 nhỏ nhất lại chậm hơn với tốc độ 34,6. mAP .
Ultralytics YOLO11 Kiến trúc và Đặc điểm
Ultralytics YOLO11 xây dựng dựa trên di sản của YOLO (Bạn Chỉ Nhìn Một Lần) là một dự án tinh chỉnh kiến trúc cho kỷ nguyên hiện đại của thị giác máy tính. Nó mang đến những thay đổi đáng kể cho phần xương sống và cổ để tăng cường khả năng trích xuất đặc trưng và tốc độ xử lý.
Những cải tiến đáng chú ý về kiến trúc bao gồm khối C3k2 , một phiên bản tinh chỉnh của nút thắt cổ chai Cross Stage Partial (CSP) được sử dụng trong các phiên bản trước, và mô-đun C2PSA (Cross Stage Partial Spatial Attention). Các thành phần này cho phép mô hình nắm bắt các mẫu và ngữ cảnh phức tạp trong hình ảnh với ít tham số hơn.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2024-09-27
- GitHub:ultralytics/ultralytics
- Tài liệu:Tài liệu YOLO11
Điểm mạnh của YOLO11
- Hệ sinh thái thống nhất: YOLO11 Đây không chỉ là một mô hình phát hiện; nó còn hỗ trợ phân đoạn đối tượng , ước lượng tư thế , OBB và phân loại ngay từ đầu.
- Sẵn sàng triển khai: Với chế độ xuất tích hợp sẵn, người dùng có thể chuyển đổi mô hình sang định dạng khác. ONNX , TensorRT , CoreML , Và TFLite Chỉ với một lệnh duy nhất, đảm bảo triển khai liền mạch lên các thiết bị di động và thiết bị biên.
- Hiệu quả đào tạo: YOLO11 Hệ thống này huấn luyện nhanh hơn đáng kể so với các kiến trúc cũ hơn như EfficientDet, nhờ sử dụng các quy trình tăng cường dữ liệu hiện đại và các hàm mất mát được tối ưu hóa.
Google EfficientDet: Kiến trúc và Di sản
EfficientDet, được phát triển bởi Google Nhóm nghiên cứu Brain đã giới thiệu khái niệm Mở rộng Hợp chất (Compound Scaling) vào phát hiện đối tượng. Thay vì thiết kế thủ công các mô hình lớn hơn, các tác giả đã đề xuất một phương pháp để mở rộng độ phân giải, độ sâu và chiều rộng của mạng đồng thời.
Cốt lõi của EfficientDet là BiFPN (Bi-directional Feature Pyramid Network), cho phép dễ dàng kết hợp các đặc trưng ở nhiều quy mô khác nhau. Nó sử dụng kiến trúc xương sống EfficientNet, cũng được thiết kế bằng cách sử dụng Tìm kiếm Kiến trúc Thần kinh (Neural Architecture Search - NAS).
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức: Google
- Ngày: 2019-11-20
- Arxiv:1911.09070
- GitHub:google/automl
Điểm mạnh và hạn chế
- Hiệu quả tham số: EfficientDet nổi tiếng về khả năng đạt độ chính xác cao với rất ít tham số.
- Hiệu quả lý thuyết: Mặc dù có số phép tính FLOPs thấp, các kết nối phức tạp trong lớp BiFPN có thể tốn nhiều bộ nhớ và thực thi chậm hơn trên GPU so với các đường dẫn tích chập đơn giản. YOLO .
- Tính linh hoạt hạn chế: Kho lưu trữ gốc chủ yếu tập trung vào phát hiện, thiếu tính linh hoạt đa nhiệm vốn có (phân đoạn, tư thế, OBB) được tìm thấy trong... Ultralytics khung.
Phân tích so sánh: Tại sao nên chọn Ultralytics ?
Khi so sánh hai mô hình này cho môi trường sản xuất năm 2025 và 2026, ưu điểm của mô hình kia sẽ rõ rệt hơn. Ultralytics Hệ sinh thái trở nên rõ ràng hơn.
Dễ sử dụng và trải nghiệm dành cho nhà phát triển
Ultralytics Ưu tiên trải nghiệm người dùng mượt mà. Triển khai YOLO11 chỉ cần một vài dòng mã Python trong khi đó, việc sử dụng EfficientDet thường liên quan đến việc điều hướng qua các cơ sở mã nguồn cũ phức tạp hoặc TensorFlow cấu hình.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Hệ sinh thái được duy trì tốt
Cái Ultralytics Hệ sinh thái được duy trì tích cực với các bản cập nhật thường xuyên. Các vấn đề được nêu ra trên GitHub được giải quyết nhanh chóng và cộng đồng hỗ trợ rất rộng lớn. Ngược lại, các kho lưu trữ nghiên cứu cũ hơn như EfficientDet phiên bản gốc thường ít được cập nhật, khiến việc duy trì chúng trong các dự án thương mại dài hạn trở nên khó khăn hơn.
Cân bằng Hiệu suất và Bộ nhớ
YOLO11 Đạt được sự cân bằng vượt trội giữa tốc độ và độ chính xác. Các lựa chọn kiến trúc trong YOLO11 sự ưu ái GPU Tính song song, dẫn đến thời gian suy luận thực tế nhanh hơn ngay cả khi số phép tính FLOP lý thuyết cao hơn EfficientDet. Hơn nữa, Ultralytics Các mô hình được tối ưu hóa để sử dụng ít bộ nhớ hơn trong quá trình huấn luyện, cho phép người dùng huấn luyện các mô hình hiệu quả trên GPU cấp độ người tiêu dùng, không giống như nhiều giải pháp thay thế dựa trên Transformer yêu cầu lượng VRAM khổng lồ.
Tính linh hoạt trên nhiều tác vụ
Mặc dù EfficientDet chủ yếu là một công cụ phát hiện đối tượng, YOLO11 Nó đóng vai trò là nền tảng cho nhiều nhiệm vụ khác nhau. Tính linh hoạt này giúp giảm bớt nhu cầu phải học các framework khác nhau cho các vấn đề khác nhau.
Một khuôn khổ, nhiều nhiệm vụ
- Phát hiện: Xác định các đối tượng và vị trí của chúng.
- Phân đoạn: Hiểu biết về đối tượng ở cấp độ pixel.
- Ước lượng tư thế: Phát hiện các điểm mấu chốt trên cơ thể người.
- Hộp giới hạn định hướng (OBB): Phát hiện các đối tượng xoay như tàu thuyền trong ảnh chụp từ trên không.
- Phân loại: Phân loại toàn bộ hình ảnh một cách hiệu quả.
Kết luận
Cả hai kiến trúc đều đại diện cho những cột mốc quan trọng trong lịch sử thị giác máy tính. EfficientDet đã chứng minh sức mạnh của Tìm kiếm Kiến trúc Mạng thần kinh và khả năng mở rộng phức hợp. Tuy nhiên, đối với các ứng dụng thực tế hiện nay, Ultralytics YOLO11 là lựa chọn vượt trội hơn. Nó cung cấp tốc độ suy luận nhanh hơn, độ chính xác cao hơn và một hệ sinh thái thân thiện với nhà phát triển, giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường.
Đối với các nhà phát triển đang tìm kiếm hiệu năng tiên tiến nhất, chúng tôi khuyên bạn nên tìm hiểu YOLO26 , được xây dựng dựa trên những thành công của các nền tảng trước đó. YOLO11 với hiệu quả cao hơn nữa và NMS - Thiết kế miễn phí. Những người quan tâm đến các phương pháp dựa trên transformer cũng có thể xem xét RT-DETR để nhận biết ngữ cảnh toàn cầu.
Khám phá toàn bộ tiềm năng của trí tuệ nhân tạo thị giác bằng cách truy cập Nền tảng Ultralytics để huấn luyện, triển khai và quản lý các mô hình của bạn trên đám mây.