YOLO11 So sánh kỹ thuật toàn diện giữa EfficientDet và EfficientDet

Việc lựa chọn mạng nơ-ron tối ưu cho các dự án thị giác máy tính đòi hỏi sự hiểu biết sâu sắc về các kiến trúc hiện có. Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu giữa Ultralytics YOLO11 và Google EfficientDet của 's. Chúng ta sẽ cùng tìm hiểu những khác biệt về kiến trúc, các chỉ số hiệu suất , hiệu quả huấn luyện và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho khối lượng công việc học máy của mình.

Thông tin nền và thông số kỹ thuật của mô hình

Cả hai mô hình đều có tác động đáng kể đến lĩnh vực học sâu, mặc dù chúng bắt nguồn từ các triết lý thiết kế và kỷ nguyên phát triển AI khác nhau.

YOLO11 Chi tiết

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/

Tìm hiểu thêm về YOLO11

Chi tiết EfficientDet

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google
Ngày: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
Tài liệu: https://github.com/google/automl/tree/master/efficientdet#readme

Tìm hiểu thêm về EfficientDet

Lợi thế hệ sinh thái

Khi làm việc với các mô hình thị giác máy tính, hệ sinh thái xung quanh cũng quan trọng không kém gì chính mô hình đó. Hệ sinh thái Ultralytics cung cấp trải nghiệm phát triển vượt trội, với tài liệu đầy đủ, hỗ trợ cộng đồng tích cực và khả năng xuất dữ liệu liền mạch sang các định dạng như ONNX và TensorRT .

Đổi mới Kiến trúc

EfficientDet: BiFPN và mở rộng quy mô phức hợp

Được giới thiệu vào cuối năm 2019, EfficientDet hướng đến mục tiêu tối đa hóa độ chính xác đồng thời giảm thiểu chi phí tính toán. Nó đạt được điều này chủ yếu thông qua hai cơ chế. Thứ nhất, nó sử dụng kiến trúc xương sống EfficientNet giúp mở rộng độ sâu, chiều rộng và độ phân giải một cách nhất quán. Thứ hai, nó giới thiệu Mạng kim tự tháp đặc trưng hai chiều (BiFPN), cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng.

Mặc dù rất hiệu quả vào thời điểm đó, sự phụ thuộc của EfficientDet vào... TensorFlow Thư viện AutoML có thể khiến nó trở nên cứng nhắc. Các nhà nghiên cứu thường thấy việc cắt tỉa mô hình và tùy chỉnh sửa đổi khó khăn hơn so với các phương pháp hiện đại, có tính mô-đun cao. PyTorch các khuôn khổ dựa trên.

YOLO11 Khả năng trích xuất tính năng được nâng cao và tính linh hoạt

YOLO11 Nó đại diện cho một bước tiến đáng kể trong kiến trúc phát hiện đối tượng . Nó được xây dựng dựa trên những thành công của các thế hệ trước, giới thiệu các khối C3k2 được tinh chỉnh và mô-đun Spatial Pyramid Pooling được cải tiến. Những cải tiến này dẫn đến khả năng trích xuất đặc trưng vượt trội, cho phép YOLO11 Để ghi lại những họa tiết hình ảnh phức tạp với độ rõ nét vượt trội.

Một lợi thế lớn của YOLO11 là tính linh hoạt của nó. Trong khi EfficientDet chỉ là một mô hình phát hiện đối tượng, YOLO11 hỗ trợ nguyên bản phân đoạn đối tượng, phân loại hình ảnh, ước tính tư thế và hộp giới hạn định hướng (OBB). Hơn nữa, YOLO11 tự hào có yêu cầu bộ nhớ cực thấp trong cả quá trình huấn luyện và suy luận, khiến nó vượt trội hơn hẳn so với các mô hình cũ hơn và các transformer thị giác cồng kềnh khi triển khai trong các môi trường AI biên bị hạn chế tài nguyên.

Hiệu năng và điểm chuẩn

Sự cân bằng giữa độ chính xác, được đo bằng Độ chính xác trung bình ( mAP ) , và tốc độ suy luận là yếu tố quyết định quan trọng đối với các triển khai thực tế. Bảng dưới đây minh họa hiệu năng thô của cả hai nhóm mô hình trên tập dữ liệu COCO tiêu chuẩn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Như đã trình bày, YOLO11 đạt được cân bằng hiệu suất rất thuận lợi. YOLO11x đạt độ chính xác tổng thể cao nhất (54.7 mAP), trong khi các biến thể YOLO11 nhỏ hơn hoàn toàn vượt trội về tốc độ suy luận GPU (chỉ 1.5ms trên T4 sử dụng TensorRT).

Hiệu quả huấn luyện và hệ sinh thái

Một trong những đặc điểm xác định của Ultralytics Ưu điểm của các mô hình này là tính dễ sử dụng . Việc huấn luyện một mô hình EfficientDet thường đòi hỏi phải điều hướng qua các giao diện phức tạp. TensorFlow cấu hình đồ thị và quản lý các chuỗi phụ thuộc phức tạp. Ngược lại hoàn toàn, YOLO11 Được xây dựng trên nền tảng PyTorch sạch sẽ và hiện đại.

Hệ sinh thái được duy trì tốt này có nghĩa là các nhà phát triển có thể cài đặt gói, tải mô hình đã được huấn luyện sẵn và bắt đầu huấn luyện trên tập dữ liệu tùy chỉnh chỉ với một vài dòng mã.

Ví dụ mã Python

Dưới đây là một ví dụ hoàn chỉnh có thể chạy được, minh họa sự đơn giản của... Ultralytics API. Tập lệnh này tải xuống một mô hình đã được huấn luyện trước. YOLO11 Mô hình, huấn luyện nó và chạy một dự đoán nhanh.

from ultralytics import YOLO

# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")

# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")

# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the output bounding boxes
prediction[0].show()

Hướng tới tương lai: Lợi thế của YOLO26

Trong khi YOLO11 Với sức mạnh vượt trội, các nhóm bắt đầu các dự án mới hoàn toàn nên cân nhắc kỹ Ultralytics YOLO26 , được phát hành vào tháng 1 năm 2026. YOLO26 đại diện cho một bước đột phá về sự đơn giản trong triển khai và hiệu năng tại biên.

Các cải tiến quan trọng của YOLO26 bao gồm:

Thiết kế đầu cuối không NMS: Bằng cách loại bỏ Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, YOLO26 đảm bảo độ trễ cực thấp, nhất quán, điều này rất quan trọng đối với robotics tốc độ cao và lái xe tự hành.
Tăng tốc suy luận trên CPU lên đến 43%: Đối với các triển khai thiếu GPU chuyên dụng, YOLO26 được tối ưu hóa đặc biệt để tối đa hóa thông lượng trên các bộ xử lý tiêu chuẩn.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, trình tối ưu hóa lai này mang sự ổn định trong huấn luyện LLM đến thị giác máy tính, cho phép hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát được cải tiến này tăng cường đáng kể khả năng nhận diện vật thể nhỏ, điều này thường là một vấn đề khó khăn trong phân tích hình ảnh vệ tinh và cảnh quay từ máy bay không người lái.
Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss tinh giản quy trình xuất mô hình sang các thiết bị biên.

Các mô hình thay thế để khám phá

Nếu dự án của bạn có những yêu cầu rất cụ thể, bạn cũng có thể muốn so sánh hiệu năng của mô hình RT-DETR để phát hiện dựa trên bộ chuyển đổi, hoặc YOLOv8 được sử dụng rộng rãi, vốn vẫn là một công cụ thiết yếu trong nhiều triển khai doanh nghiệp truyền thống.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO11 và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và các ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO11

YOLO11 là một lựa chọn tốt cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị sử dụng cho:

Hệ thống Google Cloud và TPU Pipelines: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc cơ sở hạ tầng TPU, nơi EfficientDet có tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Đánh giá chuẩn học thuật tập trung vào việc nghiên cứu ảnh hưởng của việc mở rộng quy mô độ sâu, chiều rộng và độ phân giải mạng cân bằng.
Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể xuất TensorFlow Lite cho thiết bị Android hoặc Linux nhúng.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Kết luận

EfficientDet là một kiến trúc tiên phong đã chứng minh tính khả thi của việc mở rộng quy mô phức hợp trong phát hiện đối tượng. Tuy nhiên, tốc độ phát triển nhanh chóng của nghiên cứu AI đã tạo ra những mô hình mạnh mẽ hơn, dễ tích hợp hơn và chạy nhanh hơn.

Với khả năng đa nhiệm mạnh mẽ, đáng kinh ngạc! GPU Với tốc độ suy luận nhanh chóng và API thân thiện với nhà phát triển nhất trong ngành, YOLO11 rõ ràng là lựa chọn thắng thế cho các hệ thống xử lý hình ảnh hiện đại. Đối với những ai hướng đến công nghệ tiên tiến nhất—đặc biệt là các triển khai ưu tiên thiết bị biên—nâng cấp lên YOLO26 sẽ mang đến sự kết hợp tối ưu giữa... NMS - Tốc độ nhanh chóng và độ chính xác vượt trội.