YOLOv10 vs EfficientDet: So sánh các kiến trúc phát hiện đối tượng thời gian thực

Việc lựa chọn mạng nơ-ron tối ưu cho việc phát hiện đối tượng là một quyết định quan trọng, quyết định sự thành công của các hệ thống thị giác máy tính hiện đại. Hai kiến trúc nổi bật đã ảnh hưởng đáng kể đến lĩnh vực này là YOLOv10 và EfficientDet . Mặc dù cả hai đều hướng đến việc tối đa hóa độ chính xác đồng thời giảm thiểu chi phí tính toán, nhưng chúng lại sử dụng các phương pháp kiến trúc rất khác nhau để đạt được những mục tiêu này.

Hướng dẫn toàn diện này sẽ đi sâu vào thiết kế độc đáo, phương pháp huấn luyện và đặc điểm triển khai của chúng, giúp các nhà phát triển và kỹ sư học máy đưa ra quyết định dựa trên dữ liệu cho các ứng dụng AI thị giác . Chúng ta sẽ xem xét hiệu suất của chúng trên các phần cứng từ các thiết bị AI nhúng ở biên đến các GPU đám mây mạnh mẽ.

YOLOv10 : Cái NMS -Free Pioneer

Được phát triển để vượt qua giới hạn về độ trễ thời gian thực, YOLOv10 đã giải quyết một trong những nút thắt cổ chai dai dẳng nhất trong dòng YOLO: Non-Maximum Suppression (NMS). Bằng cách loại bỏ bước xử lý hậu kỳ này, mô hình đạt được độ trễ có thể dự đoán cao, điều này rất quan trọng đối với xe tự hành và robot tốc độ cao.

Đổi mới Kiến trúc

YOLOv10 giới thiệu các nhiệm vụ kép nhất quán cho NMS - huấn luyện miễn phí. Trong quá trình huấn luyện, nó tận dụng cả việc gán nhãn một-nhiều và một-một, cho phép mạng học được các biểu diễn phong phú trong khi tự động xuất ra một hộp giới hạn tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận. Kiến trúc này cũng kết hợp một thiết kế toàn diện hướng đến hiệu quả-độ chính xác, giúp tinh giản bộ phận phân loại và giảm sự dư thừa tính toán được tìm thấy trong các phiên bản trước đó.

Chi tiết mô hình

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 2024-05-23
Bài báo:YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực
GitHub:THU-MIG/yolov10
Tài liệu:Tài liệu YOLOv10

Triển khai tinh gọn

Vì YOLOv10 loại bỏ bước NMS, việc xuất sang các định dạng như định dạng ONNX và NVIDIA TensorRT vốn dĩ dễ dàng hơn mà không cần dựa vào các plugin runtime tùy chỉnh để lọc hộp giới hạn.

Điểm mạnh:

Suy luận có thể dự đoán được: Việc loại bỏ NMS đảm bảo thời gian suy luận nhất quán bất kể số lượng vật thể trong cảnh.
Sử dụng bộ nhớ thấp hơn: So với các mô hình dựa trên transformer như RT-DETR, YOLOv10 có yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận.
Đánh đổi Tốc độ/Độ chính xác xuất sắc: Được tối ưu hóa đặc biệt cho các kịch bản có độ trễ thấp mà không làm giảm các chỉ số hiệu suất.

Điểm yếu:

Tập trung vào một tác vụ: Không giống như hệ sinh thái Ultralytics rộng lớn hơn, kho lưu trữ YOLOv10 gốc tập trung nhiều vào detect, thiếu hỗ trợ gốc cho phân đoạn thực thể hoặc ước tính tư thế.

Tìm hiểu thêm về YOLOv10

EfficientDet: Có khả năng mở rộng và cân bằng

Được giới thiệu bởi Google Mô hình Brain, EfficientDet tiếp cận việc phát hiện đối tượng thông qua lăng kính mở rộng mạng lưới một cách có hệ thống. Nó được xây dựng dựa trên nền tảng phân loại hình ảnh EfficientNet và giới thiệu một cơ chế kết hợp đặc trưng mới.

Đổi mới Kiến trúc

Cốt lõi của EfficientDet là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN) , cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng. Không giống như các FPN truyền thống chỉ cộng các đặc trưng từ trên xuống, BiFPN giới thiệu các kết nối xuyên tỷ lệ hai chiều và trọng số có thể huấn luyện để học tầm quan trọng của các đặc trưng đầu vào khác nhau. Hơn nữa, EfficientDet sử dụng phương pháp mở rộng tỷ lệ phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp.

Chi tiết mô hình

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức:Google Brain
Ngày: 2019-11-20
Bài báo:EfficientDet: Phát hiện đối tượng có khả năng mở rộng và hiệu quả
GitHub:Google AutoML EfficientDet

Điểm mạnh:

Hiệu quả cao: Tỷ lệ thông số trên độ chính xác tuyệt vời, giúp cho kích thước nhỏ hơn -d0 đến -d2 Các biến thể rất nhẹ.
Mở rộng quy mô có nguyên tắc: Việc mở rộng quy mô hợp chất cho phép người dùng dễ dàng chọn kích thước mô hình phù hợp với ngân sách tính toán chính xác của họ.

Điểm yếu:

Tích hợp khung công tác cũ: Việc triển khai ban đầu phụ thuộc nhiều vào các phiên bản TensorFlow cũ hơn, điều này có thể làm phức tạp các quy trình triển khai hiện đại.
Huấn luyện chậm hơn: Huấn luyện EfficientDet từ đầu nổi tiếng là chậm và đòi hỏi tinh chỉnh siêu tham số cẩn thận so với sự hội tụ nhanh chóng của các kiến trúc YOLO.
Tốc độ suy luận: Mặc dù hiệu quả về tham số, các phép toán BiFPN phức tạp thường dẫn đến tốc độ suy luận thực tế chậm hơn trên phần cứng tiêu chuẩn so với các mô hình YOLO được tối ưu hóa cao.

Tìm hiểu thêm về EfficientDet

Hiệu năng và điểm chuẩn

Bài kiểm tra thực sự cho các mô hình này nằm ở hiệu suất thực nghiệm của chúng trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO . Bảng dưới đây minh họa sự khác biệt quan trọng về số lượng tham số, phép toán dấu phẩy động (FLOPs) và độ trễ suy luận trên GPU NVIDIA T4 .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Như đã trình bày ở trên, YOLOv10 duy trì lợi thế đáng kể về tốc độ suy luận thô. Ví dụ, YOLOv10-S đạt 46.7 mAP với độ trễ TensorRT chỉ 2.66ms, trong khi EfficientDet-d3 đạt mAP tương tự 47.5 nhưng mất gần 20ms—khiến YOLOv10 vượt trội hơn hẳn cho việc truyền phát video thời gian thực hoặc các dây chuyền sản xuất chuyển động nhanh.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn EfficientDet

EfficientDet được khuyến nghị sử dụng cho:

Hệ thống Google Cloud và TPU Pipelines: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc cơ sở hạ tầng TPU, nơi EfficientDet có tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Đánh giá chuẩn học thuật tập trung vào việc nghiên cứu ảnh hưởng của việc mở rộng quy mô độ sâu, chiều rộng và độ phân giải mạng cân bằng.
Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể xuất TensorFlow Lite cho thiết bị Android hoặc Linux nhúng.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tiêu chuẩn hiện đại: Bước vào Ultralytics YOLO26

Trong khi YOLOv10 đã giới thiệu sự đột phá NMS Với mô hình không ràng buộc và EfficientDet thể hiện khả năng mở rộng có nguyên tắc, lĩnh vực thị giác máy tính tiếp tục phát triển. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay. Được phát hành vào tháng 1 năm 2026, nó kết hợp những ưu điểm tốt nhất của mọi lĩnh vực vào một gói sản phẩm hoàn chỉnh, sẵn sàng cho sản xuất trong nền tảng Ultralytics .

Vì sao YOLO26 vượt trội hơn so với các đối thủ cạnh tranh?

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 tự nhiên áp dụng kiến trúc loại bỏ NMS đầu cuối được tiên phong trong YOLOv10, tinh gọn việc triển khai và tăng tốc suy luận.
Tăng tốc suy luận trên CPU lên đến 43%: Đối với các thiết bị biên thiếu bộ tăng tốc chuyên dụng, YOLO26 được tối ưu hóa đặc biệt để chạy hiệu quả trên các CPU tiêu chuẩn.
Bộ tối ưu hóa MuSGD nâng cao: Lấy cảm hứng từ những đổi mới trong huấn luyện LLM, YOLO26 sử dụng sự kết hợp giữa SGD và Muon để huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, cải thiện đáng kể hiệu quả huấn luyện so với EfficientDet.
ProgLoss + STAL: Các hàm mất mát được cải tiến này mang lại những cải thiện đáng kể trong việc nhận diện vật thể nhỏ, một điểm yếu truyền thống của cả YOLOv10 và EfficientDet.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 xuất liền mạch sang hầu hết mọi định dạng phần cứng, bao gồm OpenVINO và CoreML.

Hơn nữa, YOLO26 mang lại tính linh hoạt vượt trội. Trong khi EfficientDet và YOLOv10 Trong khi các mô hình chỉ tập trung vào phát hiện đối tượng, YOLO26 xử lý liền mạch các hộp giới hạn định hướng , phân loại hình ảnh và phân đoạn đối tượng bằng cách sử dụng cùng một gói Python Ultralytics trực quan.

Hệ sinh thái được duy trì tốt

Cả YOLO11 và YOLOv8 đều được hỗ trợ đầy đủ trong hệ sinh thái Ultralytics. Để có sự kết hợp tốt nhất giữa hiệu suất, độ ổn định và hỗ trợ lâu dài, chúng tôi khuyên bạn nên sử dụng các mô hình Ultralytics được duy trì chính thức.

Dễ sử dụng với Ultralytics

Hệ sinh thái được duy trì tốt do cung cấp Ultralytics Đảm bảo trải nghiệm phát triển mượt mà. Việc huấn luyện mô hình, xác thực và xuất mô hình để tích hợp với TensorRT chỉ mất vài dòng mã.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model (or upgrade to YOLO26 natively)
model = YOLO("yolov10n.pt")

# Train the model efficiently on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and immediately visualize results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export for rapid deployment
model.export(format="engine", half=True)

Kết luận

Khi so sánh YOLOv10 Với EfficientDet, sự lựa chọn phụ thuộc rất nhiều vào sở thích về framework và các ràng buộc về tốc độ của bạn. EfficientDet cung cấp một cách tiếp cận có cấu trúc để mở rộng quy mô mô hình trong phạm vi... TensorFlow hệ sinh thái. Tuy nhiên, YOLOv10 Nó cung cấp hiệu năng thời gian thực vượt trội, mức sử dụng bộ nhớ thấp hơn và lộ trình triển khai đơn giản hơn nhờ vào... NMS - Kiến trúc tự do.

Để đạt được sự cân bằng tối ưu giữa hiệu năng, tính dễ sử dụng và khả năng đa nhiệm, việc nâng cấp lên Nền tảng Ultralytics và sử dụng YOLO26 được khuyến nghị mạnh mẽ. Quá trình này mất... NMS - những đổi mới miễn phí của YOLOv10 Nó áp dụng các kỹ thuật huấn luyện tiên tiến như thuật toán tối ưu hóa MuSGD, và tích hợp chúng trong một khung phần mềm mã nguồn mở mạnh mẽ được hỗ trợ bởi một cộng đồng toàn cầu khổng lồ.

YOLOv10 vs EfficientDet: So sánh các kiến ​​trúc phát hiện đối tượng thời gian thực

YOLOv10 : Cái NMS -Free Pioneer

Đổi mới Kiến trúc

Chi tiết mô hình

EfficientDet: Có khả năng mở rộng và cân bằng

Đổi mới Kiến trúc

Chi tiết mô hình

Hiệu năng và điểm chuẩn

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLOv10

Khi nào nên chọn EfficientDet

Khi nào nên lựa chọn Ultralytics (YOLO26)

Tiêu chuẩn hiện đại: Bước vào Ultralytics YOLO26

Vì sao YOLO26 vượt trội hơn so với các đối thủ cạnh tranh?

Dễ sử dụng với Ultralytics

Kết luận

Bình luận

YOLOv10 vs EfficientDet: So sánh các kiến trúc phát hiện đối tượng thời gian thực