YOLOv10 vs EfficientDet: So sánh các kiến trúc phát hiện đối tượng thời gian thực
Việc lựa chọn mạng nơ-ron tối ưu cho việc phát hiện đối tượng là một quyết định quan trọng, quyết định sự thành công của các hệ thống thị giác máy tính hiện đại. Hai kiến trúc nổi bật đã ảnh hưởng đáng kể đến lĩnh vực này là YOLOv10 và EfficientDet . Mặc dù cả hai đều hướng đến việc tối đa hóa độ chính xác đồng thời giảm thiểu chi phí tính toán, nhưng chúng lại sử dụng các phương pháp kiến trúc rất khác nhau để đạt được những mục tiêu này.
Hướng dẫn toàn diện này sẽ đi sâu vào thiết kế độc đáo, phương pháp huấn luyện và đặc điểm triển khai của chúng, giúp các nhà phát triển và kỹ sư học máy đưa ra quyết định dựa trên dữ liệu cho các ứng dụng AI thị giác . Chúng ta sẽ xem xét hiệu suất của chúng trên các phần cứng từ các thiết bị AI nhúng ở biên đến các GPU đám mây mạnh mẽ.
YOLOv10 : Cái NMS -Free Pioneer
Được phát triển để vượt qua giới hạn về độ trễ thời gian thực, YOLOv10 đã giải quyết một trong những nút thắt cổ chai dai dẳng nhất trong... YOLO gia đình: Không ức chế tối đa ( NMS Bằng cách loại bỏ bước xử lý hậu kỳ này, mô hình đạt được độ trễ có thể dự đoán được cao, điều này rất quan trọng đối với xe tự hành và robot tốc độ cao.
Đổi mới Kiến trúc
YOLOv10 giới thiệu các nhiệm vụ kép nhất quán cho NMS - huấn luyện miễn phí. Trong quá trình huấn luyện, nó tận dụng cả việc gán nhãn một-nhiều và một-một, cho phép mạng học được các biểu diễn phong phú trong khi tự động xuất ra một hộp giới hạn tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận. Kiến trúc này cũng kết hợp một thiết kế toàn diện hướng đến hiệu quả-độ chính xác, giúp tinh giản bộ phận phân loại và giảm sự dư thừa tính toán được tìm thấy trong các phiên bản trước đó.
Chi tiết mô hình
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 2024-05-23
- Bài báo: YOLOv10 : Phát hiện đối tượng từ đầu đến cuối theo thời gian thực
- GitHub:THU-MIG/yolov10
- Tài liệu:Tài liệu YOLOv10
Triển khai tinh gọn
Bởi vì YOLOv10 loại bỏ NMS Về cơ bản, việc xuất sang các định dạng như định dạng ONNX và NVIDIA TensorRT sẽ dễ dàng hơn mà không cần dựa vào các plugin thời gian chạy tùy chỉnh để lọc hộp giới hạn.
Điểm mạnh:
- Suy luận có thể dự đoán được: Việc loại bỏ NMS Đảm bảo thời gian suy luận nhất quán bất kể số lượng đối tượng trong cảnh.
- Mức sử dụng bộ nhớ thấp hơn: So với các mô hình dựa trên bộ biến đổi như RT-DETR , YOLOv10 Nó có yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận.
- Sự cân bằng tuyệt vời giữa tốc độ và độ chính xác: Được tối ưu hóa đặc biệt cho các tình huống độ trễ thấp mà không làm giảm hiệu suất .
Điểm yếu:
- Tập trung vào một nhiệm vụ duy nhất: Không giống như hệ sinh thái Ultralytics rộng lớn hơn, phiên bản gốc YOLOv10 Kho lưu trữ này tập trung chủ yếu vào phát hiện đối tượng, thiếu hỗ trợ gốc cho phân đoạn đối tượng hoặc ước tính tư thế .
EfficientDet: Có khả năng mở rộng và cân bằng
Được giới thiệu bởi Google Mô hình Brain, EfficientDet tiếp cận việc phát hiện đối tượng thông qua lăng kính mở rộng mạng lưới một cách có hệ thống. Nó được xây dựng dựa trên nền tảng phân loại hình ảnh EfficientNet và giới thiệu một cơ chế kết hợp đặc trưng mới.
Đổi mới Kiến trúc
Cốt lõi của EfficientDet là Mạng Kim tự tháp Đặc trưng Hai chiều (BiFPN) , cho phép kết hợp đặc trưng đa tỷ lệ dễ dàng và nhanh chóng. Không giống như các FPN truyền thống chỉ cộng các đặc trưng từ trên xuống, BiFPN giới thiệu các kết nối xuyên tỷ lệ hai chiều và trọng số có thể huấn luyện để học tầm quan trọng của các đặc trưng đầu vào khác nhau. Hơn nữa, EfficientDet sử dụng phương pháp mở rộng tỷ lệ phức hợp giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp.
Chi tiết mô hình
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức:Google Brain
- Ngày: 2019-11-20
- Bài báo:EfficientDet: Phát hiện đối tượng có khả năng mở rộng và hiệu quả
- GitHub: Google AutoML EfficientDet
Điểm mạnh:
- Hiệu quả cao: Tỷ lệ thông số trên độ chính xác tuyệt vời, giúp cho kích thước nhỏ hơn
-d0đến-d2Các biến thể rất nhẹ. - Nguyên tắc điều chỉnh tỷ lệ: Phương pháp điều chỉnh tỷ lệ kết hợp cho phép người dùng dễ dàng chọn kích thước mô hình phù hợp với ngân sách tính toán chính xác của họ.
Điểm yếu:
- Tích hợp khung phần mềm cũ: Phiên bản gốc phụ thuộc nhiều vào các phiên bản TensorFlow cũ hơn, điều này có thể làm phức tạp các quy trình triển khai hiện đại.
- Quá trình huấn luyện chậm hơn: Việc huấn luyện EfficientDet từ đầu rất chậm và đòi hỏi phải tinh chỉnh các siêu tham số cẩn thận so với sự hội tụ nhanh chóng của các phương pháp khác. YOLO kiến trúc.
- Tốc độ suy luận: Mặc dù hiệu quả về mặt tham số, các phép toán BiFPN phức tạp thường dẫn đến tốc độ suy luận thực tế chậm hơn trên phần cứng tiêu chuẩn so với các phương pháp được tối ưu hóa cao. YOLO mô hình.
Hiệu năng và điểm chuẩn
Bài kiểm tra thực sự cho các mô hình này nằm ở hiệu suất thực nghiệm của chúng trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO . Bảng dưới đây minh họa sự khác biệt quan trọng về số lượng tham số, phép toán dấu phẩy động (FLOPs) và độ trễ suy luận trên GPU NVIDIA T4 .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Như hình minh họa ở trên, YOLOv10 duy trì lợi thế đáng kể về tốc độ suy luận thô. Ví dụ, YOLOv10 -S đạt 46,7 mAP với một TensorRT Độ trễ chỉ 2,66ms, trong khi EfficientDet-d3 đạt được độ trễ tương tự là 47,5ms. mAP nhưng mất gần 20ms—điều này khiến YOLOv10 Vượt trội hơn hẳn đối với việc truyền phát video trực tiếp hoặc các quy trình sản xuất tốc độ cao.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv10 Và EfficientDet phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOv10
YOLOv10 là một lựa chọn tốt cho:
- NMS - Phát hiện thời gian thực không cần hệ thống quản lý truy cập (NMS): Các ứng dụng được hưởng lợi từ khả năng phát hiện toàn diện mà không cần hệ thống loại bỏ truy cập không tối đa (Non-Maximum Suppression), giúp giảm độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác phát hiện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng độ trễ ổn định: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robot hoặc hệ thống tự hành.
Khi nào nên chọn EfficientDet
EfficientDet được khuyến nghị sử dụng cho:
- Google Cloud và TPU Pipelines: Các hệ thống tích hợp sâu rộng với Google API Cloud Vision hoặc TPU cơ sở hạ tầng nơi EfficientDet có khả năng tối ưu hóa gốc.
- Nghiên cứu về mở rộng quy mô phức hợp: Nghiên cứu chuẩn mực học thuật tập trung vào việc nghiên cứu tác động của việc mở rộng quy mô cân bằng về độ sâu, độ rộng và độ phân giải của mạng.
- Triển khai trên thiết bị di động thông qua TFLite : Các dự án yêu cầu xuất sang TensorFlow Lite . Android hoặc các thiết bị Linux nhúng.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Tiêu chuẩn hiện đại: Bước vào Ultralytics YOLO26
Trong khi YOLOv10 đã giới thiệu sự đột phá NMS Với mô hình không ràng buộc và EfficientDet thể hiện khả năng mở rộng có nguyên tắc, lĩnh vực thị giác máy tính tiếp tục phát triển. Đối với các nhà phát triển bắt đầu các dự án mới ngày nay, Ultralytics YOLO26 đại diện cho công nghệ tiên tiến nhất hiện nay. Được phát hành vào tháng 1 năm 2026, nó kết hợp những ưu điểm tốt nhất của mọi lĩnh vực vào một gói sản phẩm hoàn chỉnh, sẵn sàng cho sản xuất trong nền tảng Ultralytics .
Vì sao YOLO26 vượt trội hơn so với các đối thủ cạnh tranh?
- Hệ thống quản lý mạng NMS toàn diện - Thiết kế miễn phí: YOLO26 tích hợp sẵn hệ thống quản lý mạng toàn diện. NMS - Kiến trúc tự do tiên phong trong YOLOv10 , giúp đơn giản hóa quá trình triển khai và tăng tốc độ suy luận.
- Tăng tốc độ suy luận CPU lên đến 43%: Đối với các thiết bị biên thiếu bộ tăng tốc chuyên dụng, YOLO26 được tối ưu hóa đặc biệt để chạy hiệu quả trên các CPU tiêu chuẩn.
- Trình tối ưu hóa MuSGD nâng cao: Lấy cảm hứng từ những cải tiến trong đào tạo LLM, YOLO26 sử dụng sự kết hợp của... SGD và Muon mang lại khả năng huấn luyện cực kỳ ổn định và hội tụ nhanh chóng, giúp cải thiện đáng kể hiệu quả huấn luyện so với EfficientDet.
- ProgLoss + STAL: Các hàm mất mát được cải tiến này mang lại sự cải thiện đáng kể trong khả năng nhận dạng vật thể nhỏ, một điểm yếu truyền thống của cả hai phương pháp. YOLOv10 và EfficientDet.
- Loại bỏ DFL: Bằng cách loại bỏ hiện tượng mất nét tiêu điểm phân bổ (Distribution Focal Loss), YOLO26 xuất dữ liệu liền mạch sang hầu hết mọi định dạng phần cứng, bao gồm cả OpenVINO và... CoreML .
Hơn nữa, YOLO26 mang lại tính linh hoạt vượt trội. Trong khi EfficientDet và YOLOv10 Trong khi các mô hình chỉ tập trung vào phát hiện đối tượng, YOLO26 xử lý liền mạch các hộp giới hạn định hướng , phân loại hình ảnh và phân đoạn đối tượng bằng cách sử dụng cùng một gói Python Ultralytics trực quan.
Hệ sinh thái được duy trì tốt
Cả YOLO11 và YOLOv8 đều vẫn được hỗ trợ đầy đủ. Ultralytics hệ sinh thái. Để có sự kết hợp tốt nhất giữa hiệu năng, độ ổn định và hỗ trợ lâu dài, chúng tôi khuyên bạn nên sử dụng hệ điều hành được bảo trì chính thức. Ultralytics mô hình.
Dễ sử dụng với Ultralytics
Hệ sinh thái được duy trì tốt do cung cấp Ultralytics Đảm bảo trải nghiệm phát triển mượt mà. Việc huấn luyện mô hình, xác thực và xuất mô hình để tích hợp với TensorRT chỉ mất vài dòng mã.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model (or upgrade to YOLO26 natively)
model = YOLO("yolov10n.pt")
# Train the model efficiently on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and immediately visualize results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export for rapid deployment
model.export(format="engine", half=True)
Kết luận
Khi so sánh YOLOv10 Với EfficientDet, sự lựa chọn phụ thuộc rất nhiều vào sở thích về framework và các ràng buộc về tốc độ của bạn. EfficientDet cung cấp một cách tiếp cận có cấu trúc để mở rộng quy mô mô hình trong phạm vi... TensorFlow hệ sinh thái. Tuy nhiên, YOLOv10 Nó cung cấp hiệu năng thời gian thực vượt trội, mức sử dụng bộ nhớ thấp hơn và lộ trình triển khai đơn giản hơn nhờ vào... NMS - Kiến trúc tự do.
Để đạt được sự cân bằng tối ưu giữa hiệu năng, tính dễ sử dụng và khả năng đa nhiệm, việc nâng cấp lên Nền tảng Ultralytics và sử dụng YOLO26 được khuyến nghị mạnh mẽ. Quá trình này mất... NMS - những đổi mới miễn phí của YOLOv10 Nó áp dụng các kỹ thuật huấn luyện tiên tiến như thuật toán tối ưu hóa MuSGD, và tích hợp chúng trong một khung phần mềm mã nguồn mở mạnh mẽ được hỗ trợ bởi một cộng đồng toàn cầu khổng lồ.