YOLOv5 So sánh với EfficientDet: Đánh giá các kiến trúc phát hiện đối tượng thời gian thực
Khi bắt đầu một dự án thị giác máy tính mới, việc lựa chọn kiến trúc mạng nơ-ron phù hợp là một trong những quyết định quan trọng nhất mà bạn sẽ đưa ra. Hướng dẫn này cung cấp so sánh kỹ thuật chuyên sâu giữa Ultralytics YOLOv5 và Google EfficientDet của chúng tôi. Bằng cách phân tích kiến trúc, số liệu hiệu suất và hệ sinh thái huấn luyện của chúng, chúng tôi hướng đến việc giúp các nhà phát triển và nhà nghiên cứu xác định mô hình phát hiện đối tượng tốt nhất cho môi trường triển khai cụ thể của họ.
Trong khi EfficientDet giới thiệu những khái niệm mới về mở rộng phức hợp và kết hợp tính năng, YOLOv5 đã cách mạng hóa ngành công nghiệp bằng cách dân chủ hóa quyền truy cập vào AI hiệu năng cao thông qua việc triển khai PyTorch cực kỳ trực quan, trải nghiệm người dùng được đơn giản hóa và sự cân bằng tuyệt vời giữa tốc độ và độ chính xác.
Ultralytics YOLOv5 Tiêu chuẩn ngành về khả năng tiếp cận
Được phát hành vào mùa hè năm 2020, YOLOv5 đánh dấu một bước ngoặt quan trọng trong YOLO dòng dõi. Chuyển đổi từ khung Darknet dựa trên C sang ngôn ngữ gốc. PyTorch Nó đã trở thành kiến trúc được ưa chuộng cho các nhà phát triển muốn xây dựng, huấn luyện và triển khai mô hình một cách nhanh chóng.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Tài yolov5 ultralytics ultralytics
Đổi mới Kiến trúc
YOLOv5 Nó được đánh giá cao nhờ kiến trúc được tối ưu hóa cao, ưu tiên vòng đời học máy liền mạch. Nó sử dụng xương sống CSPDarknet53 được sửa đổi kết hợp với phần cổ Mạng tổng hợp đường dẫn (PANet), giúp cải thiện đáng kể sự lan truyền đặc trưng trên nhiều thang đo không gian.
Các tiến bộ chính bao gồm:
- Tăng cường dữ liệu bằng kỹ thuật ghép ảnh (Mosaic Data Augmentation): Kỹ thuật huấn luyện này kết hợp bốn hình ảnh huấn luyện riêng biệt thành một ảnh ghép duy nhất. Điều này buộc mô hình phải học cách nhận dạng đối tượng trong bối cảnh không gian phức tạp và tăng cường đáng kể khả năng của nó. detect mục tiêu nhỏ.
- Hộp neo tự học: Trước khi quá trình huấn luyện bắt đầu, YOLOv5 Phân tích dữ liệu huấn luyện tùy chỉnh của bạn và tự động tính toán kích thước hộp neo tối ưu bằng cách sử dụng thuật toán phân cụm k-means.
- Hiệu quả bộ nhớ: So với các mô hình dựa trên biến áp nặng nề, YOLOv5 Nó duy trì mức sử dụng bộ nhớ thấp hơn đáng kể trong cả quá trình huấn luyện và suy luận, cho phép nó hoạt động mượt mà trên phần cứng cấp độ người tiêu dùng.
EfficientDet: Phát hiện đối tượng có khả năng mở rộng
Được giới thiệu bởi Google Nghiên cứu năm 2019, EfficientDet, hướng đến việc cung cấp một họ các bộ phát hiện đối tượng có khả năng mở rộng. Nó được xây dựng dựa trên nền tảng phân loại hình ảnh EfficientNet và giới thiệu một cơ chế kết hợp đặc trưng mới.
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức:Google
- Ngày: 2019-11-20
- Arxiv:https://arxiv.org/abs/1911.09070
- GitHub:https://github.com/google/automl/tree/master/efficientdet
- Tài liệu:https://github.com/google/automl/tree/master/efficientdet#readme
Đổi mới Kiến trúc
Điểm cốt lõi của EfficientDet nằm ở phương pháp tiếp cận có hệ thống đối với việc mở rộng quy mô và tổng hợp các đặc trưng:
- BiFPN (Mạng kim tự tháp đặc trưng hai chiều): Không giống như các mạng FPN truyền thống chỉ truyền thông tin từ trên xuống, BiFPN cho phép kết hợp đặc trưng đa tỷ lệ nhanh chóng và dễ dàng bằng cách giới thiệu các trọng số có thể học được để tìm hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau.
- Mở rộng quy mô kết hợp: EfficientDet đồng thời mở rộng độ phân giải, độ sâu và độ rộng cho tất cả các mạng xương sống, mạng đặc trưng và mạng dự đoán hộp/lớp, tạo ra các mô hình từ D0 nhẹ đến D7 đồ sộ.
Sự khác biệt về khung
Mặc dù EfficientDet phụ thuộc rất nhiều vào hệ sinh thái TensorFlow và các thư viện AutoML , YOLOv5 hoạt động nguyên bản trong PyTorch , mang đến một quy trình làm việc trực quan hơn, phù hợp với Python hơn và dễ gỡ lỗi hơn, theo đánh giá của nhiều nhà phát triển.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, việc đánh giá hiệu năng của chúng trên các bộ dữ liệu chuẩn như bộ dữ liệu COCO là rất quan trọng. Bảng dưới đây nêu bật sự đánh đổi giữa kích thước, yêu cầu tính toán (FLOPs) và tốc độ suy luận.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Phân tích cân bằng
YOLOv5 nổi bật nhờ tính linh hoạt trong triển khai và khả năng tương thích tăng tốc phần cứng vượt trội. Hãy chú ý đến tốc độ cực nhanh của nó. TensorRT tốc độ trên T4 GPU Điều này làm cho... YOLOv5 Vô cùng phù hợp cho việc phân tích video tốc độ cao và các quy trình suy luận thời gian thực . Hơn nữa, Ultralytics Hệ sinh thái này cho phép xuất dữ liệu sang các định dạng như ONNX , CoreML và TensorRT chỉ bằng một lệnh duy nhất.
EfficientDet mang lại hiệu quả tham số tuyệt vời. Với số lượng tham số nhất định, nó thường trích xuất độ chính xác trung bình ( mAP ) cao. Tuy nhiên, hiệu quả lý thuyết này không phải lúc nào cũng chuyển thành thời gian suy luận thực tế nhanh hơn trên các GPU biên do việc định tuyến phức tạp của lớp BiFPN, có thể bị giới hạn bởi băng thông bộ nhớ hơn là giới hạn bởi khả năng tính toán.
Hệ sinh thái và Dễ sử dụng
Ưu điểm nổi bật của việc lựa chọn một Ultralytics Mô hình nằm trong hệ sinh thái xung quanh. YOLOv5 là một phần của kho lưu trữ được duy trì và phát triển tích cực với sự hỗ trợ cộng đồng rộng lớn.
Với sự ra mắt của Nền tảng Ultralytics , người dùng có thể chuyển đổi liền mạch từ thu thập dữ liệu sang triển khai. Nền tảng này hỗ trợ tự động chú thích, huấn luyện trên đám mây và giám sát mô hình ngay từ đầu. Ngược lại, việc huấn luyện EfficientDet thường đòi hỏi phải xử lý những phức tạp của các hệ thống cũ hơn. TensorFlow Các API phát hiện đối tượng có thể đòi hỏi người dùng phải học hỏi rất nhiều để tạo mẫu nhanh.
Hơn nữa, YOLOv5 Tính linh hoạt của nó vượt xa các khung giới hạn. Thông qua các bản cập nhật liên tục, Ultralytics Khung phần mềm hỗ trợ phân đoạn đối tượng và phân loại hình ảnh một cách tự nhiên, cung cấp API thống nhất cho nhiều tác vụ thị giác máy tính.
Các trường hợp sử dụng lý tưởng
- Hãy chọn YOLOv5 khi: Bạn cần tạo mẫu nhanh, trải nghiệm đào tạo liền mạch và triển khai tối ưu hóa cao ở biên mạng. Nó lý tưởng cho máy bay không người lái, phân tích bán lẻ và các ứng dụng di động, nơi độ trễ thấp là yếu tố quan trọng.
- Hãy chọn EfficientDet khi: Bạn đang hoạt động hoàn toàn trong phạm vi cho phép. Google Đám mây/ TensorFlow Môi trường AutoML yêu cầu độ chính xác tối đa cho mỗi tham số mà không có các ràng buộc nghiêm ngặt về độ trễ thời gian thực.
Thế hệ tiếp theo: Đón nhận YOLO26
Trong khi YOLOv5 Mặc dù vẫn là một công cụ đáng tin cậy, nhưng lĩnh vực thị giác máy tính đã tiến bộ vượt bậc. Đối với các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất vào năm 2026, YOLO26 đại diện cho đỉnh cao mới của công nghệ này. Ultralytics đội hình.
Tiếp nối di sản của các phiên bản tiền nhiệm (như YOLOv8 và YOLO11 ), YOLO26 giới thiệu những cải tiến đột phá:
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp giảm đáng kể sự biến động độ trễ và đơn giản hóa kiến trúc triển khai.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho AI biên , nó mang lại tốc độ chưa từng có cho các thiết bị biên công suất thấp và CPU tiêu chuẩn mà không cần GPU chuyên dụng.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM), đây là sự kết hợp của... SGD và Muon đảm bảo quá trình huấn luyện cực kỳ ổn định và sự hội tụ nhanh chóng.
- Các hàm suy giảm nâng cao: Việc tích hợp ProgLoss và STAL cải thiện đáng kể khả năng nhận dạng các mục tiêu nhỏ, điều này rất quan trọng đối với việc chụp ảnh bằng máy bay không người lái ở độ cao lớn và robot .
- Loại bỏ DFL: Bằng cách loại bỏ hiện tượng mất tiêu điểm phân tán (Distribution Focal Loss), quy trình xuất mô hình được đơn giản hóa, giúp tăng cường hơn nữa khả năng tương thích giữa các bộ tăng tốc phần cứng khác nhau.
Người dùng quan tâm đến việc khám phá các kiến trúc mới khác trong lĩnh vực này. Ultralytics Hệ sinh thái cũng có thể so sánh các mô hình như YOLOv10 hoặc RT-DETR .
Di chuyển rất dễ dàng
Cái Ultralytics Python API được thiết kế để tương thích ngược và tương thích tiến. Nâng cấp từ YOLOv5 Việc chuyển sang YOLO26 thực sự đơn giản như việc thay đổi chuỗi trọng lượng mô hình trong mã của bạn!
Ví dụ mã: Huấn luyện và Suy luận
Để chứng minh tính dễ sử dụng vượt trội của sản phẩm này, Ultralytics Trong hệ sinh thái này, đây là cách bạn có thể huấn luyện và chạy suy luận bằng cách sử dụng một mô hình hiện đại. YOLO Mô hình này. Mã nguồn hoàn toàn có thể chạy được và tự động xử lý việc tải xuống tập dữ liệu, các vòng lặp huấn luyện và xác thực.
from ultralytics import YOLO
# Load a modern model (Swap 'yolov5s.pt' for 'yolo26n.pt' to test the newest architecture!)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 example dataset for 20 epochs
results = model.train(data="coco8.yaml", epochs=20, imgsz=640)
# Run inference on an image from the web
inference_results = model("https://ultralytics.com/images/bus.jpg")
# Display the image with bounding boxes
inference_results[0].show()
Bằng cách ưu tiên trải nghiệm người dùng, duy trì một hệ sinh thái mạnh mẽ và liên tục vượt qua giới hạn của những gì có thể với các bản cập nhật như YOLO26, Ultralytics Đảm bảo các nhà phát triển luôn có sẵn những công cụ tốt nhất để giải quyết các thách thức về trí tuệ hình ảnh trong thế giới thực.