YOLOv5 So sánh kỹ thuật giữa EfficientDet và các mô hình thị giác hàng đầu.

Trong lĩnh vực thị giác máy tính , việc lựa chọn kiến trúc phát hiện đối tượng tối ưu là một quyết định then chốt, ảnh hưởng đến mọi thứ từ độ chính xác của mô hình đến chi phí triển khai. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa Ultralytics YOLOv5 và EfficientDet , hai mô hình có tầm ảnh hưởng lớn đã định hình nên bối cảnh của trí tuệ nhân tạo hiện đại.

Trong khi EfficientDet giới thiệu khái niệm về hiệu quả có thể mở rộng thông qua việc mở rộng theo cấp số nhân, YOLOv5 đã tạo nên cuộc cách mạng trong lĩnh vực này bằng cách kết hợp hiệu năng tiên tiến với trải nghiệm người dùng tuyệt vời. Phân tích này đi sâu vào sự khác biệt về kiến trúc, các chỉ số hiệu năng và khả năng ứng dụng thực tế của chúng để giúp các nhà phát triển và nhà nghiên cứu đưa ra lựa chọn dựa trên dữ liệu.

Tổng quan mô hình

Ultralytics YOLOv5

YOLOv5 (You Only Look Once version 5) là một mô hình mang tính đột phá trong lịch sử phát hiện đối tượng. Được phát hành vào giữa năm 2020 bởi Ultralytics Nhờ sự cân bằng giữa tốc độ, độ chính xác và tính dễ sử dụng, nó nhanh chóng trở thành tiêu chuẩn trong ngành. Không giống như các thế hệ trước, YOLOv5 là người đầu tiên YOLO Mô hình này được triển khai nguyên bản trong PyTorch , giúp nó trở nên cực kỳ dễ tiếp cận đối với cộng đồng nghiên cứu và các nhà phát triển doanh nghiệp.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
GitHub:Kho lưu trữ Ultralytics YOLOv5

Tìm hiểu thêm về YOLOv5

EfficientDet

EfficientDet là một họ các mô hình phát hiện đối tượng được phát triển bởi Google Nghiên cứu này được xây dựng dựa trên kiến trúc EfficientNet và giới thiệu mạng kim tự tháp đặc trưng hai chiều có trọng số (BiFPN) cùng phương pháp mở rộng tỷ lệ phức hợp, giúp mở rộng đồng đều độ phân giải, độ sâu và chiều rộng cho tất cả các mạng kiến trúc chính, mạng đặc trưng và mạng dự đoán hộp/lớp.

Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức:Google Research
Ngày: 2019-11-20
Arxiv:EfficientDet: detect Đối tượng Hiệu quả và Có khả năng Mở rộng
GitHub: Kho lưu trữ Google AutoML

Điểm chuẩn hiệu suất tương tác

Để hiểu rõ sự đánh đổi giữa các kiến trúc này, điều cần thiết là phải trực quan hóa hiệu năng của chúng trên các bộ dữ liệu chuẩn. Biểu đồ bên dưới so sánh các chỉ số chính trên bộ dữ liệu COCO , làm nổi bật ranh giới giữa tốc độ và độ chính xác.

Các Chỉ số Hiệu suất Chi tiết

Bảng sau đây cung cấp cái nhìn chi tiết về hiệu năng của các mô hình ở các quy mô khác nhau. Ultralytics Các mô hình luôn thể hiện tốc độ suy luận vượt trội, đặc biệt khi được tối ưu hóa cho các ứng dụng thời gian thực.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Kiến trúc và Thiết kế

Sự khác biệt cơ bản giữa hai mô hình này nằm ở triết lý thiết kế của chúng: YOLOv5 EfficientDet ưu tiên suy luận thời gian thực và tính dễ thiết kế, trong khi EfficientDet tập trung vào hiệu quả tham số thông qua việc kết hợp các đặc trưng phức tạp.

YOLOv5 Được thiết kế để đạt tốc độ và tính dễ sử dụng cao.

YOLOv5 Nó sử dụng kiến trúc xương sống CSPDarknet (Cross Stage Partial Network), giúp tăng cường luồng gradient và giảm tắc nghẽn tính toán. Phần cổ của nó sử dụng PANet (Path Aggregation Network) để tổng hợp các đặc trưng trên các tỷ lệ khác nhau, đảm bảo rằng cả các đối tượng lớn và nhỏ đều được phát hiện với độ chính xác cao.

Lợi thế của Ultralytics

Một trong số YOLOv5 Điểm mạnh lớn nhất của nó là thiết kế dạng mô-đun. Việc tập trung vào "Túi quà tặng miễn phí" và "Túi quà tặng đặc biệt" - các kỹ thuật tối ưu hóa giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận - khiến nó cực kỳ mạnh mẽ trong nhiều kịch bản triển khai khác nhau.

EfficientDet: Mở rộng hợp chất và BiFPN

EfficientDet được xây dựng dựa trên kiến trúc EfficientNet và giới thiệu BiFPN (Bi-directional Feature Pyramid Network). Trong khi các FPN tiêu chuẩn cộng các đặc trưng từ các cấp độ khác nhau, BiFPN áp dụng các trọng số có thể học được cho các đặc trưng này, cho phép mạng học được đặc trưng đầu vào nào quan trọng hơn. Mặc dù về mặt lý thuyết, BiFPN hiệu quả về số phép tính FLOPs, nhưng các mẫu truy cập bộ nhớ phức tạp và không đều của nó thường dẫn đến suy luận thực tế chậm hơn trên GPU so với kiến trúc CSPNet được tối ưu hóa. YOLOv5 .

Huấn luyện và Dễ sử dụng

Đối với các nhà phát triển, các chỉ số "mềm" của một mô hình—mức độ dễ dàng trong việc huấn luyện, triển khai và gỡ lỗi—thường quan trọng không kém gì độ chính xác thô.

Trải nghiệm người dùng được tối ưu hóa

Ultralytics Các người mẫu nổi tiếng với hành trình từ con số không đến thành công vang dội. YOLOv5 cung cấp giao diện dòng lệnh liền mạch ( CLI ) Và Python API này cho phép người dùng bắt đầu huấn luyện trên dữ liệu tùy chỉnh chỉ trong vài phút. Ngược lại, các triển khai EfficientDet thường yêu cầu các tệp cấu hình phức tạp hơn và kiến thức chuyên sâu hơn về... TensorFlow hoặc cụ thể PyTorch các nhánh rẽ để vận hành hiệu quả.

Hiệu quả huấn luyện và Tài nguyên

YOLOv5 được tối ưu hóa cao về hiệu quả huấn luyện . Nó bao gồm các tính năng như tính toán anchor tự động, tăng cường dữ liệu mosaic và tiến hóa siêu tham số. Hơn nữa, Ultralytics Các mô hình này thường có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với EfficientDet và các kiến trúc dựa trên Transformer. Điều này cho phép các nhà nghiên cứu huấn luyện với kích thước lô lớn hơn trên các GPU cấp độ người tiêu dùng, giúp dân chủ hóa việc tiếp cận huấn luyện mô hình cao cấp.

from ultralytics import YOLO

# Load a pre-trained YOLO model (recommended over YOLOv5 for new projects)
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Tính linh hoạt và các ứng dụng thực tế

Mặc dù EfficientDet chủ yếu là một công cụ phát hiện đối tượng, nhưng... Ultralytics Hệ sinh thái đã mở rộng khả năng của YOLO Vượt xa những khung bao đơn giản.

Các tính năng của YOLOv5 : Hỗ trợ phát hiện đối tượng , phân đoạn đối tượng và phân loại hình ảnh .
Khả năng của EfficientDet: Chủ yếu tập trung vào phát hiện đối tượng, với một số điều chỉnh cho phân đoạn nhưng chưa được tích hợp vào quy trình làm việc thống nhất.

Các trường hợp sử dụng lý tưởng

Chọn Ultralytics YOLOv5 (hoặc phiên bản mới hơn) nếu:

Hiệu năng thời gian thực là rất quan trọng: Các ứng dụng như lái xe tự hành, phân tích video và robot đòi hỏi độ trễ thấp. YOLO Các kiến trúc cung cấp.
Triển khai tại biên: Bạn đang triển khai trên các thiết bị di động, Raspberry Pi hoặc NVIDIA Jetson, nơi bộ nhớ và khả năng tính toán bị hạn chế.
Phát triển nhanh chóng: Bạn cần lặp lại quy trình một cách nhanh chóng với API ổn định, được tài liệu hóa đầy đủ và sự hỗ trợ tích cực từ cộng đồng.

Hãy chọn EfficientDet nếu:

Các ràng buộc về số phép tính FLOP là tối quan trọng: Trong những kịch bản lý thuyết rất cụ thể, nơi số phép tính FLOP là ràng buộc duy nhất (thay vì độ trễ), khả năng mở rộng của EfficientDet có thể mang lại lợi thế.
Tiêu chí nghiên cứu: Bạn đang so sánh cụ thể với các bộ trích xuất đặc trưng dựa trên EfficientNet trong môi trường học thuật.

Tương lai: YOLO26

Trong khi YOLOv5 Mặc dù vẫn là một công cụ mạnh mẽ, lĩnh vực này đã có những bước tiến đáng kể. Ultralytics Mới đây, YOLO26 đã được ra mắt, một mẫu đồng hồ thế hệ mới định nghĩa lại các tiêu chuẩn do những người tiền nhiệm của nó thiết lập.

YOLO26 giới thiệu thiết kế không cần NMS từ đầu đến cuối , loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression). Điều này giúp đơn giản hóa quy trình triển khai và tăng tốc độ suy luận. Hơn nữa, YOLO26 loại bỏ Distribution Focal Loss (DFL) để cải thiện khả năng tương thích ở biên và sử dụng trình tối ưu hóa MuSGD mới, được lấy cảm hứng từ những cải tiến trong huấn luyện LLM, để đảm bảo sự hội tụ ổn định.

Đối với các nhà phát triển đang tìm kiếm hiệu năng tốt nhất tuyệt đối, việc chuyển sang YOLO26 được khuyến nghị mạnh mẽ. Nó cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, biến nó trở thành lựa chọn vượt trội cho các ứng dụng AI biên hiện đại.

Tìm hiểu thêm về YOLO26

Kết luận

Cả hai YOLOv5 và EfficientDet đã giành được vị trí xứng đáng trong danh sách những ứng cử viên hàng đầu về thị giác máy tính. EfficientDet đã chứng minh sức mạnh của phép nhân bản, trong khi đó, EfficientDet đã chứng minh sức mạnh của phép nhân bản, còn EfficientDet thì không. YOLOv5 Điều này chứng minh rằng hiệu năng cao hoàn toàn có thể đạt được và thân thiện với người dùng.

Tuy nhiên, đối với các ứng dụng thực tế vào năm 2026, hệ sinh thái Ultralytics mang lại một lợi thế rõ rệt. Sự kết hợp giữa bảo trì tích cực, nền tảng thống nhất để chú thích và huấn luyện dữ liệu , cùng với sự đổi mới kiến trúc liên tục, tạo nên những mô hình như... YOLOv5 —và mẫu YOLO26 tiên tiến —sự lựa chọn hàng đầu của các chuyên gia.

Đối với những ai quan tâm đến việc khám phá các kiến trúc hiện đại khác, hãy xem xét việc so sánh với YOLO11 hoặc RT-DETR để hiểu đầy đủ về các công cụ hiện có.