Link to this sectionEfficientDet so với YOLOv6-3.0#

Việc lựa chọn kiến trúc mạng thần kinh phù hợp là nền tảng cho bất kỳ sáng kiến computer vision thành công nào. Bài phân tích chuyên sâu này cung cấp sự so sánh mang tính kỹ thuật cao giữa hai mô hình then chốt trong lĩnh vực object detection: EfficientDet của Google và YOLOv6-3.0 của Meituan.

Mặc dù cả hai kiến trúc đều đại diện cho những bước tiến lớn khi ra mắt, nhưng sự phát triển nhanh chóng của trí tuệ nhân tạo đã mang đến các giải pháp linh hoạt và tối ưu hóa cho thiết bị biên (edge) hơn. Dưới đây, chúng tôi phân tích hiệu suất, phương pháp huấn luyện và các sắc thái kiến trúc của EfficientDet và YOLOv6-3.0, đồng thời khám phá lý do tại sao các nhà phát triển ngày càng chuyển sang các hệ sinh thái hiện đại như Ultralytics YOLO26 để triển khai các mô hình tiên tiến nhất.

Link to this sectionEfficientDet: Kiến trúc AutoML có khả năng mở rộng#

Được phát triển bởi nhóm Google Brain, EfficientDet đã tạo ra một sự thay đổi mô hình bằng cách dựa vào automated machine learning (AutoML) để tối ưu hóa cả backbone và mạng đặc trưng của nó.

Tác giả: Mingxing Tan, Ruoming Pang và Quoc V. Le
Tổ chức: Google Research
Ngày: 20-11-2019
Arxiv: 1911.09070
GitHub: google/automl
Tài liệu: EfficientDet README

Link to this sectionCải tiến kiến trúc#

Đổi mới cốt lõi của EfficientDet là BiFPN (Bi-directional Feature Pyramid Network). Không giống như các FPN truyền thống chỉ tổng hợp các đặc trưng từ trên xuống dưới, BiFPN cho phép các kết nối chéo đa quy mô hai chiều phức tạp và sử dụng các trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với phương pháp mở rộng hợp nhất (compound scaling) giúp mở rộng đồng nhất độ phân giải, độ sâu và độ rộng của mạng cùng một lúc.

Link to this sectionĐiểm mạnh và điểm yếu#

EfficientDet đạt được mean average precision (mAP) xuất sắc so với số lượng tham số của nó, giúp nó đạt độ chính xác cao vào thời điểm ra mắt. Tuy nhiên, nó phụ thuộc nhiều vào môi trường TensorFlow cũ. Sự phụ thuộc này thường dẫn đến việc điều chỉnh siêu tham số phức tạp, mức sử dụng bộ nhớ cao hơn trong quá trình huấn luyện và độ trễ suy luận chậm hơn trên phần cứng tiêu chuẩn so với các trình phát hiện một giai đoạn dựa trên PyTorch hiện đại.

Tìm hiểu thêm về EfficientDet

Link to this sectionYOLOv6-3.0: Nhà vô địch về thông lượng công nghiệp#

Được phát hành để phục vụ nhu cầu cụ thể về xử lý khối lượng lớn, YOLOv6-3.0 là một convolutional neural network (CNN) được thiết kế ngay từ đầu để tối đa hóa thông lượng trên các bộ tăng tốc phần cứng như GPU NVIDIA T4 và A100.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, và cộng sự.
Tổ chức: Meituan Vision AI
Ngày: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6
Docs: Tài liệu YOLOv6

Link to this sectionCải tiến kiến trúc#

YOLOv6-3.0 thay thế các mô-đun truyền thống bằng mô-đun Bi-directional Concatenation (BiC) trong phần neck để bảo toàn tín hiệu định vị chính xác. Hơn nữa, nó sử dụng chiến lược Anchor-Aided Training (AAT). AAT tích hợp một nhánh phụ trợ dựa trên anchor trong giai đoạn huấn luyện để cung cấp hướng dẫn gradient bổ sung, sau đó được loại bỏ trong quá trình suy luận để duy trì lợi thế tốc độ không cần anchor (anchor-free).

Link to this sectionĐiểm mạnh và điểm yếu#

Được xây dựng trên backbone EfficientRep thân thiện với phần cứng, YOLOv6-3.0 vượt trội trong các manufacturing environments công nghiệp tốc độ cao, nơi việc xử lý theo lô (batch processing) trên GPU chuyên dụng là khả thi. Tuy nhiên, sự phụ thuộc nặng nề vào các thao tác tái tham số hóa (re-parameterization) có thể dẫn đến tốc độ sụt giảm đáng kể khi triển khai trên các thiết bị biên hoặc môi trường chỉ dựa vào tính toán CPU.

Tìm hiểu thêm về YOLOv6-3.0

Link to this sectionSo sánh hiệu năng#

Hiểu rõ các performance metrics thô là điều cơ bản để chọn một mô hình phù hợp với các ràng buộc triển khai cụ thể của bạn. Dưới đây là phân tích chi tiết về độ chính xác, tốc độ và dấu ấn tính toán.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Các lưu ý về phần cứng

Mặc dù YOLOv6-3.0 thể hiện tốc độ TensorRT cực nhanh trên GPU T4, các nhà phát triển triển khai trên phần cứng biên hoặc CPU bị giới hạn sẽ được hưởng lợi đáng kể từ các kiến trúc được thiết kế đặc biệt cho môi trường tiêu thụ điện năng thấp, chẳng hạn như Ultralytics YOLO26.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa EfficientDet và YOLOv6 phụ thuộc vào yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet là một lựa chọn mạnh mẽ cho:

Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 được khuyến nghị cho:

Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Tại sao YOLO26 là sự lựa chọn ưu việt#

Trong khi EfficientDet và YOLOv6-3.0 là những cột mốc quan trọng trong nghiên cứu thị giác máy tính, việc triển khai chúng trong môi trường sản xuất hiện đại thường liên quan đến việc xử lý các phụ thuộc phức tạp, API rời rạc và yêu cầu bộ nhớ cao. Ultralytics ecosystem giải quyết các nút thắt quy trình làm việc này một cách nguyên bản.

Đối với các nhà phát triển đang tìm kiếm đỉnh cao về hiệu suất và sự dễ sử dụng, Ultralytics YOLO26 (ra mắt vào tháng 1 năm 2026) mang đến một bước tiến thế hệ. Đây là mô hình được khuyến nghị cho các lần triển khai mới, vượt qua các kiến trúc cũ trên mọi phương diện.

Link to this sectionNhững cải tiến đột phá của YOLO26#

Thiết kế End-to-End không cần NMS: YOLO26 là mô hình end-to-end nguyên bản, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Điều này giúp giảm đáng kể sự biến thiên về độ trễ và đơn giản hóa việc model deployment trên các loại phần cứng biên đa dạng.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định của mô hình ngôn ngữ lớn vào thị giác máy tính, đảm bảo sự hội tụ nhanh hơn và các quy trình huấn luyện hiệu quả cao.
Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho edge computing và các thiết bị tiêu thụ điện năng thấp, YOLO26 mang lại tốc độ CPU vô song nơi các mô hình công nghiệp truyền thống gặp khó khăn.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa biểu đồ xuất (export graph), tạo khả năng tương thích liền mạch với các runtime triển khai như OpenVINO và CoreML.
ProgLoss + STAL: Các hàm mất mát (loss functions) nâng cao mang lại những cải tiến đáng kể trong small-object recognition, giúp YOLO26 trở nên không thể thiếu cho lập bản đồ bằng máy bay không người lái, cảm biến IoT và robot.

Link to this sectionSự linh hoạt vô song#

Không giống như EfficientDet vốn bị giới hạn ở việc phát hiện bounding box, YOLO26 là một mô hình học đa tác vụ nguyên bản. Python API thống nhất hỗ trợ Instance Segmentation, Pose Estimation, phân loại hình ảnh và phát hiện Oriented Bounding Box (OBB) ngay khi cài đặt, với các cải tiến cụ thể cho từng tác vụ như Semantic Segmentation Loss và Residual Log-Likelihood Estimation (RLE) được tích hợp trực tiếp vào kiến trúc.

Tìm hiểu thêm về YOLO26

Link to this sectionTích hợp mã nguồn liền mạch#

Việc huấn luyện một mạng thần kinh tiên tiến không còn đòi hỏi hàng trăm dòng mã lập trình mẫu. Thư viện Ultralytics cho phép các nhà nghiên cứu tải, huấn luyện và xác thực một mô hình trên các tập dữ liệu tiêu chuẩn như COCO một cách hoàn hảo:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model efficiently with automatic hardware detection
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Achieved mAP50-95: {metrics.box.map:.3f}")

# Export directly to ONNX or TensorRT without NMS overhead
model.export(format="onnx")

Link to this sectionCác model khác cần xem xét#

Nếu dự án của bạn cần hỗ trợ các cấu hình phần cứng cũ hơn hoặc bạn đang duy trì một cơ sở mã cũ, hệ sinh thái Ultralytics rộng lớn hơn luôn sẵn sàng hỗ trợ bạn.

Ultralytics YOLO11: Người tiền nhiệm trực tiếp của YOLO26, rất đáng tin cậy trong các môi trường doanh nghiệp yêu cầu các pipeline hoàn thiện và được ghi chép kỹ lưỡng.
Ultralytics YOLOv8: Tiêu chuẩn đã xác định lại trải nghiệm của nhà phát triển, vẫn là một lựa chọn tuyệt vời cho các tác vụ thị giác máy tính đa năng, được tích hợp sâu với các công cụ như TensorBoard và Weights & Biases.

Người đóng góp

GLglenn-jocher¹⁶

Đã tạo 27 thg 1, 2025Đã cập nhật 3 tuần trước

Link to this sectionEfficientDet so với YOLOv6-3.0#

Link to this sectionEfficientDet: Kiến trúc AutoML có khả năng mở rộng#

Link to this sectionCải tiến kiến trúc#

Link to this sectionĐiểm mạnh và điểm yếu#

Link to this sectionYOLOv6-3.0: Nhà vô địch về thông lượng công nghiệp#

Link to this sectionCải tiến kiến trúc#

Link to this sectionĐiểm mạnh và điểm yếu#

Link to this sectionSo sánh hiệu năng#

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Link to this sectionKhi nào nên chọn EfficientDet#

Link to this sectionKhi nào nên chọn YOLOv6#

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Link to this sectionLợi thế của Ultralytics: Tại sao YOLO26 là sự lựa chọn ưu việt#

Link to this sectionNhững cải tiến đột phá của YOLO26#

Link to this sectionSự linh hoạt vô song#

Link to this sectionTích hợp mã nguồn liền mạch#

Link to this sectionCác model khác cần xem xét#

Bình luận