Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet so với YOLOv10: Phân tích sự phát triển của các mô hình phát hiện đối tượng#

Trong lĩnh vực computer vision đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng để cân bằng giữa độ chính xác, độ trễ và hiệu quả tính toán. Hướng dẫn kỹ thuật toàn diện này so sánh hai mô hình có sức ảnh hưởng lớn: EfficientDet của Google và YOLOv10 của Đại học Thanh Hoa. Mặc dù cả hai mô hình đều đại diện cho những bước tiến đáng kể trong phát hiện đối tượng, chúng tiếp cận thiết kế kiến trúc và model optimization từ các góc độ hoàn toàn khác nhau.

Chúng tôi sẽ khám phá các kiến trúc cốt lõi của chúng, xem xét các điểm chuẩn hiệu năng trên các bộ dữ liệu tiêu chuẩn như COCO và thảo luận về cách chúng tích hợp vào các pipeline machine learning hiện đại, đặc biệt nhấn mạnh những ưu điểm của hệ sinh thái Ultralytics toàn diện.

Link to this sectionEfficientDet: Tiên phong trong Compound Scaling#

Được giới thiệu vào cuối năm 2019, EfficientDet đã thiết lập một tiêu chuẩn mới cho khả năng phát hiện đối tượng có thể mở rộng và độ chính xác cao bằng cách đưa ra một phương pháp nguyên tắc để mở rộng quy mô các chiều của mạng.

Link to this sectionNhững cải tiến chính và kiến trúc#

EfficientDet được xây dựng trên backbone EfficientNet, tận dụng Bi-directional Feature Pyramid Network (BiFPN) mới. Không giống như Feature Pyramid Networks (FPN) truyền thống vốn tổng hợp các tính năng mà không phân biệt tầm quan trọng, BiFPN sử dụng các trọng số có thể học được để hợp nhất các tính năng đa quy mô. Điều này cho phép mạng học hiệu quả những tính năng có độ phân giải nào đóng góp nhiều nhất vào dự đoán cuối cùng. Hơn nữa, EfficientDet sử dụng phương pháp compound scaling để mở rộng đồng nhất độ phân giải, độ sâu và độ rộng cho backbone, mạng tính năng và mạng dự đoán box/lớp cùng một lúc.

Mặc dù EfficientDet vẫn là một lựa chọn vững chắc cho các hệ thống legacy được tích hợp sâu với các pipeline TensorFlow cũ hơn, nó đi kèm với yêu cầu bộ nhớ đáng kể trong quá trình huấn luyện và dựa vào một hệ sinh thái cũ hơn có thể gây cồng kềnh so với các framework năng động, hiện đại.

Tìm hiểu thêm về EfficientDet

Link to this sectionYOLOv10: Nhà đổi mới không cần NMS#

Được phát hành vào giữa năm 2024, YOLOv10 đã thay đổi căn bản mô hình phát hiện đối tượng thời gian thực bằng cách loại bỏ nhu cầu về Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, giúp giảm đáng kể inference latency.

Link to this sectionNhững cải tiến chính và kiến trúc#

YOLOv10 giới thiệu một chiến lược gán kép nhất quán cho việc huấn luyện không cần NMS. Bằng cách sử dụng cả gán nhãn one-to-many và one-to-one trong quá trình huấn luyện, mạng học cách tạo ra các bounding box khớp duy nhất mà không cần dựa vào NMS để lọc bỏ các bản sao. Thiết kế mô hình dựa trên sự cân bằng giữa hiệu quả và độ chính xác toàn diện này làm giảm sự dư thừa tính toán, biến nó thành ứng viên tuyệt vời cho edge computing và các ứng dụng phát video có độ trễ thấp. Nó tích hợp liền mạch vào hệ sinh thái Ultralytics, mang lại cho các nhà phát triển quyền truy cập vào một Python API cực kỳ đơn giản.

Tìm hiểu thêm về YOLOv10

Tác động của việc không cần NMS

Bằng cách loại bỏ bước NMS, YOLOv10 đảm bảo tốc độ inference nhất quán bất kể có bao nhiêu đối tượng được phát hiện trong một cảnh, loại bỏ các đột biến độ trễ thường thấy trong các computer vision applications đông đúc.

Link to this sectionSo sánh hiệu năng: Độ chính xác, Tốc độ và Hiệu quả#

Khi triển khai các mô hình trong các kịch bản thực tế, các nhà phát triển phải cân nhắc mean Average Precision (mAP) so với số lượng tham số và các phép toán tính toán (FLOPs). Bảng dưới đây trình bày chi tiết các chỉ số này trên các biến thể mở rộng của cả hai mô hình.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Lưu ý: Biến thể YOLOv10n yêu cầu ít tham số hơn đáng kể (2.3M) và đạt được tốc độ TensorRT vượt trội (1.56ms) so với các phiên bản EfficientDet ban đầu, khiến nó trở nên khả thi hơn nhiều cho real-time inference trong sản xuất.

Link to this sectionTại sao chọn Ultralytics để triển khai mô hình?#

Mặc dù cả hai mô hình đều có ý nghĩa lịch sử và cấu trúc, việc tích hợp chúng vào các pipeline hiện đại có thể là một thách thức. Đây là nơi Ultralytics Platform tỏa sáng. Bằng cách cung cấp một hệ sinh thái thống nhất, Ultralytics đơn giản hóa toàn bộ vòng đời—từ data annotation đến triển khai.

  1. Dễ sử dụng: Gói Python của Ultralytics cung cấp một giao diện duy nhất cho model training, validation và xuất mô hình, thay thế hàng trăm dòng code boilerplate bằng các lệnh ngắn gọn.
  2. Hệ sinh thái và tính linh hoạt: Trong khi EfficientDet chuyên sâu cho phát hiện, các mô hình YOLO của Ultralytics mở rộng tự nhiên sang Instance Segmentation, Pose Estimation, Oriented Bounding Boxes (OBB) và Phân loại.
  3. Hiệu quả huấn luyện: Tận dụng các kỹ thuật tiên tiến như auto-batching và huấn luyện phân tán, các mô hình Ultralytics huấn luyện nhanh hơn và tiêu thụ ít bộ nhớ CUDA hơn đáng kể so với các kiến trúc Transformer nặng hoặc các kiến trúc TF đa nhánh cũ.

Link to this sectionVí dụ về mã: Huấn luyện YOLOv10#

Việc triển khai YOLOv10 với Ultralytics cực kỳ đơn giản. Đoạn mã sau đây minh họa cách khởi tạo, huấn luyện và đánh giá một mạng YOLOv10 hoàn toàn trong Python API.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model (nano variant for edge speed)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Evaluate the model on the validation set
metrics = model.val()

# Export the model to ONNX for production deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa EfficientDet và YOLOv10 phụ thuộc vào các yêu cầu cụ thể của dự án, giới hạn triển khai và ưu tiên hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet là một lựa chọn mạnh mẽ cho:

  • Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
  • Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
  • Triển khai di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho các thiết bị Android hoặc Linux nhúng.

Link to this sectionKhi nào nên chọn YOLOv10#

YOLOv10 được khuyến nghị cho:

  • Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
  • Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
  • Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionTương lai đã đến: Giới thiệu Ultralytics YOLO26#

Mặc dù YOLOv10 đã giới thiệu thiết kế không cần NMS mang tính cách mạng, công nghệ này đã phát triển. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho trạng thái tiên tiến nhất cho vision AI. Nó hợp nhất các khía cạnh tốt nhất của các kiến trúc trước đó—như khả năng đa nhiệm của YOLO11 và độ ổn định của RT-DETR—thành một sức mạnh duy nhất, được tối ưu hóa cao độ.

Ưu điểm của YOLO26

Nếu bạn đang bắt đầu một dự án mới, chúng tôi thực sự khuyên bạn nên nâng cấp lên YOLO26. Nó mang đến sự linh hoạt chưa từng có và dễ sử dụng thông qua Ultralytics Platform.

Các đột phá chính trong YOLO26:

  • Thiết kế End-to-End không cần NMS: Dựa trên nền tảng được đặt ra bởi YOLOv10, YOLO26 là dạng end-to-end nguyên bản, giúp đơn giản hóa logic triển khai xuống mức tối thiểu.
  • Suy luận CPU nhanh hơn tới 43%: Với việc loại bỏ Distribution Focal Loss (DFL), YOLO26 cắt giảm đáng kể chi phí tính toán, biến nó thành nhà vô địch không thể tranh cãi cho edge AI devices.
  • Trình tối ưu hóa MuSGD: YOLO26 vay mượn các cải tiến từ việc huấn luyện mô hình ngôn ngữ lớn (LLM). Bằng cách kết hợp sự ổn định của SGD với tốc độ của Muon, nó hội tụ nhanh hơn và đáng tin cậy hơn bất kỳ phiên bản tiền nhiệm nào.
  • ProgLoss + STAL: Các công thức loss vượt trội giải quyết hiệu quả các vấn đề lâu đời trong việc phát hiện đối tượng nhỏ, một lĩnh vực mà EfficientDet truyền thống gặp khó khăn.

Tìm hiểu thêm về YOLO26

Link to this sectionKết luận: Kết hợp các model với các trường hợp sử dụng#

Việc lựa chọn giữa các mạng này cuối cùng phụ thuộc vào các ràng buộc triển khai của bạn:

  • EfficientDet vẫn là một chủ đề nghiên cứu học thuật về compound scaling và phù hợp cho các nhà nghiên cứu đang duy trì các hệ thống TensorFlow hiện có, nơi kích thước trọng số model (trên ổ đĩa) quan trọng hơn tốc độ chạy runtime.
  • YOLOv10 rất ấn tượng đối với các ứng dụng đòi hỏi độ trễ cực thấp, chẳng hạn như multi-object tracking tốc độ cao và giám sát giao thông, nhờ vào kiến trúc không NMS tiên phong của nó.
  • YOLO26, tuy nhiên, là khuyến nghị tối ưu cho các computer vision projects hiện đại, mang lại Performance Balance cao nhất tuyệt đối về độ chính xác, chiếm dụng bộ nhớ tối thiểu và tính đa nhiệm linh hoạt được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ.
Người đóng góp

Bình luận