Meet YOLO26: next-gen vision AI.

Link to this sectionEfficientDet so với DAMO-YOLO#

Khi xây dựng các pipeline computer vision có khả năng mở rộng, việc lựa chọn kiến trúc model phù hợp là một quyết định quan trọng ảnh hưởng đến cả khả năng triển khai và độ chính xác của việc phát hiện. Hướng dẫn này cung cấp một so sánh kỹ thuật chuyên sâu giữa hai kiến trúc nổi tiếng trong lĩnh vực nhận diện thị giác: EfficientDet và DAMO-YOLO.

Mặc dù cả hai model đều mang lại những đổi mới đáng kể cho lĩnh vực object detection, sự tiến bộ nhanh chóng của vision AI đã mở đường cho các hệ sinh thái tích hợp hơn. Trong suốt quá trình phân tích này, chúng ta sẽ khám phá các cơ chế cốt lõi của những mạng kế thừa này, đồng thời minh họa lý do tại sao các giải pháp hiện đại như Ultralytics PlatformUltralytics YOLO26 đã trở thành tiêu chuẩn công nghiệp cho các môi trường production.

Link to this sectionEfficientDet: Phát hiện đối tượng có khả năng mở rộng và hiệu quả#

Được giới thiệu bởi các nhà nghiên cứu tại Google, EfficientDet được thiết kế để mở rộng kiến trúc model một cách có hệ thống trong khi vẫn duy trì hiệu suất cao. Nó đạt được điều này bằng cách tận dụng compound scaling trên chiều sâu mạng, chiều rộng và độ phân giải đầu vào.

Chi tiết về EfficientDet: Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Brain
Ngày: 2019-11-20
Arxiv: 1911.09070
GitHub: google/automl

Link to this sectionCải tiến kiến trúc#

Đóng góp chính của EfficientDet là Bi-directional Feature Pyramid Network (BiFPN). Khác với các FPN truyền thống, BiFPN cho phép hợp nhất các đặc trưng đa quy mô một cách dễ dàng và nhanh chóng bằng cách sử dụng các trọng số có thể học được để hiểu tầm quan trọng của các đặc trưng đầu vào khác nhau. Điều này được kết hợp với backbone EfficientNet, tạo ra một nhóm các model (từ D0 đến D7) có khả năng mở rộng một cách có thể dự đoán được.

Link to this sectionĐiểm mạnh và điểm yếu#

Điểm mạnh chính của EfficientDet nằm ở hiệu quả về tham số. Đối với các tác vụ cần tối đa hóa mAP trong các môi trường cloud bị hạn chế nghiêm ngặt, phương pháp compound scaling của nó rất dễ dự đoán. Tuy nhiên, EfficientDet nổi tiếng là phức tạp khi huấn luyện từ đầu và thường đòi hỏi hyperparameter tuning đáng kể. Hơn nữa, việc phụ thuộc nặng nề vào các thao tác TensorFlow cụ thể khiến việc chuyển đổi sang triển khai tại edge qua ONNX hoặc TensorRT trở nên cồng kềnh hơn so với các khả năng xuất tinh gọn được tìm thấy trong các model YOLO hiện đại.

Tìm hiểu thêm về EfficientDet

Link to this sectionDAMO-YOLO: Tự động tìm kiếm kiến trúc trong thực tiễn#

DAMO-YOLO đại diện cho một phương pháp tiếp cận khác biệt, sử dụng Neural Architecture Search (NAS) để tự động thiết kế các cấu trúc mạng tối ưu cho việc suy luận thời gian thực.

Chi tiết về DAMO-YOLO: Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO

Link to this sectionCải tiến kiến trúc#

DAMO-YOLO giới thiệu một số công nghệ mới. Nó sử dụng một backbone do NAS tạo ra có tên là MAE-NAS, một RepGFPN hiệu quả cho phần cổ mạng, và thiết kế ZeroHead giúp giảm đáng kể chi phí tính toán của detection head. Hơn nữa, nó sử dụng AlignedOTA cho việc gán nhãn và phụ thuộc nhiều vào việc nâng cao khả năng chưng cất tri thức (knowledge distillation) để thúc đẩy hiệu suất của các biến thể nhỏ hơn.

Link to this sectionĐiểm mạnh và điểm yếu#

DAMO-YOLO tỏa sáng ở tốc độ suy luận trên GPU, được thiết kế đặc biệt để triển khai trên các kiến trúc NVIDIA sử dụng TensorRT. Bằng cách loại bỏ các cấu trúc đầu nặng nề, model mang lại các dự đoán có độ trễ thấp. Ngược lại, việc tự động tìm kiếm kiến trúc có thể làm cho cấu trúc model trở nên mờ đục và khó debug hoặc tinh chỉnh thủ công cho các thiết bị edge tùy chỉnh. Không giống như Ultralytics YOLO11 vô cùng linh hoạt, DAMO-YOLO chủ yếu tập trung vào phát hiện hộp bao (bounding box) tiêu chuẩn, thiếu hỗ trợ gốc cho các tác vụ nâng cao như pose estimation hoặc oriented bounding box (OBB) ngay khi cài đặt.

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionSo sánh hiệu năng#

Việc hiểu rõ các đánh đổi thực nghiệm là điều cần thiết để lựa chọn model. Bảng dưới đây so sánh dòng EfficientDet với loạt model DAMO-YOLO dựa trên các chỉ số hiệu suất quan trọng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
Phân tích dữ liệu

EfficientDet-d7 đạt độ chính xác lý thuyết cao nhất nhưng đòi hỏi sức mạnh tính toán cực lớn, khiến nó không phù hợp cho edge AI. DAMO-YOLO cung cấp tốc độ TensorRT vượt trội, mặc dù nhìn chung nó đòi hỏi nhiều tham số hơn so với các model EfficientDet cấp thấp để đạt được độ chính xác tương đương.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa EfficientDet và DAMO-YOLO phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet là một lựa chọn mạnh mẽ cho:

  • Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
  • Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
  • Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Tiến xa hơn các model kế thừa#

Trong khi EfficientDet và DAMO-YOLO cung cấp những hiểu biết học thuật có giá trị, các nhà phát triển hiện đại yêu cầu các framework cân bằng được hiệu suất tiên tiến với tính công thái học cho nhà phát triển. Đây là nơi hệ sinh thái Ultralytics vượt trội.

Link to this sectionSự dễ sử dụng và hệ sinh thái vô song#

Việc triển khai các model từ các kho lưu trữ nghiên cứu riêng biệt và tùy chỉnh nặng nề thường dẫn đến những cơn ác mộng về tích hợp. Ultralytics cung cấp một hệ sinh thái được duy trì tốt thống nhất với tài liệu mở rộng và một Pythonic API. Cho dù bạn đang sử dụng Google Colab để huấn luyện hay xuất sang CoreML để suy luận trên thiết bị di động, pipeline chỉ yêu cầu vài dòng code.

from ultralytics import YOLO

# Load the highly recommended YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX for production
model.export(format="onnx")

Link to this sectionCuộc cách mạng YOLO26#

Đối với các nhà phát triển đang đánh giá EfficientDet hoặc DAMO-YOLO, Ultralytics YOLO26 đại diện cho bước tiến hóa cuối cùng. Được phát hành vào đầu năm 2026, nó giới thiệu các khả năng thay đổi mô hình:

  • Thiết kế End-to-End không cần NMS: Lần đầu tiên được tiên phong bởi YOLOv10, YOLO26 loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression (NMS). Điều này dẫn đến các kiến trúc triển khai đơn giản hơn nhiều và độ trễ nhất quán trên các phần cứng đa dạng.
  • Suy luận trên CPU nhanh hơn tới 43%: Đối với các triển khai tại edge thiếu GPU mạnh mẽ—những kịch bản mà DAMO-YOLO gặp khó khăn—YOLO26 được tối ưu hóa mạnh mẽ, mang lại tốc độ tăng tốc vượt bậc trên các CPU tiêu chuẩn.
  • Tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa các đổi mới LLM và computer vision, YOLO26 tích hợp trình tối ưu hóa MuSGD (lấy cảm hứng từ Moonshot AI), đảm bảo việc huấn luyện cực kỳ ổn định và hội tụ nhanh chóng so với các vòng lặp huấn luyện kém bền vững của EfficientDet.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa quá trình xuất, đảm bảo khả năng tương thích vượt trội với các vi điều khiển công suất thấp và các thiết bị Raspberry Pi.
  • ProgLoss + STAL: Những hàm loss tiên tiến này mang lại sự cải thiện đáng kể trong nhận diện đối tượng nhỏ, một lĩnh vực mà các kiến trúc cũ thường thất bại.

Link to this sectionHiệu quả bộ nhớ và sự linh hoạt của tác vụ#

Không giống như các model transformer hoặc các mạng NAS được hợp nhất nặng nề, các model Ultralytics được đặc trưng bởi hiệu quả bộ nhớ nghiêm ngặt. Chúng tiêu thụ bộ nhớ CUDA thấp hơn đáng kể trong quá trình huấn luyện, cho phép lặp nhanh trên phần cứng cấp độ người tiêu dùng.

Hơn nữa, trong khi EfficientDet và DAMO-YOLO bị ràng buộc cứng nhắc với các hộp bao, Ultralytics hỗ trợ gốc instance segmentationimage classification trong cùng một framework trực quan. Đối với những người dùng đang duy trì các dự án cũ, Ultralytics YOLOv8 vẫn là một sự thay thế vững chắc, được triển khai rộng rãi đáng để khám phá.

Link to this sectionKết luận#

Việc chọn kiến trúc thị giác phù hợp bao gồm việc cân nhắc hiệu suất lý thuyết thô với thực tế triển khai. EfficientDet cung cấp một phương pháp mở rộng quy mô tinh tế về mặt toán học, và DAMO-YOLO mang lại tốc độ GPU thô thuyết phục. Tuy nhiên, đối với các nhóm ưu tiên phát triển nhanh, triển khai đáng tin cậy và các tính năng tiên tiến, các model Ultralytics rõ ràng vượt trội. Bằng cách kết hợp các đổi mới như suy luận không cần NMS và tối ưu hóa MuSGD, YOLO26 đảm bảo các dự án computer vision của bạn được xây dựng trên nền tảng có khả năng nhất, dễ bảo trì nhất và hiệu quả nhất hiện nay.

Người đóng góp

Bình luận