Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO và EfficientDet: Tìm hiểu chuyên sâu về kỹ thuật trong nhận diện đối tượng hiện đại#

Sự phát triển của thị giác máy tính đã tạo ra hàng loạt kiến trúc mạnh mẽ phù hợp với nhiều nhu cầu thực tế khác nhau. Trong khi một số framework ưu tiên khả năng mở rộng quy mô lớn, thì số khác lại tập trung vào tốc độ suy luận thời gian thực. Trong bài so sánh kỹ thuật này, chúng ta sẽ khám phá DAMO-YOLOEfficientDet, hai model có ảnh hưởng lớn, thể hiện những cách tiếp cận riêng biệt để giải quyết bài toán nhận diện đối tượng. Chúng ta sẽ phân tích kiến trúc, so sánh hiệu suất benchmark và cuối cùng là khám phá lý do tại sao Ultralytics YOLO26 mới được phát hành lại là lựa chọn tối ưu cho việc triển khai trong sản xuất hiện đại.

Link to this sectionTổng quan về Kiến trúc#

Cả hai model đều được thiết kế để giải quyết sự đánh đổi giữa hiệu suất và độ chính xác, nhưng chúng dựa vào các cơ chế cơ bản hoàn toàn khác nhau để đạt được mục tiêu của mình.

Link to this sectionDAMO-YOLO: Tốc độ thông qua Tìm kiếm Kiến trúc Nơ-ron (NAS)#

Được phát triển nhằm thúc đẩy các giới hạn của nhận diện thời gian thực, DAMO-YOLO tận dụng các kỹ thuật tìm kiếm tự động để xây dựng các mạng nơ-ron hiệu quả cao, được tùy chỉnh cho môi trường có độ trễ thấp.

Chi tiết DAMO-YOLO:
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO được xây dựng dựa trên backbone Neural Architecture Search (NAS) giúp tối ưu hóa cả tốc độ và độ chính xác. Nó giới thiệu RepGFPN (Reparameterized Generalized Feature Pyramid Network), giúp tăng cường khả năng hợp nhất đặc trưng trong khi vẫn duy trì tốc độ suy luận cao. Hơn nữa, thiết kế ZeroHead của nó giúp giảm thiểu chi phí tính toán thường thấy ở các head nhận diện. Model này cũng được hưởng lợi từ AlignedOTA (Aligned Optimal Transport Assignment) và cải tiến chưng cất (distillation enhancement), đảm bảo rằng ngay cả các biến thể nhỏ nhất cũng học được các biểu diễn phong phú từ các model lớn hơn.

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionEfficientDet: Khả năng mở rộng thông qua Compound Scaling#

Trái ngược với cách tiếp cận ưu tiên tốc độ, EfficientDet tập trung vào khả năng mở rộng hệ thống trên các ngân sách tính toán khác nhau.

Chi tiết EfficientDet:
Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
Tổ chức: Google Brain
Ngày: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet giới thiệu BiFPN (Bidirectional Feature Pyramid Network), cho phép hợp nhất đặc trưng đa quy mô một cách dễ dàng và nhanh chóng. Không giống như các phương pháp truyền thống mở rộng kiến trúc bằng cách thêm tùy tiện các lớp hoặc kênh, EfficientDet sử dụng phương pháp compound scaling để mở rộng đồng nhất độ phân giải, độ sâu và chiều rộng của backbone, mạng đặc trưng và các mạng dự đoán box/class cùng một lúc. Điều này cho phép nó đạt được độ chính xác hàng đầu trên phần cứng cao cấp trong khi vẫn cung cấp các biến thể nhỏ hơn cho các môi trường bị hạn chế về tài nguyên.

Tìm hiểu thêm về EfficientDet

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi so sánh hai model này cạnh nhau, sự đánh đổi giữa độ chính xác tuyệt đối và tốc độ suy luận trở nên rõ ràng. Bảng dưới đây phác thảo các chỉ số hiệu suất chính, làm nổi bật cách khả năng suy luận của DAMO-YOLO đối đầu với họ model EfficientDet.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Như đã thấy ở trên, EfficientDet-d7 đạt độ chính xác tổng thể cao nhất, khiến nó phù hợp với các ứng dụng dựa trên đám mây đòi hỏi khắt khe. Ngược lại, loạt model DAMO-YOLO cung cấp độ chính xác có tính cạnh tranh cao với độ trễ thấp hơn đáng kể trên phần cứng GPU, biến nó thành ứng viên mạnh mẽ hơn cho các triển khai edge thời gian thực.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa DAMO-YOLO và EfficientDet phụ thuộc vào các yêu cầu dự án cụ thể, các giới hạn triển khai và ưu tiên hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn EfficientDet#

EfficientDet được khuyến nghị cho:

  • Google Cloud và các đường ống TPU: Các hệ thống được tích hợp sâu với API Google Cloud Vision hoặc hạ tầng TPU, nơi EfficientDet có sự tối ưu hóa gốc.
  • Nghiên cứu về Compound Scaling: Các nghiên cứu học thuật tập trung vào việc đánh giá tác động của độ sâu mạng, chiều rộng và khả năng mở rộng độ phân giải cân bằng.
  • Triển khai trên di động qua TFLite: Các dự án yêu cầu cụ thể việc xuất TensorFlow Lite cho Android hoặc các thiết bị Linux nhúng.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionGiải pháp thay thế hiện đại: Ultralytics YOLO26#

Mặc dù cả DAMO-YOLO và EfficientDet đều đại diện cho các cột mốc học thuật quan trọng, nhưng việc triển khai thực tế thường đòi hỏi một cách tiếp cận cân bằng hơn, giàu tính năng hơn và thân thiện với nhà phát triển hơn. Đây là nơi Ultralytics YOLO26 thiết lập một tiêu chuẩn công nghiệp mới.

Được phát hành vào tháng 1 năm 2026, YOLO26 kế thừa di sản của những người tiền nhiệm, bao gồm Ultralytics YOLO11YOLOv8, mang đến một sự thay đổi mô hình trong cách tiếp cận nhận diện đối tượng.

Sự đơn giản End-to-End

YOLO26 sở hữu thiết kế End-to-End NMS-Free nguyên bản. Bằng cách loại bỏ Non-Maximum Suppression (NMS) trong quá trình hậu xử lý—một nút thắt cổ chai đã làm khó các detector đối tượng trong nhiều năm—YOLO26 mang đến một quy trình triển khai đơn giản hơn và nhanh hơn đáng kể, đặc biệt là trên phần cứng edge.

Link to this sectionHiệu suất và sự linh hoạt vượt trội#

YOLO26 không chỉ cải thiện về tốc độ; nó còn xác định lại tính ổn định và độ chính xác khi huấn luyện. Nó giới thiệu MuSGD Optimizer, một sự kết hợp giữa SGD và Muon lấy cảm hứng từ các cải tiến trong huấn luyện LLM, dẫn đến tốc độ hội tụ nhanh hơn đáng kể và hiệu quả huấn luyện vượt trội. Không giống như các giải pháp thay thế dựa trên transformer cồng kềnh như RT-DETR, YOLO26 duy trì yêu cầu bộ nhớ cực thấp, đảm bảo nó có thể được huấn luyện trên phần cứng tiêu dùng phổ thông.

Hơn nữa, YOLO26 tích hợp ProgLoss + STAL, cải thiện đáng kể khả năng nhận diện các đối tượng nhỏ, vốn rất quan trọng đối với các trường hợp sử dụng như hình ảnh trên không bằng drone và robot. Để tối ưu hóa cho các thiết bị công suất thấp, YOLO26 đã loại bỏ Distribution Focal Loss (DFL), giúp suy luận trên CPU nhanh hơn tới 43% so với các thế hệ trước.

Link to this sectionHệ sinh thái và tính dễ sử dụng#

Một trong những rào cản lớn nhất với các model như EfficientDet là quá trình tích hợp phức tạp. Ngược lại, Ultralytics Platform cung cấp một hệ sinh thái end-to-end được duy trì tốt. Với một API thống nhất, người dùng có thể dễ dàng chuyển đổi giữa nhận diện, phân đoạn đối tượng (instance segmentation), ước tính tư thế (pose estimation), phân loại hình ảnh (image classification)hộp bao định hướng (OBB).

Đây là cách đơn giản để huấn luyện và chạy suy luận với YOLO26 bằng cách sử dụng gói Python của Ultralytics:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Tìm hiểu thêm về YOLO26

Link to this sectionKết luận#

Trong khi việc khám phá DAMO-YOLO vs EfficientDet mang lại những hiểu biết tuyệt vời về sự đánh đổi giữa Neural Architecture Search và compound scaling, các nhà phát triển hiện đại cần những công cụ giúp thu hẹp khoảng cách giữa nghiên cứu học thuật và thực tế sản xuất.

Đối với các nhà phát triển ưu tiên tính dễ sử dụng, cộng đồng nguồn mở năng động và sự cân bằng không thỏa hiệp giữa tốc độ và độ chính xác, Ultralytics YOLO26 là lựa chọn dứt khoát. Kiến trúc không cần NMS, chi phí huấn luyện thấp và sự tích hợp liền mạch với hệ sinh thái Ultralytics toàn diện khiến nó trở thành framework tối thượng cho dự án thị giác máy tính tiếp theo của bạn.

Người đóng góp

Bình luận