Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 so với DAMO-YOLO#

Việc lựa chọn kiến trúc tối ưu là một bước quan trọng trong bất kỳ dự án computer vision nào. Hướng dẫn kỹ thuật này cung cấp sự so sánh toàn diện giữa hai model nhận diện đối tượng mạnh mẽ: Ultralytics YOLO11DAMO-YOLO. Chúng tôi sẽ đi sâu vào những cải tiến kiến trúc, mô hình đào tạo và khả năng ứng dụng thực tế để giúp bạn chọn công cụ tốt nhất cho nhu cầu triển khai của mình.

Link to this sectionTổng quan về mô hình#

Link to this sectionUltralytics YOLO11#

Được phát triển bởi đội ngũ tại Ultralytics, YOLO11 đại diện cho một phiên bản tinh chỉnh chuyên sâu trong dòng YOLO, tối ưu hóa mạnh mẽ cả về độ chính xác và hiệu suất. Nó được thiết kế cho các nhà nghiên cứu và kỹ sư đang tìm kiếm một hệ sinh thái thống nhất, sẵn sàng cho sản xuất, trải dài từ quản lý dữ liệu đến triển khai tại biên.

Tìm hiểu thêm về YOLO11

YOLO11 nổi bật nhờ tính linh hoạt. Trong khi nhiều model truyền thống chỉ tập trung vào bounding box, YOLO11 hỗ trợ nguyên bản các tác vụ object detection, instance segmentation, image classificationpose estimation. Khả năng đa phương thức này cho phép các nhà phát triển hợp nhất các đường ống vision AI của họ dưới một framework duy nhất được bảo trì tốt.

Link to this sectionDAMO-YOLO#

DAMO-YOLO được phát triển bởi các nhà nghiên cứu tại Alibaba Group. Nó tận dụng Neural Architecture Search (NAS) để khám phá các backbone hiệu quả cao được tùy chỉnh cho suy luận thời gian thực trên GPU và các bộ tăng tốc khác.

Tìm hiểu thêm về DAMO-YOLO

Triết lý cốt lõi của DAMO-YOLO xoay quanh rep-parameterization và tìm kiếm tự động. Bằng cách sử dụng MAE-NAS (Multi-Objective Evolutionary Neural Architecture Search), các tác giả đã thiết kế một backbone tùy chỉnh giúp tăng tốc độ suy luận đáng kể trên phần cứng chuyên dụng. Nó cũng kết hợp một neck được tối ưu hóa cao gọi là Efficient RepGFPN và cấu trúc ZeroHead đơn giản hóa để giảm thiểu độ trễ.

Các model khác cần xem xét

Trong khi so sánh YOLO11 và DAMO-YOLO, hãy cân nhắc xem xét Ultralytics YOLO26 mới hơn. Nó giới thiệu tính năng suy luận end-to-end không cần NMS nguyên bản và mang lại tốc độ CPU nhanh hơn tới 43%. Bạn cũng có thể khám phá các so sánh liên quan đến YOLOX hoặc YOLOv8.

Link to this sectionSo sánh Hiệu suất và Kiến trúc#

Hiểu rõ các đánh đổi về hiệu suất là rất quan trọng khi triển khai các ứng dụng edge AI. Bảng dưới đây tóm tắt các chỉ số chính như mean Average Precision (mAP), độ trễ và dung lượng tính toán.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionPhân tích chuyên sâu về kiến trúc#

YOLO11 dựa trên một backbone hiệu quả cao, được thiết kế tùy chỉnh giúp cân bằng hoàn hảo giữa số lượng tham số và khả năng biểu diễn. Nó được tối ưu hóa để hoạt động tuyệt vời trên nhiều loại phần cứng, đạt hiệu suất nguyên bản tốt nhất với mức sử dụng CUDA memory tối thiểu trong cả quá trình đào tạo và suy luận. Điều này khiến nó trở thành một lựa chọn xuất sắc cho phần cứng tiêu dùng phổ thông hoặc các thiết bị IoT bị hạn chế về tài nguyên.

Ngược lại, các backbone được tạo bởi MAE-NAS của DAMO-YOLO được tinh chỉnh cho môi trường GPU có lưu lượng xử lý cao. Efficient RepGFPN (Generalized Feature Pyramid Network) của nó tích hợp nhiều quy mô một cách mạnh mẽ. Tuy nhiên, dù rep-parameterization tăng tốc độ suy luận, nó có thể làm phức tạp quá trình triển khai nếu cấu trúc phần cứng của bạn không hỗ trợ tốt các thao tác này.

Link to this sectionKhả năng sử dụng và Hiệu quả đào tạo#

Khi tính đến thời gian phát triển, Ease of Use (Độ dễ sử dụng) của một model trở nên quan trọng ngang bằng với các benchmark thô của nó.

YOLO11 được xây dựng dựa trên nguyên tắc khả năng tiếp cận của nhà phát triển. Gói ultralytics toàn diện giúp trừu tượng hóa các công việc nặng nhọc như phân tích cú pháp dataset, augmentation và điều chỉnh siêu tham số. Việc xuất model sang các định dạng sản xuất như ONNX, TensorRTOpenVINO chỉ cần một câu lệnh duy nhất.

from ultralytics import YOLO

# Initialize YOLO11 object detection model
model = YOLO("yolo11s.pt")

# Train the model with mixed precision on COCO8
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for edge deployment
model.export(format="engine", device=0)

DAMO-YOLO, xuất phát từ nền tảng học thuật và nghiên cứu, đòi hỏi lộ trình học tập khó khăn hơn. Để đạt được độ chính xác tối đa, người dùng thường phải thực hiện các đường ống kiến thức chưng cất (knowledge distillation) phức tạp—nghĩa là bạn phải đào tạo một mạng "giáo viên" khổng lồ trước khi truyền kiến thức đó sang mạng "học sinh" nhỏ hơn. Điều này làm tăng vọt chi phí GPU compute cần thiết và tổng thời gian đào tạo so với các vòng lặp đào tạo tinh gọn của các model Ultralytics.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLO11 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và ưu tiên về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLO11#

YOLO11 là lựa chọn mạnh mẽ cho:

  • Triển khai Edge trong sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và sự bảo trì tích cực là tối quan trọng.
  • Các ứng dụng thị giác đa tác vụ: Các dự án yêu cầu phát hiện, phân đoạn, ước tính tư thế, và OBB trong một khung duy nhất.
  • Tạo mẫu và triển khai nhanh: Các nhóm cần di chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng Ultralytics Python API được tinh giản.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionCác Ứng dụng Thực tế và Trường hợp Sử dụng#

Link to this sectionHệ thống tự hành và Drone#

Đối với hình ảnh trên không và triển khai UAV, YOLO11 mang lại sự cân bằng hiệu suất cực kỳ thuận lợi. Nhận diện đối tượng nhỏ là một rào cản lớn trong phân tích drone, nhưng YOLO11 xử lý các quy mô khác nhau một cách nguyên bản ngay lập tức. Ngoài ra, memory requirements thấp cho phép các biến thể Nano và Small của YOLO11 chạy trực tiếp trên các CPU hoặc NPU biên nhẹ được gắn trên drone.

Link to this sectionTự động hóa Công nghiệp và Kiểm soát Chất lượng#

Trong các nhà máy thông minh, độ trễ là ưu tiên hàng đầu. Mặc dù DAMO-YOLO cung cấp tốc độ suy luận mạnh mẽ trên các GPU cấp máy chủ nhờ neck RepGFPN, nhưng sự tích hợp cứng nhắc có thể là quá mức cần thiết. YOLO11 thường hoạt động như một giải pháp thay thế vượt trội cho kiểm soát chất lượng tự động nhờ các tracking APIs đơn giản và khả năng chuyển đổi liền mạch từ phát hiện thuần túy sang các tác vụ oriented bounding box (OBB) nếu các lỗi yêu cầu nhận diện biên theo góc nghiêng.

Link to this sectionChăm sóc sức khỏe thông minh và Hình ảnh y tế#

Các tập dữ liệu hình ảnh y tế thường tương đối nhỏ, và việc tránh overfitting là một thách thức. Các kỹ thuật augmentation chủ động, kết hợp với các đường ống transfer learning tiêu chuẩn được cung cấp bởi Well-Maintained Ecosystem của Ultralytics, giúp các bác sĩ lâm sàng và nhà phát triển triển khai các model tumor detection một cách đáng tin cậy. Sự hỗ trợ từ cộng đồng rộng lớn đảm bảo rằng các vấn đề trong các lĩnh vực phức tạp như chăm sóc sức khỏe được giải quyết nhanh chóng.

Đón đầu tương lai với YOLO26

Nếu bạn đang xây dựng một ứng dụng mới từ đầu, hãy cân nhắc khám phá YOLO26. Ra mắt đầu năm 2026, nó sử dụng bộ tối ưu hóa MuSGD và các hàm ProgLoss, mang lại độ chính xác đặc biệt trên các đối tượng nhỏ và cung cấp một đường ống end-to-end NMS-free ngay lập tức!

Cuối cùng, trong khi DAMO-YOLO vẫn là một minh chứng mạnh mẽ cho Neural Architecture Search, YOLO11 và gia đình Ultralytics mở rộng vẫn là đề xuất chính cho các tác vụ thị giác máy tính thực tế, ưu tiên triển khai nhanh, sự thuận tiện cho nhà phát triển và hiệu suất đa phương thức hàng đầu.

Những người đóng góp

Bình luận