Chuyển đến nội dung

YOLO26 so với DAMO-YOLO: Nâng cao detect đối tượng thời gian thực

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình detect đối tượng phù hợp là rất quan trọng để cân bằng giữa độ chính xác, tốc độ và khả năng triển khai. Bài so sánh này khám phá YOLO26, giải pháp tối ưu hóa cho thiết bị biên mới nhất từ Ultralytics, và DAMO-YOLO, một bộ detect hiệu suất cao được phát triển bởi Alibaba Group. Cả hai mô hình đều giới thiệu những đổi mới kiến trúc đáng kể, nhưng chúng nhắm đến các ưu tiên hơi khác nhau trong quy trình triển khai.

Tổng quan mô hình

Ultralytics YOLO26

YOLO26 đại diện cho một sự thay đổi mô hình hướng tới sự đơn giản và hiệu quả trên thiết bị biên. Được phát hành vào tháng 1 năm 2026, nó được thiết kế để loại bỏ sự phức tạp của hậu xử lý truyền thống trong khi vẫn mang lại hiệu suất tiên tiến trên các thiết bị bị giới hạn CPU. Nó hỗ trợ nguyên bản nhiều tác vụ bao gồm detect đối tượng, segmentation thể hiện, ước tính tư thế, phân loại và detect hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

DAMO-YOLO

DAMO-YOLO tập trung vào việc tối ưu hóa sự đánh đổi giữa tốc độ và độ chính xác thông qua tìm kiếm kiến trúc mạng thần kinh (NAS) tiên tiến và tái tham số hóa mạnh mẽ. Được phát triển bởi nhóm TinyVision tại Alibaba, nó giới thiệu các thành phần mới lạ như RepGFPN và ZeroHead để tối đa hóa hiệu quả trích xuất đặc trưng, chủ yếu nhắm mục tiêu đến các kịch bản GPU đa năng.

So sánh Kiến trúc Kỹ thuật

End-to-End so với NMS truyền thống

Sự khác biệt lớn nhất trong hoạt động nằm ở cách các dự đoán được hoàn thiện.

YOLO26 sử dụng thiết kế không NMS đầu cuối nguyên bản. Bằng cách tạo ra các dự đoán cuối cùng trực tiếp từ mạng, nó loại bỏ nhu cầu về Non-Maximum Suppression (NMS). Việc loại bỏ hậu xử lý này giúp giảm sự biến động độ trễ và đơn giản hóa các quy trình triển khai, đặc biệt trên phần cứng biên như Raspberry Pi hoặc thiết bị di động, nơi các hoạt động NMS có thể là một nút thắt cổ chai. Cách tiếp cận này đã được tiên phong thành công trong YOLOv10 và được tinh chỉnh tại đây.

DAMO-YOLO dựa vào một đầu dự đoán dày đặc truyền thống hơn (ZeroHead) yêu cầu NMS để lọc các hộp chồng chéo. Mặc dù hiệu quả, điều này bổ sung một bước tính toán trong quá trình suy luận, tỷ lệ thuận với số lượng đối tượng được detect, có khả năng gây ra sự dao động độ trễ trong các cảnh đông đúc.

Đổi mới trong huấn luyện: MuSGD so với NAS

YOLO26 giới thiệu Bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGDMuon. Lấy cảm hứng từ những đột phá trong huấn luyện LLM như Kimi K2 của Moonshot AI, bộ tối ưu hóa này cung cấp động lực huấn luyện ổn định hơn và hội tụ nhanh hơn, cho phép người dùng đạt được hiệu suất tối ưu với ít epoch hơn.

DAMO-YOLO tận dụng Tìm kiếm Kiến trúc Mạng Thần kinh (NAS) thông qua phương pháp MAE-NAS của nó để tự động khám phá các cấu trúc backbone hiệu quả. Nó cũng sử dụng Efficient RepGFPN, một cổ mạng tái tham số hóa mạnh mẽ giúp kết hợp các đặc trưng ở nhiều tỷ lệ. Mặc dù mạnh mẽ, các kiến trúc có nguồn gốc từ NAS này đôi khi có thể kém trực quan hơn khi sửa đổi hoặc tinh chỉnh so với các khối được thiết kế thủ công, tinh gọn trong các mô hình Ultralytics.

Hàm mất mát

YOLO26 loại bỏ Distribution Focal Loss (DFL) để hợp lý hóa khả năng xuất sang các định dạng như CoreMLTensorRT. Thay vào đó, nó sử dụng ProgLossGán nhãn nhận biết mục tiêu nhỏ (STAL), giúp tăng đáng kể hiệu suất trên các đối tượng nhỏ—một vấn đề thường gặp trong các lĩnh vực như ảnh hàng khôngphân tích y tế.

DAMO-YOLO sử dụng AlignedOTA, một chiến lược gán nhãn giải quyết sự sai lệch giữa các tác vụ phân loại và hồi quy. Nó tập trung vào việc đảm bảo rằng các anchor chất lượng cao được gán cho các ground truth phù hợp nhất trong quá trình huấn luyện.

Tối ưu hóa thiết bị biên trong YOLO26

Bằng cách loại bỏ DFL và NMS, YOLO26 đạt được tốc độ suy luận trên CPU nhanh hơn tới 43% so với các thế hệ trước. Điều này làm cho nó đặc biệt phù hợp cho các ứng dụng "AI biên" nơi tài nguyên GPU không có sẵn, chẳng hạn như quản lý bãi đỗ xe thông minh trên thiết bị.

Các chỉ số hiệu suất

Bảng sau đây làm nổi bật sự khác biệt về hiệu suất. YOLO26 thể hiện hiệu quả vượt trội, đặc biệt về số lượng tham số và FLOPs, trong khi vẫn duy trì độ chính xác cạnh tranh hoặc vượt trội.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Những Điểm Chính

  1. Hiệu quả: YOLO26n (Nano) nhỏ hơn khoảng 3,5 lần về số lượng tham số và 3,3 lần thấp hơn về FLOPs so với DAMO-YOLOt trong khi vẫn đạt được độ chính xác tương đương. Việc giảm đáng kể trọng lượng tính toán này làm cho YOLO26 tốt hơn đáng kể cho việc triển khai trên thiết bị di động và IoT.
  2. Khả năng mở rộng độ chính xác: Khi các mô hình mở rộng, YOLO26m vượt trội hơn DAMO-YOLOm gần 4.0 mAP trong khi sử dụng ít tham số hơn (20.4M so với 28.2M).
  3. Tốc độ: YOLO26 luôn mang lại thời gian suy luận nhanh hơn trên GPU T4 ở tất cả các quy mô, điều này rất quan trọng đối với các ứng dụng thông lượng cao như phân tích video.

Khả năng Sử dụng và Hệ sinh thái

Đơn giản và Tài liệu

Một trong những đặc điểm nổi bật của Ultralytics các mô hình là tính dễ sử dụng. YOLO26 được tích hợp vào ultralytics gói Python, cho phép người dùng huấn luyện, xác thực và triển khai các mô hình chỉ với vài dòng mã.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

Ngược lại, DAMO-YOLO là một kho lưu trữ hướng nghiên cứu. Mặc dù nó cung cấp các script để huấn luyện và suy luận, nhưng nó thiếu API hợp nhất, hướng dẫn mở rộng và hỗ trợ hệ điều hành rộng rãi (Windows, Linux, macOS) mà hệ sinh thái Ultralytics cung cấp.

Triển khai và Xuất

YOLO26 hỗ trợ xuất một cú nhấp chuột sang hơn 10 định dạng bao gồm ONNX, OpenVINO, CoreML và TFLite. Sự linh hoạt này rất quan trọng đối với các kỹ sư chuyển từ nghiên cứu sang sản xuất. Việc loại bỏ các module phức tạp như DFL đảm bảo các bản xuất này mạnh mẽ và tương thích với nhiều loại bộ tăng tốc phần cứng hơn.

DAMO-YOLO dựa vào các bước tái tham số hóa cụ thể phải được xử lý cẩn thận trong quá trình xuất. Nếu không được "chuyển đổi" chính xác từ chế độ huấn luyện sang chế độ triển khai, hiệu suất mô hình có thể suy giảm hoặc không chạy được, làm tăng thêm một lớp phức tạp cho người dùng.

Các trường hợp sử dụng thực tế

Các kịch bản lý tưởng cho YOLO26

  • Thiết bị biên & IoT: Do yêu cầu bộ nhớ tối thiểu (bắt đầu từ 2.4M tham số), YOLO26 hoàn hảo cho camera an ninhmáy bay không người lái nơi nguồn điện và RAM bị hạn chế.
  • Phân tích thể thao thời gian thực: Thiết kế không NMS đảm bảo độ trễ nhất quán, điều này rất quan trọng để track các đối tượng chuyển động nhanh trong ứng dụng thể thao.
  • Hệ thống đa nhiệm: Vì YOLO26 hỗ trợ segment, pose và obb một cách tự nhiên, đây là lựa chọn hàng đầu cho các quy trình phức tạp như thao tác robot yêu cầu định hướng và điểm nắm bắt.

Các kịch bản lý tưởng cho DAMO-YOLO

  • Nghiên cứu học thuật: Việc sử dụng NAS và các kỹ thuật chưng cất tiên tiến khiến nó trở thành một ứng cử viên sáng giá cho các nhà nghiên cứu đang tìm hiểu về các phương pháp tìm kiếm kiến trúc.
  • Máy chủ GPU cao cấp: Trong các tình huống không có giới hạn về phần cứng và mọi phần nhỏ của độ chính xác đều quan trọng trên các điểm chuẩn cụ thể, kiến trúc backbone nặng của DAMO-YOLO có thể được tận dụng hiệu quả.

Kết luận

Trong khi DAMO-YOLO đã giới thiệu các khái niệm ấn tượng về tìm kiếm kiến trúc và tái tham số hóa vào năm 2022, YOLO26 đại diện cho công nghệ tiên tiến nhất cho năm 2026. Bằng cách tập trung vào sự đơn giản từ đầu đến cuối, loại bỏ các nút thắt cổ chai như NMS và DFL, và giảm đáng kể số lượng tham số, YOLO26 mang đến một giải pháp thực tế hơn, nhanh hơn và thân thiện với người dùng hơn cho các nhà phát triển AI hiện đại.

Đối với những người dùng muốn triển khai các giải pháp thị giác máy tính mạnh mẽ ngay hôm nay, sự tích hợp liền mạch với Nền tảng Ultralytics và hiệu suất trên mỗi watt vượt trội khiến YOLO26 trở thành khuyến nghị rõ ràng.

Đọc thêm

Đối với những ai quan tâm đến các phương pháp kiến trúc khác, hãy khám phá các mô hình liên quan sau trong tài liệu:

  • YOLO11 - Tiêu chuẩn thế hệ trước về tính linh hoạt và độ chính xác.
  • RT-DETR - Một bộ detect thời gian thực dựa trên transformer cũng cung cấp suy luận không NMS.
  • YOLOv10 - Người tiên phong trong phương pháp huấn luyện không NMS từ đầu đến cuối được sử dụng trong YOLO26.

Bình luận