DAMO- YOLO vs. YOLO26: Một cuộc đối đầu kỹ thuật trong lĩnh vực phát hiện đối tượng thời gian thực

Sự phát triển của thị giác máy tính được thúc đẩy bởi sự theo đuổi không ngừng nghỉ về hiệu quả, tốc độ và độ chính xác. Hai cái tên nổi bật trong lĩnh vực này là DAMO- YOLO Được phát triển bởi Tập đoàn Alibaba, và YOLO26 tiên tiến, phiên bản mới nhất từ... Ultralytics Trong khi DAMO- YOLO Được giới thiệu những cải tiến đáng kể trong Tìm kiếm Kiến trúc Thần kinh (NAS) vào năm 2022, YOLO26 định nghĩa lại cục diện vào năm 2026 với một giải pháp toàn diện từ đầu đến cuối. NMS - Thiết kế miễn phí, phù hợp cho triển khai tại biên và khả năng mở rộng trong môi trường sản xuất.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai mô hình này, so sánh kiến trúc, các chỉ số hiệu năng và mức độ phù hợp của chúng với các ứng dụng thực tế.

DAMO- YOLO Đổi mới trong tìm kiếm kiến trúc mạng nơ-ron

Được phát triển bởi Học viện DAMO của Alibaba, DAMO- YOLO (Kiến trúc mạng thần kinh tăng cường chưng cất dựa trên tìm kiếm). YOLO (Tập trung vào việc tự động hóa thiết kế các kiến trúc mạng phát hiện để tối đa hóa hiệu suất trong các ràng buộc về độ trễ cụ thể.)

Các tính năng kiến trúc chính

DAMO- YOLO Nổi bật nhờ một số công nghệ tiên tiến:

Tìm kiếm kiến trúc mạng nơ-ron (NAS): Không giống như các mạng xương sống được thiết kế thủ công (như CSPDarknet), DAMO- YOLO Phương pháp này sử dụng MAE-NAS (Phương pháp tự động tìm kiếm kiến trúc mạng nơ-ron hiệu quả) để khám phá các cấu trúc tối ưu. Kết quả là một cấu trúc mạng được tinh chỉnh đặc biệt để cân bằng giữa số phép toán dấu phẩy động ( FLOPs ) và độ chính xác.
RepGFPN: Một thiết kế cổ dày sử dụng Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) kết hợp với việc tái tham số hóa. Điều này cho phép kết hợp các đặc trưng hiệu quả trên các tỷ lệ khác nhau, cải thiện khả năng phát hiện các đối tượng có kích thước khác nhau.
ZeroHead: Một đầu dò được đơn giản hóa giúp giảm gánh nặng tính toán trong quá trình suy luận.
AlignedOTA: Một chiến lược gán nhãn động giúp giải quyết sự sai lệch giữa các tác vụ phân loại và hồi quy trong quá trình huấn luyện.

Hiệu năng và Hạn chế

DAMO- YOLO Năm 2022, YOLOv2 đánh dấu một bước tiến đáng kể, vượt trội hơn các phiên bản trước đó như YOLOv6 và YOLOv7 trong các bài kiểm tra cụ thể. Tuy nhiên, việc phụ thuộc vào các quy trình huấn luyện phức tạp—đặc biệt là nhu cầu về giai đoạn chưng cất với một mô hình giáo viên lớn—có thể gây khó khăn cho các nhà phát triển cần thử nghiệm nhanh chóng trên các tập dữ liệu tùy chỉnh. Thêm vào đó, mặc dù RepGFPN của nó mạnh mẽ, nhưng nó có thể tiêu tốn nhiều bộ nhớ hơn so với các kiến trúc hiện đại được tối ưu hóa.

Chi tiết DAMO-YOLO:

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO- YOLO

Ultralytics YOLO26: Cuộc cách mạng điện toán biên toàn diện

Ra mắt vào tháng 1 năm 2026, Ultralytics YOLO26 được xây dựng dựa trên nền tảng của YOLOv8 và YOLO11 , mang đến một sự thay đổi cơ bản trong cách xử lý các phát hiện. Nó được thiết kế không chỉ để đạt điểm chuẩn cao, mà còn để triển khai thực tế và liền mạch trên mọi thiết bị, từ máy chủ đám mây đến các thiết bị IoT có tài nguyên hạn chế.

Kiến trúc đột phá

YOLO26 tích hợp một số cải tiến hiện đại giúp nó nổi bật so với các bộ dò tín hiệu dựa trên neo hoặc không dựa trên neo truyền thống:

Thiết kế hoàn toàn không sử dụng NMS : Có lẽ thay đổi quan trọng nhất là việc loại bỏ hiện tượng Non-Maximum Suppression ( NMS ) . Bằng cách áp dụng chiến lược khớp một-đối-một trong quá trình huấn luyện (được tiên phong trong YOLOv10 ), mô hình đưa ra dự đoán cuối cùng trực tiếp. Điều này loại bỏ sự biến thiên độ trễ do gây ra bởi NMS Xử lý hậu kỳ, vốn thường là điểm nghẽn trong các cảnh quay đông đúc.
Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa lai kết hợp SGD và Muon. Điều này mang lại sự ổn định chưa từng có cho việc huấn luyện thị giác máy tính, dẫn đến sự hội tụ nhanh hơn.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, lớp đầu ra được đơn giản hóa. Điều này giúp việc xuất sang các định dạng như ONNX và TensorRT trở nên gọn gàng hơn nhiều, tăng cường đáng kể khả năng tương thích với các thiết bị biên và bộ vi điều khiển công suất thấp.
ProgLoss + STAL: Sự kết hợp giữa Progressive Loss và Soft-Target Anchor Labeling (STAL) mang lại những cải tiến mạnh mẽ trong việc phát hiện các vật thể nhỏ , một yêu cầu quan trọng đối với ảnh chụp từ trên không và robot.

Ưu thế triển khai

YOLO26 được thiết kế để đạt tốc độ cao. Nó cung cấp khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn lý tưởng cho các ứng dụng chạy trên Raspberry Pi, CPU di động hoặc... Intel Máy tính AI.

Tìm hiểu thêm về YOLO26

Chi tiết YOLO26:

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 14/01/2026
Tài liệu: Tài liệu hướng dẫn sử dụng YOLO26
GitHub: ultralytics / ultralytics

Phân tích Hiệu suất So sánh

Bảng sau đây so sánh hiệu năng của DAMO- YOLO và YOLO26 trên nhiều kích thước mô hình khác nhau. YOLO26 thể hiện hiệu quả vượt trội, đạt được hiệu suất tương đương hoặc tốt hơn. mAP với độ trễ thấp hơn đáng kể, đặc biệt là trên CPU phần cứng nơi NMS Loại bỏ ánh sáng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Ưu điểm về độ trễ

Tốc độ CPU ONNX của YOLO26 cho thấy lợi thế vượt trội của... NMS - Thiết kế không cần chỉnh sửa. Bằng cách loại bỏ bước xử lý hậu kỳ, YOLO26 đảm bảo thời gian suy luận là xác định và luôn ở mức thấp, điều này rất quan trọng đối với phân tích video thời gian thực.

Lợi thế của Ultralytics

Trong khi DAMO- YOLO Cung cấp những hiểu biết học thuật thú vị về tìm kiếm kiến trúc, Ultralytics YOLO26 mang đến một giải pháp toàn diện được thiết kế cho quy trình phát triển hiện đại.

1. Dễ sử dụng và Hệ sinh thái

Độ phức tạp của DAMO- YOLO Chương trình đào tạo dựa trên phương pháp chưng cất của [tên công ty] có thể là một rào cản gia nhập ngành. Ngược lại, Ultralytics Mang đến trải nghiệm "từ con số không đến anh hùng". Với một hệ thống thống nhất. Python Với API, các nhà phát triển có thể tải, huấn luyện và triển khai mô hình chỉ trong vài phút. Nền tảng Ultralytics còn đơn giản hóa hơn nữa bằng cách cung cấp các công cụ huấn luyện trên đám mây, quản lý tập dữ liệu và tự động chú thích.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

2. Tính linh hoạt của tác vụ

DAMO- YOLO Đây chủ yếu là kiến trúc phát hiện đối tượng . Ultralytics Tuy nhiên, YOLO26 là một công cụ đa nhiệm mạnh mẽ. Một framework duy nhất hỗ trợ:

Phân đoạn đối tượng: Bao gồm các cải tiến dành riêng cho từng tác vụ như tổn thất phân đoạn ngữ nghĩa.
Ước lượng tư thế: Sử dụng ước lượng logarit xác suất dư (RLE) để xác định các điểm mấu chốt với độ chính xác cao.
OBB: Góc mất mát chuyên dụng cho các hộp giới hạn định hướng, rất cần thiết cho việc phân tích ảnh vệ tinh .
Phân loại: Phân loại hình ảnh tốc độ cao.

3. Hiệu quả huấn luyện và trí nhớ

YOLO26 được tối ưu hóa cho phần cứng cấp độ người tiêu dùng. Các kỹ thuật như bộ tối ưu hóa MuSGD cho phép huấn luyện ổn định với kích thước lô lớn hơn so với các mô hình lai Transformer ngốn bộ nhớ hoặc các kiến trúc NAS cũ hơn. Sự dân chủ hóa việc huấn luyện AI này có nghĩa là bạn không cần cụm máy chủ H100 cấp doanh nghiệp để tinh chỉnh một mô hình tiên tiến.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn mô hình phù hợp phụ thuộc vào các yêu cầu cụ thể của bạn, nhưng đối với hầu hết các kịch bản sản xuất, YOLO26 mang lại lợi tức đầu tư tốt nhất.

Hãy chọn DAMO- YOLO nếu: Bạn là nhà nghiên cứu đang đặc biệt tìm hiểu về các phương pháp Tìm kiếm Kiến trúc Mạng thần kinh hoặc có một quy trình làm việc cũ được xây dựng dựa trên mã nguồn tinyvision.
Chọn Ultralytics YOLO26 nếu:
- Triển khai tại biên: Bạn cần chạy trên Raspberry Pi , thiết bị di động hoặc CPU, nơi mà... NMS - Thiết kế không cần cấu hình máy tính mang lại tốc độ tăng đáng kể.
- Phát triển nhanh chóng: Bạn cần một mô hình dễ huấn luyện, xác thực và xuất sang các định dạng như... CoreML hoặc TFLite không cần cấu hình phức tạp.
- Các tác vụ thị giác phức tạp: Dự án của bạn đòi hỏi nhiều hơn chỉ là các khung bao quanh, chẳng hạn như phân đoạn đối tượng hoặc theo dõi tư thế con người.
- Bảo trì dài hạn: Bạn cần một mô hình được hỗ trợ bởi cộng đồng năng động, cập nhật thường xuyên và tài liệu đầy đủ.

Kết luận

Cả DAMO- YOLO và YOLO26 đại diện cho những cột mốc quan trọng trong lĩnh vực phát hiện đối tượng. DAMO- YOLO Năm 2022 đã chứng minh tiềm năng của việc tìm kiếm kiến trúc tự động, vượt qua những giới hạn của những gì có thể thực hiện được. Tuy nhiên, YOLO26 vẫn là sự lựa chọn tối ưu cho năm 2026 và những năm tiếp theo. Bằng cách giải quyết... NMS nút thắt cổ chai, tối ưu hóa cho CPU suy luận và tích hợp các kỹ thuật huấn luyện nâng cao như MuSGD, Ultralytics đã tạo ra một mô hình không chỉ nhanh hơn và chính xác hơn mà còn dễ sử dụng hơn đáng kể.

Đối với các nhà phát triển muốn xây dựng các ứng dụng thị giác máy tính mạnh mẽ, có khả năng đáp ứng nhu cầu trong tương lai, hệ sinh thái Ultralytics cung cấp các công cụ, mô hình và sự hỗ trợ cần thiết để thành công.

Đối với những ai quan tâm đến việc khám phá các kiến trúc hiệu năng cao khác, hãy xem xét YOLO11 cho mục đích phát hiện tổng quát hoặc RT-DETR cho các ứng dụng dựa trên bộ chuyển đổi.