Chuyển đến nội dung

YOLO26 đấu với DAMO- YOLO So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực

Khi lựa chọn một mô hình thị giác máy tính tiên tiến, việc tìm ra sự cân bằng tối ưu giữa tốc độ suy luận, độ chính xác và tính dễ triển khai là rất quan trọng. Hướng dẫn toàn diện này so sánh hai mô hình nổi bật trong lĩnh vực trí tuệ nhân tạo thị giác: Ultralytics YOLO26DAMO- YOLO . Mặc dù cả hai kiến ​​trúc đều đẩy mạnh giới hạn của việc phát hiện đối tượng theo thời gian thực, nhưng triết lý thiết kế cơ bản và các trường hợp sử dụng dự định của chúng lại khác nhau đáng kể.

Đổi mới và Thiết kế kiến trúc

Ultralytics YOLO26: Tiêu chuẩn tầm nhìn ưu tiên cạnh

Được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics và được phát hành vào ngày 14 tháng 1 năm 2026, YOLO26 đại diện cho một bước nhảy vọt lớn trong dòng YOLO. Nó được thiết kế từ đầu cho điện toán biên, kết hợp liền mạch các phương pháp huấn luyện LLM tiên tiến với các kiến trúc thị giác nâng cao.

Những đột phá kiến ​​trúc quan trọng của YOLO26 bao gồm:

  • Thiết kế đầu cuối không NMS: Dựa trên công trình tiên phong từ YOLOv10, YOLO26 có thiết kế đầu cuối nguyên bản. Bằng cách loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, nó đảm bảo độ trễ xác định và đơn giản hóa đáng kể các quy trình triển khai.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss tinh giản đồ thị mô hình. Điều này giúp việc xuất sang các framework triển khai như ONNXTensorRT mượt mà hơn nhiều và đảm bảo khả năng tương thích tốt hơn với các thiết bị biên công suất thấp.
  • Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon này mang những đổi mới trong huấn luyện LLM vào thị giác máy tính, dẫn đến quá trình huấn luyện ổn định đáng kể và hội tụ nhanh chóng.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này là một yêu cầu thiết yếu cho phân tích hình ảnh trên không dựa trên drone và các quy trình robot học phức tạp.

Tìm hiểu thêm về YOLO26

DAMO- YOLO Tìm kiếm kiến ​​trúc mạng nơ-ron ở quy mô lớn

Được phát triển bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun từ Alibaba Group (ra mắt vào ngày 23 tháng 11 năm 2022), DAMO-YOLO tập trung mạnh vào việc khám phá kiến trúc tự động. Nghiên cứu, được trình bày chi tiết trong bài báo arXiv của họ, sử dụng Tìm kiếm Kiến trúc Mạng Nơ-ron (NAS) để tìm các backbone tối ưu trong các giới hạn độ trễ nghiêm ngặt.

Các đặc điểm kiến ​​trúc chính của DAMO- YOLO bao gồm:

  • Backbone MAE-NAS: Sử dụng tìm kiếm tiến hóa đa mục tiêu để tự động thiết kế các backbone cân bằng độ chính xác với tốc độ triển khai mục tiêu.
  • RepGFPN hiệu quả: Một thiết kế heavy-neck mạnh mẽ giúp tối ưu hóa việc hợp nhất đặc trưng trên các tỷ lệ khác nhau, làm cho nó có khả năng cao trong việc xử lý các cảnh hình ảnh phức tạp.
  • ZeroHead: Một đầu detect được đơn giản hóa triệt để, được thiết kế để giảm thiểu chi phí tính toán trong các lớp dự đoán cuối cùng.

Tìm hiểu thêm về DAMO-YOLO

Lựa chọn Kiến trúc Phù hợp

Trong khi DAMO- YOLO Kiến trúc dựa trên NAS của nó rất tuyệt vời cho các ràng buộc phần cứng cụ thể, được xác định trước, thiết kế không cần NMSviệc loại bỏ DFL của YOLO26 làm cho nó trở thành lựa chọn linh hoạt và dễ dự đoán hơn nhiều trong vô số môi trường điện toán biên và điện toán đám mây khác nhau.

So sánh hiệu năng và số liệu

So sánh trực tiếp các biến thể mô hình được huấn luyện trên tập dữ liệu COCO tiêu chuẩn cho thấy các hồ sơ hiệu suất khác biệt. Bảng dưới đây phác thảo sự đánh đổi giữa độ chính xác (mAP), tốc độ và dấu chân tính toán (tham số và FLOPs).

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Phân tích hiệu suất

Khi phân tích dữ liệu, hiệu năng của YOLO26 vượt trội hơn hẳn đối với các ứng dụng hiện đại. Phiên bản Nano (YOLO26n) có dung lượng cực kỳ nhẹ với chỉ 2,4 triệu tham số, mang lại tốc độ xử lý nhanh chóng chỉ 1,7 ms. NVIDIA T4 GPU Hơn nữa, YOLO26 được thiết kế đặc biệt để mang lại khả năng suy luận CPU nhanh hơn tới 43% , biến nó trở thành nhà vô địch không thể tranh cãi dành cho các thiết bị biên thiếu bộ xử lý chuyên dụng. GPU máy gia tốc.

Mặc dù DAMO-YOLOt nhỉnh hơn YOLO26n một chút về mặt chất lượng thuần túy. mAP Điều này đòi hỏi số lượng tham số gần gấp bốn lần (8,5 triệu). Khi chuyển sang các biến thể lớn hơn, YOLO26 luôn hoạt động tốt hơn DAMO-. YOLO về độ chính xác trong khi vẫn duy trì dung lượng bộ nhớ nhỏ hơn, giảm mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện và tăng tốc đáng kể. TensorRT tốc độ.

Hệ sinh thái, khả năng sử dụng và hiệu quả đào tạo

Sức mạnh thực sự của một mô hình máy học không chỉ nằm ở các chỉ số thô mà còn ở mức độ dễ sử dụng đối với các nhà phát triển và nhà nghiên cứu.

Lợi thế của Ultralytics

Việc lựa chọn một mô hình Ultralytics đảm bảo quyền truy cập vào một hệ sinh thái tinh chỉnh cao, lấy nhà phát triển làm trung tâm. Các quy trình làm việc phức tạp liên quan đến tăng cường dữ liệu, tinh chỉnh siêu tham số, và theo dõi thử nghiệm mạnh mẽ được trừu tượng hóa thành các lệnh trực quan.

Hơn nữa, YOLO26 mang lại tính linh hoạt vượt trội. Trong khi đó, DAMO- YOLO YOLO26 không chỉ đơn thuần là một công cụ phát hiện đối tượng, mà còn cung cấp những cải tiến toàn diện, chuyên biệt cho từng tác vụ trên nhiều lĩnh vực khác nhau ngay từ khi cài đặt xong:

  • Phân đoạn thực thể: Sử dụng mất mát phân đoạn ngữ nghĩa chuyên biệt và tạo mẫu đa tỷ lệ.
  • Pose Estimation: Hưởng lợi từ phương pháp Ước tính Log-Likelihood Dư (RLE) tiên tiến.
  • Oriented Bounding Box (OBB): Tích hợp các hàm mất mát góc chuyên biệt để giải quyết triệt để các vấn đề ranh giới phức tạp.
  • Phân loại hình ảnh: Để gán nhãn hình ảnh tổng thể nhanh chóng và nhẹ nhàng.

Phương pháp luận huấn luyện

Đào tạo DAMO- YOLO Quá trình này thường liên quan đến một quy trình chưng cất phức tạp, trong đó một mô hình "giáo viên" lớn hơn huấn luyện một mô hình "học sinh" nhỏ hơn. Mặc dù kỹ thuật này mang lại những cải thiện nhỏ về độ chính xác, nhưng nó đòi hỏi rất nhiều công sức. GPU trí nhớ và chu kỳ huấn luyện dài hơn.

Ngược lại, yêu cầu về bộ nhớ cho YOLO26 thấp hơn đáng kể. Được hỗ trợ bởi bộ tối ưu hóa MuSGD, YOLO26 huấn luyện nhanh chóng và hiệu quả trên phần cứng tiêu dùng tiêu chuẩn. Dưới đây là cách bạn có thể dễ dàng huấn luyện một mô hình YOLO26 bằng API Python của Ultralytics được hỗ trợ bởi PyTorch:

from ultralytics import YOLO

# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Export the optimized, NMS-free model
model.export(format="onnx")

Khám phá các mô hình khác

Nếu bạn quan tâm đến việc khám phá các công trình kiến ​​trúc hiện đại khác trong khu vực... Ultralytics Trong hệ sinh thái này, YOLO11 với khả năng cao vẫn là một lựa chọn tuyệt vời cho các pipeline cũ. Ngoài ra, các nhà nghiên cứu quan tâm đến kiến ​​trúc dựa trên transformer có thể tìm hiểu mô hình RT-DETR .

Các ứng dụng thực tế

Việc lựa chọn giữa các kiến trúc này cuối cùng phụ thuộc vào môi trường triển khai của bạn.

AI biên và thiết bị IoT

Đối với camera bán lẻ thông minh, thiết bị giám sát nông nghiệp tự động hoặc robot , tài nguyên tính toán bị hạn chế nghiêm ngặt. Trong trường hợp này, YOLO26 là sự lựa chọn tối ưu. Nó nhanh hơn 43%. CPU suy luận, hoàn toàn NMS - Kiến trúc không cần mã nguồn và số lượng tham số nhỏ cho phép nó hoạt động mượt mà trên các thiết bị biên như Raspberry Pi mà không làm giảm độ chính xác quan trọng.

Sản xuất tốc độ cao và kiểm soát chất lượng

Trong các dây chuyền tự động hóa sản xuất tốc độ cao, việc phát hiện lỗi trên băng tải chuyển động nhanh đòi hỏi độ trễ tối thiểu và có tính xác định. Trong khi DAMO- YOLO có thể thực hiện tốt các nhiệm vụ cụ thể GPU các cấu hình, độ trễ dao động do phương pháp truyền thống gây ra NMS Quá trình xử lý hậu kỳ có thể làm mất đồng bộ các bộ truyền động robot. Bản chất khép kín của YOLO26 đảm bảo thời gian xử lý khung hình nhất quán và có thể dự đoán được, đảm bảo tích hợp hoàn hảo vào hệ thống robot công nghiệp tốc độ cao.

Máy bay không người lái và Ảnh chụp từ trên không

Việc phát hiện các đối tượng nhỏ từ độ cao lớn nổi tiếng là khó khăn. Việc tích hợp ProgLoss và STAL trong YOLO26 cải thiện đáng kể khả năng nhận diện đối tượng nhỏ. Dù là theo dõi động vật hoang dã hay phân tích tắc nghẽn giao thông từ UAV, YOLO26 luôn xác định các đối tượng có diện tích pixel nhỏ hơn mà các kiến trúc cũ hơn, bao gồm DAMO-YOLO, thường bỏ sót.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO26 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn tốt cho:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Kết luận

Trong khi DAMO- YOLO Vẫn là một nghiên cứu hấp dẫn về khả năng của Tìm kiếm Kiến trúc Mạng thần kinh cho các mục tiêu phần cứng cụ thể, Ultralytics YOLO26 nổi bật như một giải pháp toàn diện, vượt trội dành cho các chuyên gia AI hiện đại. Với khả năng hoạt động từ đầu đến cuối... NMS Với kiến ​​trúc không phụ thuộc vào bộ nhớ, yêu cầu bộ nhớ thấp hơn đáng kể, trình tối ưu hóa MuSGD lai và hệ sinh thái được duy trì hoàn hảo, YOLO26 cho phép các nhà phát triển xây dựng và triển khai các hệ thống thị giác hiện đại nhanh hơn và đáng tin cậy hơn bao giờ hết.


Bình luận