YOLO26 đấu với DAMO- YOLO So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực
Khi lựa chọn một mô hình thị giác máy tính tiên tiến, việc tìm ra sự cân bằng tối ưu giữa tốc độ suy luận, độ chính xác và tính dễ triển khai là rất quan trọng. Hướng dẫn toàn diện này so sánh hai mô hình nổi bật trong lĩnh vực trí tuệ nhân tạo thị giác: Ultralytics YOLO26 và DAMO- YOLO . Mặc dù cả hai kiến trúc đều đẩy mạnh giới hạn của việc phát hiện đối tượng theo thời gian thực, nhưng triết lý thiết kế cơ bản và các trường hợp sử dụng dự định của chúng lại khác nhau đáng kể.
Đổi mới và thiết kế kiến trúc
Ultralytics YOLO26: Tiêu chuẩn tầm nhìn ưu tiên cạnh
Được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics và ra mắt vào ngày 14 tháng 1 năm 2026, YOLO26 đại diện cho một bước tiến vượt bậc trong lĩnh vực này. YOLO Nguồn gốc của nó. Nó được thiết kế từ đầu cho điện toán biên, kết hợp liền mạch các phương pháp đào tạo LLM tiên tiến với kiến trúc thị giác hiện đại.
Những đột phá kiến trúc quan trọng của YOLO26 bao gồm:
- Thiết kế không cần NMS từ đầu đến cuối: Dựa trên công trình tiên phong từ YOLOv10 , YOLO26 được thiết kế hoàn toàn từ đầu đến cuối. Bằng cách loại bỏ hoàn toàn hiện tượng Non-Maximum Suppression (NMS) ( NMS Trong quá trình xử lý hậu kỳ, nó đảm bảo độ trễ xác định và đơn giản hóa đáng kể các quy trình triển khai.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp đơn giản hóa đồ thị mô hình. Điều này giúp việc xuất sang các framework triển khai như ONNX và TensorRT trở nên mượt mà hơn và đảm bảo khả năng tương thích tốt hơn với các thiết bị biên công suất thấp.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, đây là sự kết hợp giữa thuật toán tối ưu hóa độ dốc ngẫu nhiên (Stochastic Gradient Descent) ( SGD ) và Muon mang những cải tiến trong huấn luyện LLM vào lĩnh vực thị giác máy tính, dẫn đến quá trình huấn luyện ổn định đáng kể và sự hội tụ nhanh chóng.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một yếu tố thiết yếu cho việc phân tích ảnh chụp từ trên không bằng máy bay không người lái và các quy trình robot phức tạp.
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron ở quy mô lớn
Được phát triển bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun từ Tập đoàn Alibaba (phát hành vào ngày 23 tháng 11 năm 2022), DAMO- YOLO Nghiên cứu này tập trung mạnh vào việc tự động khám phá kiến trúc. Được trình bày chi tiết trong bài báo trên arXiv , nghiên cứu sử dụng Tìm kiếm Kiến trúc Thần kinh (Neural Architecture Search - NAS) để tìm ra các kiến trúc mạng tối ưu trong điều kiện độ trễ nghiêm ngặt.
Các đặc điểm kiến trúc chính của DAMO- YOLO bao gồm:
- Hệ thống xương sống MAE-NAS: Sử dụng thuật toán tìm kiếm tiến hóa đa mục tiêu để tự động thiết kế hệ thống xương sống, cân bằng giữa độ chính xác và tốc độ triển khai mục tiêu.
- RepGFPN hiệu quả: Thiết kế cổ dày chắc chắn giúp tối ưu hóa sự kết hợp các đặc điểm trên các tỷ lệ khác nhau, làm cho nó có khả năng xử lý các cảnh hình ảnh phức tạp một cách hiệu quả.
- ZeroHead: Một đầu phát hiện được đơn giản hóa đáng kể, được thiết kế để giảm thiểu chi phí tính toán trong các lớp dự đoán cuối cùng.
Lựa chọn kiến trúc phù hợp
Trong khi DAMO- YOLO Kiến trúc dựa trên NAS của nó rất tuyệt vời cho các ràng buộc phần cứng cụ thể, được xác định trước, thiết kế không cần NMS và việc loại bỏ DFL của YOLO26 làm cho nó trở thành lựa chọn linh hoạt và dễ dự đoán hơn nhiều trong vô số môi trường điện toán biên và điện toán đám mây khác nhau.
So sánh hiệu năng và số liệu
So sánh trực tiếp các biến thể mô hình được huấn luyện trên tập dữ liệu COCO tiêu chuẩn cho thấy các hồ sơ hiệu suất khác nhau. Bảng dưới đây nêu rõ sự đánh đổi giữa độ chính xác ( mAP ), tốc độ và mức độ ảnh hưởng của tính toán (tham số và FLOPs).
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích hiệu suất
Khi phân tích dữ liệu, hiệu năng của YOLO26 vượt trội hơn hẳn đối với các ứng dụng hiện đại. Phiên bản Nano (YOLO26n) có dung lượng cực kỳ nhẹ với chỉ 2,4 triệu tham số, mang lại tốc độ xử lý nhanh chóng chỉ 1,7 ms. NVIDIA T4 GPU Hơn nữa, YOLO26 được thiết kế đặc biệt để mang lại khả năng suy luận CPU nhanh hơn tới 43% , biến nó trở thành nhà vô địch không thể tranh cãi dành cho các thiết bị biên thiếu bộ xử lý chuyên dụng. GPU máy gia tốc.
Mặc dù DAMO-YOLOt nhỉnh hơn YOLO26n một chút về mặt chất lượng thuần túy. mAP Điều này đòi hỏi số lượng tham số gần gấp bốn lần (8,5 triệu). Khi chuyển sang các biến thể lớn hơn, YOLO26 luôn hoạt động tốt hơn DAMO-. YOLO về độ chính xác trong khi vẫn duy trì dung lượng bộ nhớ nhỏ hơn, giảm mức sử dụng bộ nhớ CUDA trong quá trình huấn luyện và tăng tốc đáng kể. TensorRT tốc độ.
Hệ sinh thái, khả năng sử dụng và hiệu quả đào tạo
Sức mạnh thực sự của một mô hình máy học không chỉ nằm ở các chỉ số thô mà còn ở mức độ dễ sử dụng đối với các nhà phát triển và nhà nghiên cứu.
Lợi thế của Ultralytics
Lựa chọn Ultralytics Mô hình này đảm bảo quyền truy cập vào một hệ sinh thái tinh vi, tập trung vào nhà phát triển. Các quy trình làm việc phức tạp liên quan đến tăng cường dữ liệu , tinh chỉnh siêu tham số và theo dõi thử nghiệm mạnh mẽ được trừu tượng hóa thành các lệnh trực quan.
Hơn nữa, YOLO26 mang lại tính linh hoạt vượt trội. Trong khi đó, DAMO- YOLO YOLO26 không chỉ đơn thuần là một công cụ phát hiện đối tượng, mà còn cung cấp những cải tiến toàn diện, chuyên biệt cho từng tác vụ trên nhiều lĩnh vực khác nhau ngay từ khi cài đặt xong:
- Phân đoạn đối tượng : Sử dụng tổn thất phân đoạn ngữ nghĩa chuyên biệt và tạo mẫu đa tỷ lệ.
- Ước lượng tư thế : Tận dụng lợi thế của phương pháp ước lượng logarit xác suất dư (RLE) tiên tiến.
- Hộp giới hạn định hướng (OBB) : Kết hợp các hàm mất góc chuyên biệt để giải quyết hoàn hảo các vấn đề ranh giới phức tạp.
- Phân loại hình ảnh : Dành cho việc gắn nhãn hình ảnh toàn cầu nhanh chóng và gọn nhẹ.
Phương pháp luận huấn luyện
Đào tạo DAMO- YOLO Quá trình này thường liên quan đến một quy trình chưng cất phức tạp, trong đó một mô hình "giáo viên" lớn hơn huấn luyện một mô hình "học sinh" nhỏ hơn. Mặc dù kỹ thuật này mang lại những cải thiện nhỏ về độ chính xác, nhưng nó đòi hỏi rất nhiều công sức. GPU trí nhớ và chu kỳ huấn luyện dài hơn.
Ngược lại, yêu cầu bộ nhớ của YOLO26 thấp hơn đáng kể. Được hỗ trợ bởi trình tối ưu hóa MuSGD, YOLO26 huấn luyện nhanh chóng và hiệu quả trên phần cứng tiêu chuẩn dành cho người tiêu dùng. Dưới đây là cách bạn có thể dễ dàng huấn luyện mô hình YOLO26 bằng cách sử dụng PyTorch . Ultralytics Python API:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")
Khám phá các mô hình khác
Nếu bạn quan tâm đến việc khám phá các công trình kiến trúc hiện đại khác trong khu vực... Ultralytics Trong hệ sinh thái này, YOLO11 với khả năng cao vẫn là một lựa chọn tuyệt vời cho các pipeline cũ. Ngoài ra, các nhà nghiên cứu quan tâm đến kiến trúc dựa trên transformer có thể tìm hiểu mô hình RT-DETR .
Các ứng dụng thực tế
Việc lựa chọn giữa các kiến trúc này cuối cùng phụ thuộc vào môi trường triển khai của bạn.
AI biên và thiết bị IoT
Đối với camera bán lẻ thông minh, thiết bị giám sát nông nghiệp tự động hoặc robot , tài nguyên tính toán bị hạn chế nghiêm ngặt. Trong trường hợp này, YOLO26 là sự lựa chọn tối ưu. Nó nhanh hơn 43%. CPU suy luận, hoàn toàn NMS - Kiến trúc không cần mã nguồn và số lượng tham số nhỏ cho phép nó hoạt động mượt mà trên các thiết bị biên như Raspberry Pi mà không làm giảm độ chính xác quan trọng.
Sản xuất tốc độ cao và kiểm soát chất lượng
Trong các dây chuyền tự động hóa sản xuất tốc độ cao, việc phát hiện lỗi trên băng tải chuyển động nhanh đòi hỏi độ trễ tối thiểu và có tính xác định. Trong khi DAMO- YOLO có thể thực hiện tốt các nhiệm vụ cụ thể GPU các cấu hình, độ trễ dao động do phương pháp truyền thống gây ra NMS Quá trình xử lý hậu kỳ có thể làm mất đồng bộ các bộ truyền động robot. Bản chất khép kín của YOLO26 đảm bảo thời gian xử lý khung hình nhất quán và có thể dự đoán được, đảm bảo tích hợp hoàn hảo vào hệ thống robot công nghiệp tốc độ cao.
Máy bay không người lái và hình ảnh trên không
Việc phát hiện các vật thể nhỏ từ độ cao lớn là vô cùng khó khăn. Sự tích hợp của ProgLoss và STAL trong YOLO26 cải thiện đáng kể khả năng nhận dạng vật thể nhỏ. Cho dù theo dõi động vật hoang dã hay phân tích tắc nghẽn giao thông từ UAV, YOLO26 luôn xác định được các vật thể có diện tích pixel nhỏ hơn mà các kiến trúc cũ hơn, bao gồm cả DAMO-, không thể làm được. YOLO Thường xuyên bỏ sót.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLO26 và DAMO- YOLO Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLO26
YOLO26 là một lựa chọn tốt cho:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Kết luận
Trong khi DAMO- YOLO Vẫn là một nghiên cứu hấp dẫn về khả năng của Tìm kiếm Kiến trúc Mạng thần kinh cho các mục tiêu phần cứng cụ thể, Ultralytics YOLO26 nổi bật như một giải pháp toàn diện, vượt trội dành cho các chuyên gia AI hiện đại. Với khả năng hoạt động từ đầu đến cuối... NMS Với kiến trúc không phụ thuộc vào bộ nhớ, yêu cầu bộ nhớ thấp hơn đáng kể, trình tối ưu hóa MuSGD lai và hệ sinh thái được duy trì hoàn hảo, YOLO26 cho phép các nhà phát triển xây dựng và triển khai các hệ thống thị giác hiện đại nhanh hơn và đáng tin cậy hơn bao giờ hết.