DAMO- YOLO so với YOLOv6 -3.0: So sánh toàn diện các thiết bị dò vật thể công nghiệp
Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các kiến trúc chuyên biệt cao, được thiết kế riêng cho các ứng dụng công nghiệp. Trong số đó, hai hệ thống hàng đầu nổi bật nhờ tập trung vào hiệu suất thời gian thực và hiệu quả triển khai: DAMO- YOLO và YOLOv6 . Trang này cung cấp so sánh kỹ thuật chuyên sâu về kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng để giúp bạn đưa ra lựa chọn triển khai phù hợp.
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron kết hợp với phát hiện đối tượng
Được phát triển bởi các nhà nghiên cứu tại Tập đoàn Alibaba, DAMO- YOLO giới thiệu một cách tiếp cận mới cho YOLO dòng sản phẩm này được tích hợp mạnh mẽ vào kiến trúc tìm kiếm thần kinh (NAS) trong thiết kế cốt lõi của nó.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức:Alibaba Group
- Ngày: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
Đổi mới Kiến trúc
DAMO- YOLO Mô hình sử dụng kiến trúc mạng xương sống được tối ưu hóa cho NAS có tên MAE-NAS, tự động tìm kiếm cấu trúc mạng tối ưu trong các ràng buộc độ trễ cụ thể. Điều này đảm bảo mô hình mở rộng hiệu quả trên các cấu hình phần cứng khác nhau. Để cải thiện khả năng kết hợp đặc trưng, kiến trúc sử dụng Efficient RepGFPN (Reparameterized Generalized Feature Pyramid Network), giúp tăng cường đáng kể khả năng biểu diễn đa tỷ lệ.
Hơn nữa, mô hình này giới thiệu thiết kế "ZeroHead". Bằng cách loại bỏ các cấu trúc đa nhánh phức tạp trong đầu phát hiện, nó bảo toàn thông tin không gian hiệu quả hơn đồng thời giảm chi phí tính toán. Phương pháp huấn luyện cũng tận dụng AlignedOTA (Aligned Optimal Transport Assignment) và phương pháp chưng cất kiến thức mạnh mẽ, cho phép các mô hình học sinh nhỏ hơn học hỏi từ các mạng lưới giáo viên lớn hơn.
Độ phức tạp của quá trình chưng cất
Trong khi quá trình chắt lọc kiến thức giúp DAMO- YOLO Để đạt được độ chính xác cao, cần có quy trình huấn luyện nhiều giai đoạn. Điều này làm tăng đáng kể lượng tài nguyên tính toán GPU cần thiết so với việc huấn luyện các mô hình một giai đoạn tiêu chuẩn.
YOLOv6 -3.0: Tối đa hóa năng suất công nghiệp
Được tiên phong bởi Bộ phận AI Thị giác Meituan, YOLOv6 được ghi nhãn rõ ràng là một thiết bị phát hiện vật thể công nghiệp, được thiết kế đặc biệt để tối đa hóa hiệu suất trên... NVIDIA phần cứng.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
- Tổ chức:Meituan
- Ngày: 2023-01-13
- Arxiv:2301.05586
- GitHub:meituan/YOLOv6
Các tính năng và cải tiến chính
YOLOv6 -3.0 được xây dựng trên nền tảng EfficientRep thân thiện với phần cứng, giúp nó hoạt động cực kỳ nhanh khi tận dụng các tối ưu hóa như TensorRT trên các GPU hiện đại. Trong phiên bản v3.0, mạng tích hợp mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng định vị các đối tượng có kích thước khác nhau.
Một tính năng nổi bật khác là chiến lược Huấn luyện Hỗ trợ Neo (Anchor-Aided Training - AAT). AAT kết hợp tính ổn định của các bộ dò dựa trên neo trong quá trình huấn luyện với tốc độ suy luận của thiết kế không dựa trên neo. Phương pháp lai này mang lại sự hội tụ tuyệt vời mà không làm tăng độ trễ triển khai, khiến nó trở thành lựa chọn mạnh mẽ để xử lý các luồng video khổng lồ trong phân tích thành phố thông minh và hệ thống thanh toán tự động.
So sánh hiệu suất
Khi đánh giá các mô hình này cho suy luận thời gian thực , việc cân bằng các tham số, số phép tính FLOP và độ chính xác là rất quan trọng. Dưới đây là bảng đánh giá chi tiết so sánh hiệu năng của chúng.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Trong khi DAMO- YOLO thể hiện một chút ưu thế ở hạng nhỏ (46,0) mAP so với 45.0 mAP ), YOLOv6 -3.0 thể hiện khả năng mở rộng vượt trội, chiếm ưu thế ở phân khúc tầm trung và lớn trong khi vẫn duy trì các thông số tối thiểu tuyệt đối ở cấu hình nano.
Lựa chọn giữa hai
Nếu môi trường phần cứng của bạn cho phép thực hiện các tìm kiếm tự động chuyên sâu để tùy chỉnh hệ thống mạng cốt lõi, DAMO- YOLO Phương pháp NAS của họ rất hiệu quả. Tuy nhiên, nếu bạn hoàn toàn dựa vào các tiêu chuẩn hóa GPU gia tốc (như T4 hoặc A100), YOLOv6 Cấu trúc EfficientRep của 's thường mang lại FPS thô cao hơn.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa DAMO- YOLO Và YOLOv6 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO- YOLO là một lựa chọn tốt cho:
- Phân tích video thông lượng cao: Xử lý luồng video tốc độ khung hình cao trên thiết bị cố định NVIDIA GPU cơ sở hạ tầng mà thông lượng xử lý theo lô 1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với yêu cầu nghiêm ngặt GPU Các ràng buộc về độ trễ trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng theo thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các kiến trúc mạng được tái tham số hiệu quả đến hiệu suất phát hiện.
Khi nào nên chọn YOLOv6
YOLOv6 được khuyến nghị cho:
- Triển khai có nhận thức về phần cứng công nghiệp: Các kịch bản trong đó thiết kế có nhận thức về phần cứng của mô hình và việc tái tham số hiệu quả cung cấp hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
- Phát hiện nhanh chóng trong một giai đoạn duy nhất: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU Dùng để xử lý video thời gian thực trong môi trường được kiểm soát.
- Tích hợp hệ sinh thái Meituan: Các nhóm hiện đang làm việc trong hệ sinh thái công nghệ và cơ sở hạ tầng triển khai của Meituan .
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Cái Ultralytics Ưu điểm: Giới thiệu YOLO26
Trong khi cả DAMO- YOLO Và YOLOv6 - Các hệ thống -3.0 có khả năng cao, nhưng lại gặp phải vấn đề về hệ sinh thái phân mảnh, hạn chế về khả năng thực hiện một nhiệm vụ duy nhất và quy trình triển khai phức tạp. Đối với các nhóm kỹ thuật hiện đại, các mô hình Ultralytics mang lại trải nghiệm phát triển tốt hơn đáng kể, đỉnh cao là YOLO26 đột phá.
Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn mới về triển khai điện toán biên và đám mây, tối ưu hóa mạnh mẽ yêu cầu bộ nhớ và hiệu quả tính toán.
Tại sao chọn YOLO26?
- Thiết kế không cần NMS từ đầu đến cuối: Dựa trên các khái niệm từ YOLOv10 , YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression. Điều này giúp đơn giản hóa đáng kể mã triển khai và giảm sự biến thiên độ trễ suy luận trên tất cả các thiết bị biên.
- Tối ưu hóa vượt trội: YOLO26 sử dụng Trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon (lấy cảm hứng từ các mô hình ngôn ngữ quy mô lớn), mang lại các lần chạy huấn luyện rất ổn định và tốc độ hội tụ nhanh hơn.
- Tính linh hoạt phần cứng: Bằng cách triển khai DFL Removal (Distribution Focal Loss), các đầu ra được đơn giản hóa, tăng cường khả năng tương thích với thiết bị biên. Trên thực tế, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , vượt trội hơn hẳn so với các giải pháp khác. YOLOv6 Dành cho môi trường thiết bị di động hoặc IoT biên.
- Độ chính xác được nâng cao: Sử dụng ProgLoss + STAL , YOLO26 đạt được những cải tiến vượt bậc trong việc phát hiện các vật thể nhỏ , trở thành lựa chọn tối ưu cho việc chụp ảnh từ trên không và kiểm tra khuyết tật.
- Tính linh hoạt vượt trội: Không giống như các mô hình công nghiệp chỉ thực hiện việc vẽ hộp giới hạn, dòng sản phẩm YOLO26 hỗ trợ các tác vụ đa phương thức, bao gồm Phân loại hình ảnh , Phân đoạn đối tượng , Ước tính tư thế và Vẽ hộp giới hạn định hướng (OBB) .
Trải nghiệm hệ sinh thái liền mạch
Nền tảng Ultralytics chuyển đổi toàn bộ vòng đời học máy. Việc huấn luyện mô hình không còn là một quá trình phức tạp nhiều giai đoạn nữa. Với tính năng tăng cường dữ liệu tự động, tinh chỉnh siêu tham số thống nhất và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , OpenVINO và... CoreML Bạn có thể chuyển từ tập dữ liệu sang sản phẩm hoàn chỉnh chỉ trong vài giờ, chứ không phải vài tuần.
Ngoài ra, Ultralytics Các mô hình này nổi tiếng về hiệu quả bộ nhớ , tránh được những tắc nghẽn VRAM khổng lồ thường gặp ở các kiến trúc transformer như RT-DETR .
Ví dụ mã khởi động nhanh
Huấn luyện và suy luận với một Ultralytics Mẫu thiết kế như YOLO26 rất đơn giản và tinh tế. Tiếp theo là... Python Đoạn mã này minh họa cách bạn có thể bắt đầu theo dõi đối tượng ngay lập tức chỉ với một vài dòng mã:
from ultralytics import YOLO
# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")
# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)
Kết luận
Cả DAMO- YOLO Và YOLOv6 -3.0 là những thành tựu kỹ thuật ấn tượng, đẩy mạnh giới hạn của việc phát hiện vật thể trong công nghiệp. Tuy nhiên, chúng là những công cụ chuyên dụng cao, thường yêu cầu thiết lập phức tạp và những ràng buộc phần cứng nghiêm ngặt.
Dành cho các nhà phát triển và nhà nghiên cứu yêu cầu sự cân bằng hiệu năng hoàn hảo, khả năng đa nhiệm và một hệ sinh thái được duy trì tốt . Ultralytics YOLO26 không có đối thủ. Bằng cách kết hợp các thuật toán tối ưu hóa lấy cảm hứng từ LLM với giao diện sạch sẽ, NMS Với kiến trúc không phụ thuộc vào thư viện, YOLO26 đơn giản hóa việc triển khai AI đồng thời mang lại độ chính xác hàng đầu trong môi trường biên và đám mây.
Nếu bạn đang đánh giá các mô hình cho một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên bạn nên khám phá khả năng của hệ sinh thái Ultralytics YOLO . Bạn cũng có thể thấy hữu ích khi so sánh chúng với các kiến trúc khác như EfficientDet hoặc các cột mốc trước đó như YOLO11 để hiểu đầy đủ hơn về sự phát triển của trí tuệ nhân tạo thị giác thời gian thực.