DAMO-YOLO so với YOLOv6-3.0: So sánh toàn diện các bộ detect vật thể công nghiệp

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các kiến trúc chuyên biệt cao, được thiết kế riêng cho các ứng dụng công nghiệp. Trong số đó, hai hệ thống hàng đầu nổi bật nhờ tập trung vào hiệu suất thời gian thực và hiệu quả triển khai: DAMO- YOLO và YOLOv6 . Trang này cung cấp so sánh kỹ thuật chuyên sâu về kiến trúc, số liệu hiệu suất và phương pháp huấn luyện của chúng để giúp bạn đưa ra lựa chọn triển khai phù hợp.

DAMO-YOLO: Tìm kiếm kiến trúc mạng nơ-ron trong Phát hiện đối tượng

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO giới thiệu một cách tiếp cận mới lạ cho dòng YOLO bằng cách tích hợp mạnh mẽ Neural Architecture Search (NAS) vào thiết kế backbone của nó.

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

Đổi mới Kiến trúc

DAMO-YOLO sử dụng một kiến trúc xương sống (backbone) được tối ưu hóa bằng NAS có tên MAE-NAS, tự động tìm kiếm các cấu trúc mạng tối ưu dưới các ràng buộc độ trễ cụ thể. Điều này đảm bảo mô hình mở rộng hiệu quả trên các cấu hình phần cứng khác nhau. Để cải thiện hợp nhất đặc trưng (feature fusion), kiến trúc này sử dụng một RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả, tăng cường đáng kể biểu diễn đa tỷ lệ.

Hơn nữa, mô hình này giới thiệu thiết kế "ZeroHead". Bằng cách loại bỏ các cấu trúc đa nhánh phức tạp trong đầu phát hiện, nó bảo toàn thông tin không gian hiệu quả hơn đồng thời giảm chi phí tính toán. Phương pháp huấn luyện cũng tận dụng AlignedOTA (Aligned Optimal Transport Assignment) và phương pháp chưng cất kiến thức mạnh mẽ, cho phép các mô hình học sinh nhỏ hơn học hỏi từ các mạng lưới giáo viên lớn hơn.

Tìm hiểu thêm về DAMO-YOLO

Độ phức tạp của quá trình chưng cất

Trong khi quá trình chắt lọc kiến thức giúp DAMO- YOLO Để đạt được độ chính xác cao, cần có quy trình huấn luyện nhiều giai đoạn. Điều này làm tăng đáng kể lượng tài nguyên tính toán GPU cần thiết so với việc huấn luyện các mô hình một giai đoạn tiêu chuẩn.

YOLOv6 -3.0: Tối đa hóa năng suất công nghiệp

Được tiên phong bởi Bộ phận AI Thị giác Meituan, YOLOv6 được ghi nhãn rõ ràng là một thiết bị phát hiện vật thể công nghiệp, được thiết kế đặc biệt để tối đa hóa hiệu suất trên... NVIDIA phần cứng.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức:Meituan
Ngày: 2023-01-13
Arxiv:2301.05586
GitHub:meituan/YOLOv6

Các tính năng và cải tiến chính

YOLOv6 -3.0 được xây dựng trên nền tảng EfficientRep thân thiện với phần cứng, giúp nó hoạt động cực kỳ nhanh khi tận dụng các tối ưu hóa như TensorRT trên các GPU hiện đại. Trong phiên bản v3.0, mạng tích hợp mô-đun Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng định vị các đối tượng có kích thước khác nhau.

Một tính năng nổi bật khác là chiến lược Huấn luyện có hỗ trợ neo (AAT). AAT kết hợp sự ổn định của bộ detect dựa trên neo trong quá trình huấn luyện với tốc độ suy luận của thiết kế không neo. Cách tiếp cận lai này mang lại sự hội tụ tuyệt vời mà không làm giảm độ trễ triển khai, biến nó thành một lựa chọn mạnh mẽ để xử lý các luồng video khổng lồ trong phân tích thành phố thông minh và hệ thống thanh toán tự động.

Tìm hiểu thêm về YOLOv6

So sánh hiệu suất

Khi đánh giá các mô hình này cho suy luận thời gian thực , việc cân bằng các tham số, số phép tính FLOP và độ chính xác là rất quan trọng. Dưới đây là bảng đánh giá chi tiết so sánh hiệu năng của chúng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Trong khi DAMO- YOLO thể hiện một chút ưu thế ở hạng nhỏ (46,0) mAP so với 45.0 mAP ), YOLOv6 -3.0 thể hiện khả năng mở rộng vượt trội, chiếm ưu thế ở phân khúc tầm trung và lớn trong khi vẫn duy trì các thông số tối thiểu tuyệt đối ở cấu hình nano.

Lựa chọn giữa hai phương án

Nếu môi trường phần cứng của bạn cho phép thực hiện các tìm kiếm tự động chuyên sâu để tùy chỉnh hệ thống mạng cốt lõi, DAMO- YOLO Phương pháp NAS của họ rất hiệu quả. Tuy nhiên, nếu bạn hoàn toàn dựa vào các tiêu chuẩn hóa GPU gia tốc (như T4 hoặc A100), YOLOv6 Cấu trúc EfficientRep của 's thường mang lại FPS thô cao hơn.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa DAMO-YOLO và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên chọn YOLOv6

YOLOv6 được khuyến nghị cho:

Triển khai công nghiệp nhận biết phần cứng: Các kịch bản mà thiết kế nhận biết phần cứng và tái tham số hóa hiệu quả của mô hình mang lại hiệu suất tối ưu trên phần cứng mục tiêu cụ thể.
Phát hiện một giai đoạn nhanh: Các ứng dụng ưu tiên tốc độ suy luận thô trên GPU để xử lý video thời gian thực trong môi trường được kiểm soát.
Tích hợp hệ sinh thái Meituan: Các nhóm đã làm việc trong ngăn xếp công nghệ và cơ sở hạ tầng triển khai của Meituan.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi cả DAMO- YOLO Và YOLOv6 - Các hệ thống -3.0 có khả năng cao, nhưng lại gặp phải vấn đề về hệ sinh thái phân mảnh, hạn chế về khả năng thực hiện một nhiệm vụ duy nhất và quy trình triển khai phức tạp. Đối với các nhóm kỹ thuật hiện đại, các mô hình Ultralytics mang lại trải nghiệm phát triển tốt hơn đáng kể, đỉnh cao là YOLO26 đột phá.

Ra mắt vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn mới về triển khai điện toán biên và đám mây, tối ưu hóa mạnh mẽ yêu cầu bộ nhớ và hiệu quả tính toán.

Tại sao chọn YOLO26?

Thiết kế không NMS đầu cuối: Dựa trên các khái niệm từ YOLOv10, YOLO26 loại bỏ xử lý hậu kỳ Non-Maximum Suppression một cách tự nhiên. Điều này đơn giản hóa đáng kể mã triển khai và giảm biến thiên độ trễ suy luận trên tất cả các thiết bị biên.
Tối ưu hóa vượt trội: YOLO26 sử dụng Trình tối ưu hóa MuSGD, một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ các mô hình ngôn ngữ lớn), mang lại các lần huấn luyện rất ổn định và hội tụ nhanh hơn.
Tính linh hoạt phần cứng: Bằng cách triển khai DFL Removal (Distribution Focal Loss), các đầu ra được đơn giản hóa, tăng cường khả năng tương thích với thiết bị biên. Trên thực tế, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó vượt trội hơn hẳn YOLOv6 cho môi trường di động hoặc thiết bị biên IoT.
Độ chính xác nâng cao: Sử dụng ProgLoss + STAL, YOLO26 đạt được những cải thiện đáng kể trong phát hiện vật thể nhỏ, biến nó thành lựa chọn tối ưu cho ảnh chụp từ trên không và kiểm tra lỗi.
Tính linh hoạt vượt trội: Không giống như các mô hình công nghiệp chỉ thực hiện hộp giới hạn, họ YOLO26 hỗ trợ các tác vụ đa phương thức, bao gồm Phân loại ảnh, Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thế (Pose Estimation) và Hộp giới hạn định hướng (OBB).

Tìm hiểu thêm về YOLO26

Trải nghiệm hệ sinh thái liền mạch

Nền tảng Ultralytics chuyển đổi toàn bộ vòng đời học máy. Việc huấn luyện mô hình không còn là một quá trình phức tạp nhiều giai đoạn nữa. Với tính năng tăng cường dữ liệu tự động, tinh chỉnh siêu tham số thống nhất và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , OpenVINO và... CoreML Bạn có thể chuyển từ tập dữ liệu sang sản phẩm hoàn chỉnh chỉ trong vài giờ, chứ không phải vài tuần.

Ngoài ra, các mô hình Ultralytics nổi tiếng về hiệu quả bộ nhớ, tránh được các nút thắt cổ chai VRAM lớn thường gặp ở các kiến trúc transformer như RT-DETR.

Ví dụ mã khởi động nhanh

Huấn luyện và suy luận với một Ultralytics Mẫu thiết kế như YOLO26 rất đơn giản và tinh tế. Tiếp theo là... Python Đoạn mã này minh họa cách bạn có thể bắt đầu theo dõi đối tượng ngay lập tức chỉ với một vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

Kết luận

Cả DAMO-YOLO và YOLOv6-3.0 đều là những thành tựu kỹ thuật ấn tượng, đẩy lùi ranh giới của detect vật thể trong công nghiệp. Tuy nhiên, chúng là những công cụ chuyên biệt cao, thường đòi hỏi thiết lập phức tạp và các ràng buộc phần cứng nghiêm ngặt.

Dành cho các nhà phát triển và nhà nghiên cứu yêu cầu sự cân bằng hiệu năng hoàn hảo, khả năng đa nhiệm và một hệ sinh thái được duy trì tốt . Ultralytics YOLO26 không có đối thủ. Bằng cách kết hợp các thuật toán tối ưu hóa lấy cảm hứng từ LLM với giao diện sạch sẽ, NMS Với kiến trúc không phụ thuộc vào thư viện, YOLO26 đơn giản hóa việc triển khai AI đồng thời mang lại độ chính xác hàng đầu trong môi trường biên và đám mây.

Nếu bạn đang đánh giá các mô hình cho một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên bạn nên khám phá khả năng của hệ sinh thái Ultralytics YOLO . Bạn cũng có thể thấy hữu ích khi so sánh chúng với các kiến trúc khác như EfficientDet hoặc các cột mốc trước đó như YOLO11 để hiểu đầy đủ hơn về sự phát triển của trí tuệ nhân tạo thị giác thời gian thực.