Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO so với YOLOv6-3.0#

Sự phát triển nhanh chóng của thị giác máy tính đã tạo ra các kiến trúc chuyên biệt cao cấp, được thiết kế riêng cho các ứng dụng công nghiệp. Trong số đó, hai "gã khổng lồ" nổi bật nhờ tập trung vào hiệu suất thời gian thực và hiệu quả triển khai: DAMO-YOLOYOLOv6-3.0. Trang này cung cấp một bản so sánh kỹ thuật chuyên sâu về kiến trúc, chỉ số hiệu suất và phương pháp huấn luyện của chúng để giúp bạn định hướng các lựa chọn triển khai của mình.

Link to this sectionDAMO-YOLO: Tìm kiếm Kiến trúc Thần kinh đáp ứng Phát hiện Đối tượng#

Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO giới thiệu một cách tiếp cận mới cho dòng họ YOLO bằng cách tích hợp mạnh mẽ Tìm kiếm Kiến trúc Thần kinh (NAS) vào thiết kế backbone của nó.

Link to this sectionCải tiến kiến trúc#

DAMO-YOLO sử dụng một backbone được tối ưu hóa bằng NAS có tên là MAE-NAS, giúp tự động tìm kiếm các cấu trúc mạng tối ưu dưới những ràng buộc về độ trễ cụ thể. Điều này đảm bảo mô hình mở rộng hiệu quả trên các cấu hình phần cứng khác nhau. Để cải thiện khả năng hợp nhất đặc trưng, kiến trúc này sử dụng Efficient RepGFPN (Reparameterized Generalized Feature Pyramid Network), giúp nâng cao đáng kể biểu diễn đa quy mô.

Hơn nữa, mô hình còn giới thiệu thiết kế "ZeroHead". Bằng cách loại bỏ các cấu trúc đa nhánh phức tạp trong head phát hiện, nó bảo toàn thông tin không gian hiệu quả hơn trong khi giảm bớt gánh nặng tính toán. Phương pháp huấn luyện cũng tận dụng AlignedOTA (Aligned Optimal Transport Assignment) và kỹ thuật chưng cất tri thức (knowledge distillation) mạnh mẽ, cho phép các mô hình học sinh nhỏ hơn học tập từ các mạng giáo viên nặng hơn.

Tìm hiểu thêm về DAMO-YOLO

Độ phức tạp của Chưng cất tri thức

Mặc dù chưng cất tri thức giúp DAMO-YOLO đạt được độ chính xác cao, nhưng nó đòi hỏi một quy trình huấn luyện nhiều giai đoạn. Điều này làm tăng đáng kể tính toán GPU cần thiết so với việc huấn luyện các mô hình một giai đoạn tiêu chuẩn.

Link to this sectionYOLOv6-3.0: Tối đa hóa Thông lượng Công nghiệp#

Được tiên phong bởi Bộ phận AI Thị giác của Meituan, YOLOv6-3.0 được gắn nhãn rõ ràng là một bộ phát hiện đối tượng công nghiệp, được thiết kế đặc biệt để tối đa hóa thông lượng trên phần cứng NVIDIA.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
  • Tổ chức: Meituan
  • Ngày: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Link to this sectionCác tính năng và Cải tiến chính#

YOLOv6-3.0 được xây dựng dựa trên backbone EfficientRep thân thiện với phần cứng, giúp nó cực kỳ nhanh khi tận dụng các tối ưu hóa như TensorRT trên các GPU hiện đại. Trong phiên bản v3.0, mạng tích hợp một mô-đun Ghép nối Hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng định vị các đối tượng có kích thước khác nhau.

Một tính năng nổi bật khác là chiến lược Huấn luyện Hỗ trợ bởi Anchor (AAT). AAT kết hợp tính ổn định của các bộ phát hiện dựa trên anchor trong quá trình huấn luyện với tốc độ suy luận của thiết kế không cần anchor. Cách tiếp cận lai này mang lại khả năng hội tụ tuyệt vời mà không làm giảm độ trễ triển khai, biến nó thành lựa chọn mạnh mẽ để xử lý các luồng video lớn trong phân tích đô thị thông minh và các hệ thống thanh toán tự động.

Tìm hiểu thêm về YOLOv6

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các mô hình này cho suy luận thời gian thực, việc cân bằng giữa tham số, FLOPs và độ chính xác là rất quan trọng. Dưới đây là đánh giá chi tiết so sánh hiệu suất của chúng.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Trong khi DAMO-YOLO cho thấy ưu thế nhẹ ở phân khúc nhỏ (46.0 mAP so với 45.0 mAP), YOLOv6-3.0 chứng tỏ khả năng mở rộng vượt trội, chiến thắng ở các phân khúc trung bình và lớn trong khi vẫn giữ được số lượng tham số thấp nhất tuyệt đối ở cấu hình nano của mình.

Lựa chọn giữa hai mô hình

Nếu môi trường phần cứng của bạn cho phép thực hiện các tìm kiếm tự động phức tạp để tùy chỉnh backbone, phương pháp NAS của DAMO-YOLO cực kỳ hiệu quả. Tuy nhiên, nếu bạn hoàn toàn dựa vào khả năng tăng tốc GPU tiêu chuẩn (như T4 hoặc A100), các cấu trúc EfficientRep của YOLOv6 thường mang lại FPS thô cao hơn.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa DAMO-YOLO và YOLOv6 phụ thuộc vào yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO là một lựa chọn mạnh mẽ cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 được khuyến nghị cho:

  • Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#

Mặc dù cả DAMO-YOLO và YOLOv6-3.0 đều rất có khả năng, nhưng chúng lại chịu ảnh hưởng bởi các hệ sinh thái phân mảnh, hạn chế về tác vụ đơn lẻ và các quy trình triển khai phức tạp. Đối với các đội ngũ kỹ thuật hiện đại, các mô hình Ultralytics mang lại trải nghiệm nhà phát triển tốt hơn đáng kể, đạt đỉnh cao là YOLO26 mang tính đột phá.

Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho tiêu chuẩn mới cho việc triển khai tại biên và trên đám mây, tối ưu hóa mạnh mẽ yêu cầu bộ nhớ và hiệu quả tính toán.

Link to this sectionTại sao chọn YOLO26?#

  1. Thiết kế End-to-End không cần NMS: Dựa trên các khái niệm từ YOLOv10, YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression. Điều này giúp đơn giản hóa đáng kể mã triển khai và giảm sự thay đổi độ trễ suy luận trên tất cả các thiết bị biên.
  2. Tối ưu hóa Vượt trội: YOLO26 sử dụng MuSGD Optimizer, một sự kết hợp giữa SGD và Muon (lấy cảm hứng từ các mô hình ngôn ngữ lớn), mang lại các đợt huấn luyện ổn định cao và hội tụ nhanh hơn.
  3. Sự linh hoạt về Phần cứng: Bằng cách triển khai Loại bỏ DFL (Distribution Focal Loss), các đầu ra (output head) được đơn giản hóa, thúc đẩy khả năng tương thích với thiết bị biên. Thực tế, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó vượt trội hơn hẳn so với YOLOv6 cho các môi trường di động hoặc IoT biên.
  4. Độ chính xác nâng cao: Sử dụng ProgLoss + STAL, YOLO26 chứng kiến những cải tiến đáng kể trong phát hiện đối tượng nhỏ, biến nó trở thành lựa chọn tối ưu cho hình ảnh hàng không và kiểm tra lỗi sản phẩm.
  5. Sự linh hoạt vô song: Không giống như các mô hình công nghiệp chỉ thực hiện đóng khung (bounding box), dòng YOLO26 hỗ trợ các tác vụ đa phương thức, bao gồm Phân loại Ảnh, Phân đoạn đối tượng (Instance Segmentation), Ước tính tư thếHộp bao định hướng (OBB).

Tìm hiểu thêm về YOLO26

Link to this sectionTrải nghiệm Hệ sinh thái liền mạch#

Nền tảng Ultralytics biến đổi toàn bộ vòng đời máy học. Việc huấn luyện một mô hình không còn là cơn đau đầu về chưng cất tri thức nhiều giai đoạn. Với tăng cường dữ liệu tự động, tinh chỉnh siêu tham số thống nhất và xuất mô hình chỉ bằng một cú nhấp chuột sang các định dạng như ONNX, OpenVINO và CoreML, bạn có thể đi từ bộ dữ liệu đến sản xuất trong vài giờ, thay vì vài tuần.

Ngoài ra, các mô hình Ultralytics nổi tiếng với hiệu quả bộ nhớ, tránh được các điểm nghẽn VRAM khổng lồ vốn gây khó khăn cho các kiến trúc Transformer như RT-DETR.

Link to this sectionVí dụ Mã nguồn Khởi động Nhanh#

Huấn luyện và thực hiện suy luận với một mô hình Ultralytics như YOLO26 cực kỳ đơn giản. Tập lệnh Python sau đây minh họa cách bạn có thể bắt đầu theo dõi các đối tượng ngay lập tức chỉ với vài dòng mã:

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

Link to this sectionKết luận#

Cả DAMO-YOLO và YOLOv6-3.0 đều là những thành tựu kỹ thuật ấn tượng, đẩy xa ranh giới của phát hiện đối tượng công nghiệp. Tuy nhiên, chúng là những công cụ chuyên biệt cao cấp, thường đòi hỏi các thiết lập phức tạp và các ràng buộc phần cứng cứng nhắc.

Đối với các nhà phát triển và nghiên cứu đòi hỏi sự cân bằng hiệu suất hoàn hảo, khả năng đa tác vụ và một hệ sinh thái được duy trì tốt, Ultralytics YOLO26 là vô đối. Bằng cách kết hợp các bộ tối ưu hóa lấy cảm hứng từ LLM với một kiến trúc sạch sẽ, không cần NMS, YOLO26 đơn giản hóa việc triển khai AI trong khi mang lại độ chính xác hàng đầu trong các môi trường biên và đám mây.

Nếu bạn đang đánh giá các mô hình cho một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyến nghị khám phá các khả năng của hệ sinh thái Ultralytics YOLO. Bạn cũng có thể thấy hữu ích khi so sánh chúng với các kiến trúc khác như EfficientDet hoặc các cột mốc trước đó như YOLO11 để nắm bắt đầy đủ sự phát triển của AI thị giác thời gian thực.

Người đóng góp

Bình luận