Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 và DAMO-YOLO#

Bối cảnh của computer vision thời gian thực đang không ngừng phát triển, với các nhà nghiên cứu và kỹ sư luôn nỗ lực đạt được sự cân bằng hoàn hảo giữa độ chính xác, tốc độ và khả năng sử dụng. Hai model nổi bật đã định hình hành trình này là Ultralytics YOLOv5DAMO-YOLO của Alibaba.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của hai model nhằm giúp bạn chọn được model phù hợp cho dự án triển khai tiếp theo của mình.

Link to this sectionBối cảnh về các model#

Trước khi đi sâu vào các sắc thái kỹ thuật, điều quan trọng là phải hiểu nguồn gốc và triết lý thiết kế chính đằng sau mỗi model thị giác có tầm ảnh hưởng này.

Link to this sectionUltralytics YOLOv5#

Được phát triển bởi Glenn Jocher cùng đội ngũ tại Ultralytics, YOLOv5 đã trở thành tiêu chuẩn ngành kể từ khi ra mắt. Được xây dựng nguyên bản trên framework PyTorch, model này ưu tiên trải nghiệm nhà phát triển tinh gọn và khả năng triển khai mạnh mẽ ngay lập tức.

Tìm hiểu thêm về YOLOv5

Link to this sectionDAMO-YOLO#

Được tạo ra bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO tập trung mạnh mẽ vào Neural Architecture Search (NAS) và các kỹ thuật chưng cất (distillation) tiên tiến. Nó đẩy giới hạn lý thuyết về hiệu suất phần cứng lên mức tối đa, phục vụ tốt cho các môi trường nghiên cứu và thiết bị đầu cuối yêu cầu tinh chỉnh cực hạn.

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionCải tiến kiến trúc#

Cả hai model đều tận dụng các khái niệm cấu trúc độc đáo để đạt được hiệu suất thời gian thực, mặc dù cách tiếp cận của chúng khác biệt đáng kể.

Link to this sectionYOLOv5: Độ ổn định và tính linh hoạt#

YOLOv5 sử dụng backbone Modified CSP (Cross Stage Partial) kết hợp với neck PANet (Path Aggregation Network). Cấu trúc này đạt hiệu quả cao, giảm thiểu việc sử dụng bộ nhớ CUDA trong cả quá trình huấn luyện và suy luận.

Một trong những thế mạnh lớn nhất của YOLOv5 là tính linh hoạt trên nhiều tác vụ. Ngoài các dự đoán bounding box, nó cung cấp các kiến trúc chuyên dụng cho image segmentationimage classification, cho phép các nhà phát triển chuẩn hóa pipeline thị giác của họ trên một framework duy nhất và nhất quán.

Link to this sectionDAMO-YOLO: Tìm kiếm kiến trúc tự động#

Đổi mới cốt lõi của DAMO-YOLO là Backbone MAE-NAS. Sử dụng tính năng tìm kiếm tiến hóa đa mục tiêu (Multi-Objective Evolutionary search), đội ngũ Alibaba đã khám phá ra các backbone cân bằng giữa độ chính xác khi phát hiện và tốc độ suy luận một cách linh hoạt.

Ngoài ra, model này còn có neck Efficient RepGFPN để cải thiện việc kết hợp đặc trưng (feature fusion)—rất có lợi cho các biến thể quy mô phức tạp thường thấy trong phân tích hình ảnh vệ tinh. Thiết kế ZeroHead của nó giúp đơn giản hóa các lớp dự đoán cuối cùng để giảm độ trễ, mặc dù việc tạo ra cấu trúc phức tạp này có thể làm cho kiến trúc trở nên cứng nhắc và khó tùy chỉnh cho các ứng dụng tùy biến.

Yêu cầu bộ nhớ

Các kiến trúc dựa trên Transformer thường gặp khó khăn với mức tiêu thụ VRAM cao. Cả YOLOv5 và DAMO-YOLO đều sử dụng các thiết kế convolutional hiệu quả để giữ mức sử dụng bộ nhớ ở mức thấp, nhưng các model của Ultralytics được tối ưu hóa đặc biệt cho GPU cấp tiêu dùng, giúp chúng trở nên dễ tiếp cận hơn nhiều đối với các nhà nghiên cứu độc lập và các startup.

Link to this sectionHiệu suất và chỉ số#

Việc đánh giá các bộ phát hiện đối tượng thời gian thực đòi hỏi phải xem xét ma trận bao gồm mAP (mean Average Precision), tốc độ suy luận và các thông số về kích thước model.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Mặc dù DAMO-YOLO đạt được điểm mAP rất cạnh tranh ở một số cấu hình tham số nhất định, YOLOv5 liên tục thể hiện tốc độ TensorRT vượt trội và số lượng tham số cực thấp cho các cấu hình nano và small. Sự cân bằng hiệu suất này đảm bảo YOLOv5 hoạt động hiệu quả trong các tình huống triển khai tại edge đa dạng.

Link to this sectionHiệu quả huấn luyện và hệ sinh thái#

Độ chính xác lý thuyết của một model chỉ có giá trị khi nó có tính khả thi trong thực tế. Đây là điểm mà hai model có sự khác biệt đáng kể.

Link to this sectionSự phức tạp của việc chưng cất (distillation)#

DAMO-YOLO phụ thuộc nhiều vào phương pháp huấn luyện đa giai đoạn. Nó triển khai kỹ thuật chưng cất kiến thức giữa giáo viên và học sinh (teacher-student) có tên là AlignedOTA. Mặc dù điều này khai thác hiệu suất tối đa từ model học sinh, nhưng nó đòi hỏi phải huấn luyện trước một model giáo viên khổng lồ. Điều này làm tăng đáng kể thời gian tính toán, chi phí năng lượng và phần cứng cần thiết, tạo thành nút thắt cho các đội ngũ ML linh hoạt.

Link to this sectionLợi thế của Ultralytics: Dễ sử dụng#

Ngược lại, hệ sinh thái Ultralytics nổi tiếng thế giới nhờ các API trực quan và hiệu quả huấn luyện. Được hỗ trợ bởi sự phát triển tích cực và cộng đồng mã nguồn mở khổng lồ, các nhà phát triển có thể huấn luyện, xác thực và triển khai model một cách liền mạch.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics cũng cung cấp hỗ trợ tích hợp cho việc theo dõi thử nghiệm thông qua các công cụ như Weights & Biases và Comet ML, tạo ra một quy trình làm việc không ma sát.

Link to this sectionCác trường hợp sử dụng thực tế#

  • YOLOv5 vượt trội trong các môi trường sản xuất có nhịp độ nhanh. Khả năng xuất (export) đơn giản khiến nó trở thành lựa chọn hàng đầu cho phân tích bán lẻ thông minh, phát hiện lỗi sản xuất tốc độ cao và tích hợp vào các ứng dụng di động thông qua CoreML.
  • DAMO-YOLO rất phù hợp cho các điểm chuẩn học thuật nghiêm ngặt và các tình huống có sẵn nguồn tài nguyên tính toán khổng lồ để thực hiện các đợt huấn luyện chưng cất kéo dài nhằm tận dụng những cải tiến nhỏ về mAP cho các mục tiêu phần cứng cố định, cụ thể.

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv5 và DAMO-YOLO phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và tùy chọn hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv5#

YOLOv5 là lựa chọn mạnh mẽ cho:

  • Hệ thống sản xuất đã được kiểm chứng: Các hệ thống triển khai hiện có, nơi mà lịch sử lâu dài về tính ổn định, tài liệu đầy đủ và sự hỗ trợ cộng đồng khổng lồ của YOLOv5 được đánh giá cao.
  • Huấn luyện hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi đường ống huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất mở rộng: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreMLTFLite.

Link to this sectionKhi nào nên chọn DAMO-YOLO#

DAMO-YOLO được khuyến nghị cho:

  • Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
  • Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
  • Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionSự tiến hóa tiếp theo: YOLO26#

Nếu bạn đang bắt đầu một dự án mới, bạn rất nên hướng tới tương lai. Ultralytics YOLO26 xây dựng dựa trên nền tảng đáng kinh ngạc của YOLOv5, kết hợp những tiến bộ mang tính cách mạng để định nghĩa lại AI thị giác hiện đại.

Tại sao nên nâng cấp lên YOLO26?

Ra mắt với sự hoan nghênh rộng rãi, YOLO26 là end-to-end nguyên bản. Nó có thiết kế End-to-End NMS-Free, loại bỏ hoàn toàn việc hậu xử lý Non-Maximum Suppression để triển khai đơn giản và nhanh chóng hơn đáng kể.

Những cải tiến chính trong YOLO26 bao gồm:

  • MuSGD Optimizer: Lấy cảm hứng từ những cải tiến trong huấn luyện LLM, sự kết hợp giữa SGD và Muon này đảm bảo quá trình huấn luyện ổn định và hội tụ nhanh chóng.
  • Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên, làm cho nó trở nên hoàn hảo cho các thiết bị IoT hoạt động mà không cần GPU chuyên dụng.
  • ProgLoss + STAL: Các hàm loss tiên tiến giúp cải thiện đáng kể khả năng nhận dạng các đối tượng nhỏ, điều này rất quan trọng đối với hình ảnh máy bay không người lái và robotics.
  • Cải tiến theo tác vụ: Từ hàm loss góc chuyên dụng cho Oriented Bounding Boxes (OBB) đến Residual Log-Likelihood Estimation (RLE) cho Pose estimation chính xác, YOLO26 xử lý các miền phức tạp một cách dễ dàng.

Link to this sectionKết luận#

Cả YOLOv5 và DAMO-YOLO đều đã khẳng định vị thế của mình trong lịch sử phát hiện đối tượng. DAMO-YOLO vẫn là một nghiên cứu thú vị về Neural Architecture Search và chưng cất. Tuy nhiên, đối với các tổ chức ưu tiên một hệ sinh thái được bảo trì tốt, dễ sử dụng và con đường nhanh chóng để đưa vào sản xuất, các model của Ultralytics vẫn là vô song.

Chúng tôi thực sự khuyên bạn nên sử dụng Nền tảng Ultralytics để gán nhãn, huấn luyện và triển khai thế hệ model tiếp theo, chẳng hạn như YOLO26, để đảm bảo pipeline thị giác máy tính của bạn luôn sẵn sàng cho tương lai, nhanh chóng và chính xác đáng kinh ngạc.

Link to this sectionĐọc thêm#

  • Khám phá RT-DETR dựa trên Transformer cho các ứng dụng có độ chính xác cao.
  • Tìm hiểu về model YOLO11 thế hệ trước.
  • Khám phá cách tối ưu hóa việc triển khai với OpenVINO.
Người đóng góp

Bình luận