Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 và YOLOv6-3.0#

Bối cảnh thị giác máy tính đang không ngừng phát triển, với các kiến trúc mới liên tục phá vỡ các giới hạn về tốc độ và độ chính xác. Khi lựa chọn model cho dự án Vision AI tiếp theo, các nhà phát triển thường so sánh giữa các framework linh hoạt, đã được khẳng định tên tuổi với các bộ dò tìm chuyên dụng trong công nghiệp. Bài phân tích chuyên sâu này khám phá những sắc thái kỹ thuật giữa Ultralytics YOLOv5YOLOv6-3.0 của Meituan, giúp bạn chọn công cụ tốt nhất cho nhu cầu triển khai của mình.

Link to this sectionGiới thiệu về các Model#

Link to this sectionUltralytics YOLOv5: Tiêu chuẩn linh hoạt#

Được phát hành vào năm 2020, Ultralytics YOLOv5 nhanh chóng trở thành tiêu chuẩn vàng cho khả năng nhận diện đối tượng hiệu năng cao và dễ tiếp cận. Nó nổi tiếng nhờ sự dễ sử dụng, các quy trình huấn luyện mạnh mẽ và tích hợp triển khai mở rộng.

YOLOv5 được thiết kế từ đầu để mang lại trải nghiệm nhà phát triển liền mạch trong hệ sinh thái PyTorch. Nó mang đến sự cân bằng hiệu năng tối ưu, đạt được độ chính xác trung bình (mAP) xuất sắc trong khi vẫn duy trì tốc độ suy luận cao phù hợp cho nhiều kịch bản triển khai thực tế, từ thiết bị biên cho đến máy chủ đám mây.

Tìm hiểu thêm về YOLOv5

Link to this sectionYOLOv6-3.0: Thông lượng công nghiệp#

Được phát triển bởi Bộ phận Vision AI tại Meituan, YOLOv6-3.0 được tùy chỉnh dành riêng cho các ứng dụng công nghiệp, ưu tiên tối đa lưu lượng xử lý thô trên các bộ tăng tốc phần cứng chuyên dụng.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, và cộng sự.
  • Tổ chức: Meituan
  • Ngày: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

YOLOv6 hướng tới việc tối đa hóa tốc độ xử lý trên các GPU như NVIDIA T4. Nó sử dụng các phương pháp lượng tử hóa tùy chỉnh và backbone chuyên biệt để đạt hiệu năng, biến nó thành ứng viên sáng giá cho xử lý máy chủ backend nơi suy luận batch được sử dụng nhiều.

Tìm hiểu thêm về YOLOv6

Link to this sectionSự khác biệt về kiến trúc#

Việc hiểu các lựa chọn kiến trúc đằng sau những model này là rất quan trọng để xác định các trường hợp sử dụng lý tưởng của chúng.

Link to this sectionKiến trúc YOLOv5#

YOLOv5 sử dụng backbone CSPDarknet được tối ưu hóa cao kết hợp với cổ (neck) Path Aggregation Network (PANet). Cấu trúc này được tinh chỉnh kỹ lưỡng để đảm bảo yêu cầu bộ nhớ tối thiểu trong quá trình huấn luyện và suy luận. Không giống như các model Transformer lớn đòi hỏi lượng lớn bộ nhớ CUDA và thời gian huấn luyện kéo dài, YOLOv5 hoạt động hiệu quả trên phần cứng tiêu dùng phổ thông.

Hiệu quả Bộ nhớ

Các model của Ultralytics được kỹ thuật hóa đặc biệt cho hiệu quả huấn luyện. Bạn thường có thể huấn luyện một model YOLOv5 trên một GPU tầm trung, khiến nó trở nên rất dễ tiếp cận đối với cả nhà nghiên cứu và startup.

Hơn nữa, YOLOv5 không chỉ là một bộ dò tìm đối tượng. Kiến trúc của nó mở rộng liền mạch sang các tác vụ khác, cung cấp hỗ trợ mạnh mẽ ngay khi cài đặt cho phân đoạn ảnhphân loại ảnh.

Link to this sectionKiến trúc YOLOv6-3.0#

YOLOv6-3.0 sở hữu backbone EfficientRep, được thiết kế để thân thiện với phần cứng, đặc biệt là cho thực thi trên GPU. Nó sử dụng mô-đun Bi-directional Concatenation (BiC) trong phần cổ để tăng cường khả năng hợp nhất đặc trưng.

Trong quá trình huấn luyện, YOLOv6 sử dụng chiến lược Anchor-Aided Training (AAT) để ổn định sự hội tụ, mặc dù nó vẫn là bộ dò tìm không anchor (anchor-free) trong quá trình suy luận. Trong khi kiến trúc này vượt trội trong các tác vụ tăng tốc GPU, nó đôi khi khó thích nghi hơn trên các thiết bị biên đa dạng so với framework YOLOv5 có tính di động cao.

Link to this sectionPhân tích Hiệu suất#

Khi đánh giá các model này, các chỉ số về tốc độ và độ chính xác thô là rất quan trọng. Dưới đây là bảng so sánh làm nổi bật hiệu năng của các kích thước model khác nhau trên tập dữ liệu COCO.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Trong khi YOLOv6-3.0 đạt điểm mAP cao hơn ở các biến thể lớn, YOLOv5 duy trì dấu chân cực kỳ nhẹ. Ví dụ, YOLOv5n yêu cầu ít tham số và FLOPs hơn đáng kể so với phiên bản YOLOv6 tương ứng, giúp nó trở nên tối ưu cao cho các triển khai trên thiết bị di động hoặc bị giới hạn bởi CPU.

Link to this sectionHệ sinh thái và tính dễ sử dụng#

Yếu tố quyết định thực sự đối với nhiều đội ngũ kỹ thuật chính là hệ sinh thái bao quanh model.

YOLOv6 là một repository nghiên cứu ấn tượng, nhưng nó đòi hỏi lượng code boilerplate đáng kể để triển khai trên các định dạng khác nhau. Ngược lại, Ultralytics cung cấp một hệ sinh thái được bảo trì tốt với trải nghiệm người dùng tinh giản. Thông qua API Python thống nhất và Ultralytics Platform trực quan, các nhà phát triển có quyền truy cập vào quản lý tập dữ liệu liền mạch, huấn luyện một cú nhấp chuột và xuất trực tiếp sang các định dạng như ONNXTensorRT.

Link to this sectionVí dụ mã nguồn: API Ultralytics thống nhất#

Gói pip ultralytics của Ultralytics cho phép bạn tải, huấn luyện và triển khai các model chỉ với vài dòng mã.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run fast inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for edge deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLOv5 và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLOv5#

YOLOv5 là lựa chọn mạnh mẽ cho:

  • Hệ thống sản xuất đã được kiểm chứng: Các hệ thống triển khai hiện có, nơi mà lịch sử lâu dài về tính ổn định, tài liệu đầy đủ và sự hỗ trợ cộng đồng khổng lồ của YOLOv5 được đánh giá cao.
  • Huấn luyện hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi đường ống huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất mở rộng: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreMLTFLite.

Link to this sectionKhi nào nên chọn YOLOv6#

YOLOv6 được khuyến nghị cho:

  • Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
  • Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
  • Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.

Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionHướng tới tương lai: Ưu thế của YOLO26#

Mặc dù YOLOv5 vẫn là một cỗ máy làm việc tin cậy và YOLOv6-3.0 cung cấp lưu lượng GPU công nghiệp mạnh mẽ, công nghệ hiện đại đã tiến xa hơn. Đối với các nhà phát triển bắt đầu dự án mới ngay hôm nay, lộ trình được khuyến nghị là Ultralytics YOLO26.

Được phát hành vào tháng 1 năm 2026, YOLO26 đại diện cho một bước nhảy vọt lớn. Nó kế thừa tính linh hoạt vô song của hệ sinh thái Ultralytics đồng thời giới thiệu các cải tiến kiến trúc đột phá:

  • Thiết kế End-to-End không NMS: YOLO26 loại bỏ quá trình hậu xử lý Non-Maximum Suppression, làm giảm đáng kể sự biến thiên độ trễ và đơn giản hóa logic triển khai.
  • Suy luận trên CPU nhanh hơn tới 43%: Với việc loại bỏ DFL và phần đầu (head) được tối ưu hóa, nó vượt trội đáng kể so với các thế hệ trước trên các thiết bị biên và thiết bị tiêu thụ điện năng thấp.
  • Bộ tối ưu hóa MuSGD: Tận dụng các cải tiến trong huấn luyện LLM, bộ tối ưu hóa MuSGD mới đảm bảo huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh đáng kể.
  • Tính linh hoạt nâng cao: YOLO26 xử lý liền mạch Oriented Bounding Box (OBB), Pose Estimation và Phân đoạn với các hàm mất mát tác vụ chuyên biệt như ProgLoss và STAL để nhận diện vật thể nhỏ vượt trội.

Nếu bạn đang khám phá các tùy chọn khác trong hệ sinh thái Ultralytics, bạn có thể cân nhắc YOLO11 mục đích chung hoặc YOLO-World đầy sáng tạo cho các tác vụ nhận diện từ vựng mở.

Link to this sectionKết luận#

Cả YOLOv5 và YOLOv6-3.0 đều có tác động đáng kể đến lĩnh vực thị giác máy tính. YOLOv6-3.0 cung cấp lưu lượng xuất sắc cho phần cứng máy chủ cao cấp, làm cho nó phù hợp với các phân tích ngoại tuyến chuyên dụng. Tuy nhiên, YOLOv5 vẫn là lựa chọn ưu việt cho các nhà phát triển cần một model mạnh mẽ, dễ sử dụng và linh hoạt cao được hỗ trợ bởi một nền tảng đẳng cấp thế giới.

Để có sự cân bằng tối thượng về độ chính xác thế hệ mới, triển khai không NMS gốc và trải nghiệm nhà phát triển tốt nhất ngành, nâng cấp lên YOLO26 thông qua Ultralytics Platform là lựa chọn dứt khoát cho các giải pháp Vision AI hiện đại.

Những người đóng góp

Bình luận