Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 so với YOLOv6-3.0#

Lĩnh vực thị giác máy tính phát triển nhanh chóng, và việc lựa chọn kiến trúc model phù hợp là quyết định then chốt đối với các kỹ sư machine learning. Hai cột mốc quan trọng trong quá trình phát triển phát hiện đối tượng thời gian thực là YOLO11YOLOv6-3.0. Mặc dù cả hai model đều mang lại khả năng ấn tượng trong việc trích xuất thông tin từ dữ liệu hình ảnh, chúng được phát triển với những mục tiêu chính và triết lý thiết kế khác nhau.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu so sánh kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Link to this sectionTổng quan về mô hình#

Trước khi đi sâu vào các bài kiểm thử kỹ thuật, việc hiểu rõ nguồn gốc và trọng tâm cốt lõi của từng model là rất hữu ích.

Link to this sectionUltralytics YOLO11#

Được phát triển tự nhiên trong hệ sinh thái Ultralytics, YOLO11 được xây dựng để mang lại trải nghiệm phát triển liền mạch, từ đầu đến cuối. Nó không chỉ nhấn mạnh vào tốc độ thuần túy, mà còn cả tính linh hoạt đa tác vụ, sự dễ dàng trong sử dụng và khả năng tích hợp với các pipeline triển khai hiện đại.

Tìm hiểu thêm về YOLO11

Link to this sectionMeituan YOLOv6-3.0#

YOLOv6-3.0 được tùy chỉnh đặc biệt cho các ứng dụng công nghiệp nơi có sẵn đơn vị xử lý đồ họa (GPU) chuyên dụng. Nó tối ưu hóa mạnh mẽ cho việc triển khai TensorRT, tập trung vào việc tối đa hóa thông lượng trong các môi trường được kiểm soát.

Tìm hiểu thêm về YOLOv6

Link to this sectionSự khác biệt về kiến trúc#

Kiến trúc nền tảng quyết định cách một model học hỏi và mở rộng. Cả hai framework đều giới thiệu những cải tiến độc đáo cho công thức YOLO cổ điển.

YOLO11 xây dựng dựa trên nhiều năm nghiên cứu để cung cấp một kiến trúc cực kỳ hiệu quả về tham số. Nó sở hữu một backbone tiên tiến và phần head tổng quát có khả năng xử lý đa dạng các tác vụ thị giác máy tính—như phân đoạn thực thểước tính tư thế—mà không yêu cầu những thay đổi cấu trúc lớn. Hơn nữa, YOLO11 tự hào có yêu cầu bộ nhớ CUDA đặc biệt thấp trong quá trình huấn luyện, tạo nên sự khác biệt so với các transformer model cồng kềnh hơn như RT-DETR.

Ngược lại, YOLOv6-3.0 sử dụng module Kết nối hai chiều (BiC) và chiến lược Huấn luyện hỗ trợ neo (AAT). Các cơ chế này được thiết kế để cải thiện độ chính xác định vị. Kiến trúc chủ yếu được tách rời và định lượng mạnh mẽ để ưu tiên suy luận model INT8, khiến nó trở thành một ứng cử viên nặng ký cho các dây chuyền sản xuất tốc độ cao đang chạy trên các hệ thống GPU cũ.

Lựa chọn Framework phù hợp

Nếu dự án của bạn đòi hỏi tạo mẫu nhanh, hỗ trợ tác vụ đa dạng (như phân đoạn hoặc phân loại), và triển khai trên các loại phần cứng khác nhau (CPU, Edge TPU, Mobile), framework Ultralytics mang lại trải nghiệm lập trình mượt mà hơn đáng kể.

Link to this sectionHiệu suất và chỉ số#

Khi đánh giá các model, mean Average Precision (mAP) và tốc độ suy luận là tối quan trọng. Bảng sau đây so sánh hiệu suất của YOLO11 với YOLOv6-3.0 trên nhiều quy mô model khác nhau. Các chỉ số hiệu suất tốt nhất được in đậm.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Như đã chứng minh, YOLO11 đạt được độ chính xác (mAP) cao hơn một cách nhất quán với ít tham số và FLOPs hơn đáng kể trên các cấp độ tương đương. Sự hiệu quả về tham số này chuyển đổi trực tiếp thành yêu cầu bộ nhớ thấp hơn trong cả huấn luyện model và suy luận.

Link to this sectionLợi thế từ Ultralytics#

Việc lựa chọn model không chỉ là về các chỉ số thô; mà còn là về toàn bộ vòng đời machine learning. Các model Ultralytics mang lại lợi thế khác biệt cho cả lập trình viên và nhà nghiên cứu.

  1. Dễ sử dụng: Python API của Ultralytics cho phép bạn huấn luyện, xác thực và xuất model chỉ với vài dòng code. Không cần phải cấu hình thủ công các cây phụ thuộc phức tạp.
  2. Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một hệ sinh thái thống nhất nhận được các bản cập nhật thường xuyên. Bằng cách sử dụng Ultralytics Platform, các lập trình viên có quyền truy cập vào chú thích dữ liệu cộng tác, huấn luyện trên đám mây và giám sát model liền mạch.
  3. Tính linh hoạt: Không giống như YOLOv6-3.0, vốn chủ yếu là bộ phát hiện hộp giới hạn (bounding box), YOLO11 hỗ trợ nguyên bản phân loại hình ảnhhộp giới hạn định hướng (OBB), cho phép bạn hợp nhất ngăn xếp công nghệ của mình.
  4. Hiệu quả huấn luyện: Tận dụng các tối ưu hóa hiện đại và tự động tạo batch, YOLO11 huấn luyện hiệu quả trên phần cứng cấp độ người tiêu dùng, dân chủ hóa quyền truy cập vào AI thị giác tiên tiến nhất.

Link to this sectionVí dụ mã: Huấn luyện và Suy luận#

Làm việc với các model Ultralytics rất trực quan. Dưới đây là một ví dụ có thể chạy 100% minh họa cách huấn luyện và chạy suy luận bằng cách sử dụng gói Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image from the web
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format for easy deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng lý tưởng#

Việc hiểu rõ điểm mạnh của mỗi model đảm bảo bạn chọn đúng công cụ cho công việc.

Khi nào chọn YOLOv6-3.0: Nếu bạn duy trì một hệ thống công nghiệp cũ được xây dựng rõ ràng xung quanh các pipeline TensorRT 7.x/8.x cụ thể và phần cứng của bạn bao gồm hoàn toàn các GPU NVIDIA T4 hoặc A100 chuyên dụng cho tự động hóa sản xuất tốc độ cao, YOLOv6 vẫn là một engine khả thi và có năng lực.

Khi nào chọn YOLO11: Đối với hầu hết tất cả các ứng dụng hiện đại, YOLO11 là lựa chọn vượt trội. Cho dù bạn đang xây dựng các giải pháp sản xuất thông minh, triển khai Edge AI trên các thiết bị Raspberry Pi, hay thực hiện các tác vụ đa nhiệm như phát hiện và phân đoạn hình ảnh y tế, YOLO11 mang lại sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính linh hoạt khi triển khai.

Link to this sectionHướng tới tương lai: YOLO26 tiên tiến#

Trong khi YOLO11 đại diện cho một bước tiến khổng lồ, Ultralytics không ngừng vượt qua các ranh giới của thị giác máy tính. Được phát hành vào tháng 1 năm 2026, dòng model YOLO26 mới là tiêu chuẩn cao nhất hiện nay và là model được khuyến nghị cho tất cả các dự án mới.

YOLO26 giới thiệu một số tính năng đột phá được thiết kế đặc biệt cho các thách thức triển khai hiện đại:

  • Thiết kế End-to-End không NMS: Xây dựng trên các khái niệm tiên phong bởi YOLOv10, YOLO26 là end-to-end nguyên bản. Nó loại bỏ hoàn toàn hậu xử lý NMS (Non-Maximum Suppression), dẫn đến các pipeline triển khai nhanh hơn và đơn giản hơn đáng kể.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa phần network head, tăng cường đáng kể khả năng tương thích với Internet of Things (IoT) công suất thấp và các thiết bị biên.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện model ngôn ngữ lớn (LLM) (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng bộ tối ưu hóa lai Muon-SGD, đảm bảo độ ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn.
  • Suy luận CPU nhanh hơn tới 43%: Đối với các ứng dụng chạy mà không có bộ tăng tốc GPU chuyên dụng, YOLO26 đã được tối ưu hóa mạnh mẽ cho thông lượng CPU thuần túy.
  • ProgLoss + STAL: Các hàm loss tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, vốn rất quan trọng đối với hình ảnh từ máy bay không người lái và giám sát trên không.
  • Cải tiến cụ thể theo tác vụ: YOLO26 bao gồm các cải tiến tùy chỉnh trên tất cả các tác vụ, chẳng hạn như tạo mẫu đa quy mô cho phân đoạn và Ước tính log-likelihood dư (RLE) cho ước tính tư thế.

Nếu bạn đang bắt đầu một sáng kiến thị giác máy tính mới ngay hôm nay, việc tận dụng Ultralytics Platform để huấn luyện một model YOLO26 sẽ đảm bảo ứng dụng của bạn được xây dựng trên kiến trúc hiệu quả, chính xác và bền vững nhất hiện có.

Đối với các lập trình viên quan tâm đến việc khám phá phát hiện từ vựng mở (open-vocabulary detection), bạn cũng có thể xem xét tài liệu của chúng tôi về YOLO-World.

Người đóng góp

Bình luận