Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 so với YOLO11#

Bối cảnh thị giác máy tính đã phát triển nhanh chóng trong vài năm qua. Đối với các lập trình viên và nhà nghiên cứu khi chọn khung phát hiện đối tượng phù hợp, việc hiểu rõ sự khác biệt về kiến trúc và thực tiễn giữa các mô hình định hình thế hệ là rất quan trọng. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa bước đột phá về học thuật YOLOv7Ultralytics YOLO11 đã được tinh chỉnh cao và sẵn sàng cho sản xuất.

Link to this sectionNguồn gốc mô hình và Triết lý kiến trúc#

YOLOv7, được phát hành vào ngày 6 tháng 7 năm 2022 bởi các tác giả Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin tại Academia Sinica, đã giới thiệu một số khái niệm mới cho lĩnh vực này. Được mô tả chi tiết trong bài báo nghiên cứu YOLOv7 xuất bản trên arXiv, mô hình tập trung nhiều vào phương pháp "trainable bag-of-freebies" và Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Những lựa chọn kiến trúc này được thiết kế đặc biệt để tối đa hóa hiệu quả đường dẫn gradient, khiến nó trở thành một công cụ mạnh mẽ cho các bài kiểm chuẩn học thuật trên các GPU cao cấp.

Tìm hiểu thêm về YOLOv7

YOLO11, được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics, đã được phát hành vào ngày 27 tháng 9 năm 2024. YOLO11 chuyển dịch trọng tâm từ sự phức tạp thuần túy về kiến trúc sang một hệ sinh thái toàn diện, ưu tiên lập trình viên. Được lưu trữ trên kho lưu trữ GitHub của Ultralytics, YOLO11 có thiết kế không neo (anchor-free) tối ưu giúp giảm đáng kể mức tiêu thụ bộ nhớ trong cả quá trình huấn luyện và suy luận. Nó được tích hợp nguyên bản vào Ultralytics Platform, mang lại sự dễ sử dụng vô song từ việc chú thích tập dữ liệu đến triển khai tại biên.

Tìm hiểu thêm về YOLO11

Lợi thế về hệ sinh thái

Trong khi các kho lưu trữ độc lập thường trở nên ngừng hoạt động sau khi một bài báo học thuật được xuất bản, các mô hình Ultralytics được hưởng lợi từ các bản cập nhật liên tục, đảm bảo khả năng tương thích lâu dài với các ngăn xếp máy học hiện đại như các bản phát hành PyTorch mới nhất và các bộ tăng tốc phần cứng chuyên dụng.

Link to this sectionCác chỉ số hiệu suất và Hiệu quả#

Khi triển khai các mô hình vào các ứng dụng thực tế, độ chính xác thô phải được cân bằng với tốc độ suy luận và chi phí tính toán. Dưới đây là so sánh trực tiếp các biến thể YOLOv7 và YOLO11 được đánh giá trên các bài kiểm chuẩn tập dữ liệu COCO tiêu chuẩn.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Lưu ý: Tốc độ CPU bị thiếu đối với YOLOv7 cho thấy các môi trường thử nghiệm cũ không chuẩn hóa các bài kiểm chuẩn ONNX CPU. Các giá trị tốt nhất trong các cấp tương đương được đánh dấu.

Link to this sectionPhân tích kết quả#

Dữ liệu minh họa một sự tiến hóa rõ ràng về hiệu quả. Mô hình YOLO11l (Large) đạt mAPval vượt trội là 53,4% so với 51,4% của YOLOv7l, đồng thời sử dụng ít tham số hơn đáng kể (25,3M so với 36,9M) và ít FLOP hơn đáng kể (86,9B so với 104,7B). Việc giảm độ phức tạp tính toán này cho phép YOLO11 chạy nhanh hơn trên các triển khai NVIDIA TensorRT và yêu cầu ít VRAM hơn, giúp nó phù hợp hơn nhiều cho các môi trường bị hạn chế về phần cứng.

Link to this sectionKhả năng sử dụng và Quy trình huấn luyện#

Một điểm khác biệt lớn giữa hai khung này là trải nghiệm lập trình viên.

Link to this sectionHuấn luyện YOLOv7#

Việc sử dụng cơ sở mã nguồn mở YOLOv7 gốc thường yêu cầu sao chép kho lưu trữ, giải quyết các phụ thuộc theo cách thủ công và dựa vào các đối số dòng lệnh dài dòng. Việc quản lý các tác vụ khác nhau hoặc xuất sang các định dạng di động thường xuyên liên quan đến việc sửa đổi các tập lệnh nguồn hoặc dựa vào các bản fork của bên thứ ba.

Link to this sectionHuấn luyện YOLO11#

YOLO11 được tích hợp sâu vào gói ultralytics Python, giúp đơn giản hóa vòng đời máy học. Việc huấn luyện một mô hình phát hiện đối tượng chỉ mất vài dòng mã, và khung này xử lý nguyên bản việc tải xuống dữ liệu, tinh chỉnh siêu tham số và lưu vào bộ nhớ đệm.

from ultralytics import YOLO

# Load a pretrained YOLO11 Nano model for maximum speed
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX format for deployment
export_path = model.export(format="onnx")

Hơn nữa, YOLO11 sở hữu tính linh hoạt cực cao. Chỉ bằng cách thay đổi hậu tố mô hình, các lập trình viên có thể chuyển đổi ngay lập tức từ phát hiện sang ánh xạ phân đoạn thực thể, theo dõi ước tính tư thế hoặc nhận dạng hộp bao quanh có định hướng (OBB)—một mức độ hỗ trợ đa nhiệm nguyên bản mà YOLOv7 còn thiếu.

Xuất tệp đơn giản hóa

Việc xuất YOLO11 sang các định dạng biên như Apple CoreML hoặc các khung Intel OpenVINO chỉ yêu cầu một lệnh .export() duy nhất, tránh việc phẫu thuật biểu đồ phức tạp thường thấy ở các mô hình thế hệ cũ.

Link to this sectionCác kịch bản triển khai lý tưởng#

Hiểu được thế mạnh của từng mô hình giúp xác định các trường hợp sử dụng tốt nhất của chúng.

Link to this sectionHướng tới tương lai: Sự chuyển dịch mô hình của YOLO26#

Trong khi YOLO11 đại diện cho một giải pháp hiện đại đã được tinh chỉnh cao, lĩnh vực máy học vẫn không ngừng tiến bộ. Đối với những người dùng bắt đầu các dự án thị giác hoàn toàn mới ngay hôm nay, việc khám phá Ultralytics YOLO26 mới được phát hành là điều rất được khuyến khích.

Được phát hành vào tháng 1 năm 2026, YOLO26 giới thiệu một số tính năng đột phá vượt xa cả YOLOv7 và YOLO11:

  • Kiến trúc nguyên bản không NMS: YOLO26 loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression. Thiết kế end-to-end này giúp đơn giản hóa các quy trình triển khai và giảm đáng kể sự thay đổi về độ trễ.
  • Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ chiến lược mô-đun Distribution Focal Loss (DFL), YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên và môi trường không có GPU chuyên dụng.
  • Tích hợp trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến từ Moonshot AI, trình tối ưu hóa lai này đảm bảo sự ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn.
  • Phát hiện đối tượng nhỏ vượt trội: Việc giới thiệu các hàm mất mát ProgLoss và STAL cung cấp các cải tiến độ chính xác quan trọng để xác định các chi tiết nhỏ, hoàn hảo để phân tích hình ảnh máy bay không người lái và dữ liệu cảm biến IoT phức tạp.

Tìm hiểu thêm về YOLO26

Đối với người dùng quan tâm đến các kiến trúc dựa trên transformer hoặc các mô hình thay thế, tài liệu Ultralytics cũng bao gồm các mô hình như máy dò transformer RT-DETRmô hình từ vựng mở YOLO-World.

Những người đóng góp

Bình luận