YOLO26 so với YOLOv7: So sánh kỹ thuật toàn diện

Sự phát triển của nhận diện đối tượng thời gian thực đã chứng kiến nhiều cột mốc quan trọng, trong đó Ultralytics YOLO26YOLOv7 đại diện cho hai bước tiến lớn về năng lực thị giác máy tính. Trong khi YOLOv7 giới thiệu phương pháp luận "bag-of-freebies" mạnh mẽ, vốn đã định nghĩa lại các tiêu chuẩn độ chính xác vào năm 2022, thì kiến trúc YOLO26 mới ra mắt lại đi tiên phong trong các tối ưu hóa hướng tới edge (thiết bị biên), xử lý end-to-end nguyên bản và động lực học huấn luyện ổn định lấy cảm hứng từ các cải tiến của Mô hình ngôn ngữ lớn (LLM).

Bài phân tích chuyên sâu này so sánh hai kiến trúc trên, phân tích các chỉ số hiệu suất, sự khác biệt về cấu trúc và các kịch bản triển khai lý tưởng để giúp các kỹ sư machine learning đưa ra quyết định sáng suốt cho dự án AI thị giác tiếp theo của họ.

Bối cảnh và chi tiết mô hình

Trước khi xem xét dữ liệu hiệu suất, điều quan trọng là phải hiểu nguồn gốc và mục tiêu chính của từng mô hình.

Ultralytics YOLO26

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: Kho lưu trữ Ultralytics
Tài liệu: Tài liệu YOLO26

Tìm hiểu thêm về YOLO26

YOLOv7

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: Bài báo YOLOv7
GitHub: Kho lưu trữ YOLOv7

Tìm hiểu thêm về YOLOv7

Các mô hình thay thế cần xem xét

Nếu bạn đang khám phá hệ sinh thái rộng lớn hơn, bạn có thể quan tâm đến YOLO11 cho các triển khai đa nhiệm cân bằng cao, hoặc RT-DETR dựa trên transformer cho nhận diện theo chuỗi. Lưu ý rằng các mô hình cũ hơn như YOLOv8YOLOv5 vẫn được hỗ trợ đầy đủ trên Ultralytics Platform để tích hợp hệ thống cũ.

Đi sâu vào kiến trúc

Các triết lý kiến trúc đằng sau YOLO26 và YOLOv7 khác biệt đáng kể, phản ánh sự chuyển dịch từ việc tối đa hóa hiệu suất GPU cao cấp sang tối ưu hóa cho việc triển khai trên edge liền mạch, end-to-end.

YOLO26: Mô hình ưu tiên Edge (Edge-First)

Ra mắt vào năm 2026, YOLO26 suy nghĩ lại một cách cơ bản về quy trình triển khai. Bước đột phá quan trọng nhất của nó là Thiết kế không NMS (NMS-Free) End-to-End. Bằng cách loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS), YOLO26 giảm đáng kể độ biến thiên của độ trễ, một khái niệm lần đầu tiên được thử nghiệm thành công trong YOLOv10. Điều này đảm bảo tốc độ khung hình ổn định ngay cả trong các khung cảnh đông đúc, vốn rất quan trọng đối với robot tự hành và giám sát giao thông.

Hơn nữa, YOLO26 loại bỏ hoàn toàn Distribution Focal Loss (DFL). Việc loại bỏ DFL này giúp đơn giản hóa quy trình xuất mô hình sang các định dạng như ONNXApple CoreML, giúp tăng tốc độ suy luận trên CPU lên tới 43%.

Sự ổn định trong huấn luyện là một trọng tâm lớn khác. Việc giới thiệu Trình tối ưu hóa MuSGD—một sự kết hợp giữa Stochastic Gradient Descent tiêu chuẩn và Muon (lấy cảm hứng từ động lực huấn luyện của Kimi K2)—đã mang lại sự ổn định khi huấn luyện LLM tiên tiến vào thị giác máy tính. Kết hợp với các hàm mất mát ProgLoss + STAL, YOLO26 vượt trội trong việc nhận diện các đối tượng nhỏ, một thách thức lịch sử đối với các bộ dò thời gian thực.

YOLOv7: Bậc thầy về Bag-of-Freebies

YOLOv7 được xây dựng dựa trên một nghiên cứu toàn diện về tối ưu hóa đường dẫn gradient. Đổi mới cốt lõi của nó là Extended Efficient Layer Aggregation Network (E-ELAN), cho phép mô hình học các tính năng đa dạng hơn mà không làm gián đoạn các đường dẫn gradient ban đầu.

Kiến trúc YOLOv7 cũng dựa nhiều vào các kỹ thuật tái tham số hóa (re-parameterization) trong quá trình suy luận, về cơ bản là hợp nhất các lớp để tăng tốc độ mà không làm mất đi các đại diện đặc trưng phong phú đã học trong quá trình huấn luyện. Mặc dù mạnh mẽ trên các GPU máy chủ NVIDIA TensorRT tiêu chuẩn, phương pháp này vẫn dựa vào các đầu dò dựa trên neo (anchor-based) và NMS truyền thống, điều này có thể gây ra ma sát khi triển khai trên các thiết bị công suất thấp.

So sánh hiệu năng

Bảng dưới đây cung cấp so sánh trực tiếp các mô hình được huấn luyện trên tập dữ liệu COCO tiêu chuẩn. YOLO26 thể hiện những cải tiến đáng kể về độ chính xác (mAP) trong khi vẫn duy trì sự cân bằng đặc biệt giữa các tham số và FLOPs.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Lưu ý: YOLO26x vượt trội hơn YOLOv7x về mAP với biên độ ấn tượng (57.5 so với 53.1) trong khi yêu cầu ít hơn khoảng 22% tham số và ít FLOPs hơn.

Lợi thế của hệ sinh thái Ultralytics

Một lý do chính khiến các nhà phát triển liên tục chọn YOLO26 là sự tích hợp sâu vào Ultralytics Platform. Không giống như các tập lệnh độc lập cần thiết cho các kiến trúc cũ hơn, Ultralytics cung cấp một quy trình làm việc thống nhất và liền mạch.

  1. Dễ sử dụng: Python API cho phép người dùng tải, huấn luyện và triển khai mô hình chỉ trong vài dòng code. Việc xuất sang các định dạng di động như TensorFlow Lite chỉ đơn giản là thay đổi một tham số duy nhất.
  2. Yêu cầu về bộ nhớ: Các mô hình Ultralytics được kỹ sư hóa tỉ mỉ để đạt hiệu quả huấn luyện. Chúng yêu cầu ít bộ nhớ CUDA hơn đáng kể so với các mô hình vision transformer nặng, cho phép các nhà nghiên cứu chạy kích thước batch lớn hơn trên phần cứng tiêu dùng.
  3. Tính linh hoạt: Trong khi YOLOv7 yêu cầu các kho lưu trữ hoàn toàn khác nhau cho các tác vụ khác nhau, YOLO26 hỗ trợ nguyên bản Phân loại hình ảnh, Phân đoạn đối tượng, Ước tính tư thế và nhận diện Hộp bao định hướng (OBB) từ một thư viện thống nhất duy nhất. Nó thậm chí bao gồm các hàm mất mát chuyên biệt cho tác vụ, chẳng hạn như Residual Log-Likelihood Estimation (RLE) cho các quy trình ước tính tư thế con người.
  4. Phát triển tích cực: Cộng đồng mã nguồn mở Ultralytics cung cấp các bản cập nhật thường xuyên, đảm bảo giải quyết nhanh chóng các trường hợp biên và khả năng tương thích liên tục với các bản phát hành PyTorch mới nhất.
Xuất mô hình hợp lý hóa

Vì YOLO26 không cần NMS (NMS-free) một cách nguyên bản, việc triển khai tới các mục tiêu nhúng bằng cách sử dụng Intel OpenVINO hoặc ONNX Runtime sẽ loại bỏ hoàn toàn các tập lệnh xử lý hậu kỳ phức tạp.

Các trường hợp sử dụng trong thực tế

Sự khác biệt về kiến trúc giữa các mô hình này quyết định các kịch bản triển khai lý tưởng của chúng.

Khi nào nên chọn YOLO26

YOLO26 là lựa chọn được khuyến nghị không thể tranh cãi cho các hệ thống thị giác máy tính hiện đại, hướng tới tương lai.

  • Edge AI và IoT: Với tốc độ suy luận CPU nhanh hơn 43% và số lượng tham số nhẹ, YOLO26n hoàn hảo cho các thiết bị bị hạn chế như Raspberry Pi hoặc camera thông minh thành phố.
  • Drone và hình ảnh trên không: Tích hợp ProgLoss + STAL cải thiện đáng kể khả năng nhận diện vật thể nhỏ, biến nó thành lựa chọn hàng đầu cho các hoạt động kiểm tra đường ống và nông nghiệp chính xác.
  • Robot đa nhiệm: Vì dễ dàng xử lý các hộp bao (bounding boxes), mặt nạ phân đoạn (segmentation masks) và các điểm khóa tư thế cùng lúc với mức tiêu thụ bộ nhớ tối thiểu, nó rất phù hợp cho việc điều hướng và tương tác của robot năng động.

Khi nào nên cân nhắc YOLOv7

Mặc dù phần lớn đã được thay thế bởi các kiến trúc mới hơn, YOLOv7 vẫn giữ lại các tiện ích đặc thù.

  • Đối chuẩn học thuật (Academic Benchmarking): Các nhà nghiên cứu phát triển các đầu dò dựa trên neo mới hoặc nghiên cứu các chiến lược đường dẫn gradient thường xuyên sử dụng YOLOv7 làm đối chuẩn cơ bản tiêu chuẩn trên các nền tảng như Papers With Code.
  • Quy trình GPU cũ: Các hệ thống doanh nghiệp được xây dựng tùy chỉnh dựa trên các đầu ra tensor cụ thể của YOLOv7 và các cấu hình NMS tùy chỉnh trên các phiên bản AWS EC2 P4d mạnh mẽ có thể trì hoãn việc chuyển đổi sang các mô hình mới hơn cho đến khi cần tái cấu trúc toàn bộ hệ thống.

Ví dụ mã: Bắt đầu

Trải nghiệm nhà phát triển làm nổi bật sự tương phản rõ rệt giữa các kho lưu trữ nghiên cứu tiêu chuẩn và hệ sinh thái Ultralytics. Việc huấn luyện một mô hình YOLO26 tùy chỉnh rất đơn giản:

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on your custom dataset with automated caching and logging
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Perform an end-to-end NMS-free prediction on an external image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export the optimized model for edge deployment
model.export(format="onnx")

Suy nghĩ cuối cùng

Trong khi YOLOv7 vẫn là một cột mốc được tôn trọng trong lịch sử nhận diện đối tượng thời gian thực, ngành công nghiệp đã mạnh mẽ chuyển sang các mô hình ưu tiên sự đơn giản trong triển khai, tính đa nhiệm linh hoạt và hiệu quả trên edge.

Bằng cách loại bỏ NMS, giới thiệu trình tối ưu hóa MuSGD và cải thiện đáng kể tốc độ suy luận trên CPU, Ultralytics YOLO26 đứng vững như lựa chọn dứt khoát cho các nhà phát triển và kỹ sư doanh nghiệp hiện nay. Kết hợp với hệ sinh thái Ultralytics mạnh mẽ, thân thiện với người dùng, nó mang lại sự cân bằng chưa từng có về tốc độ, độ chính xác và niềm vui kỹ thuật.

Bình luận