Chuyển đến nội dung

YOLOv7 so với YOLO26: Sự phát triển của Phát hiện vật thể thời gian thực

Lĩnh vực thị giác máy tính phát triển nhanh chóng, với mỗi thế hệ mô hình mới đều đẩy xa giới hạn của những gì có thể thực hiện được trong phân tích thời gian thực. Bài so sánh toàn diện này khám phá sự khác biệt giữa YOLOv7 cũ và YOLO26 tiên tiến nhất, phân tích kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng. Trong khi YOLOv7 đại diện cho một cột mốc quan trọng vào năm 2022, YOLO26 giới thiệu những đổi mới đột phá như xử lý end-to-end và các chiến lược tối ưu hóa bắt nguồn từ huấn luyện Mô hình Ngôn ngữ Lớn (LLM).

Tổng quan mô hình

YOLOv7

Ra mắt vào tháng 7 năm 2022, YOLOv7 đã giới thiệu khái niệm về một "túi quà tặng có thể huấn luyện", tối ưu hóa quá trình huấn luyện để cải thiện độ chính xác mà không tăng chi phí suy luận. Nó tập trung mạnh vào các cải cách kiến trúc như Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) và các kỹ thuật mở rộng mô hình.

Tác giả: Chien-Yao Wang, Alexey Bochkovskiy, và Hong-Yuan Mark Liao
Tổ chức:Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7

Ultralytics YOLO26

YOLO26, ra mắt vào đầu năm 2026, đại diện cho một sự thay đổi mô hình trong dòng dõi YOLO. Nó được thiết kế để đạt hiệu quả tối đa trên các thiết bị biên và triển khai tinh gọn. Các đổi mới chính bao gồm một thiết kế end-to-end không NMS nguyên bản, loại bỏ nhu cầu xử lý hậu kỳ phức tạp, và việc loại bỏ Distribution Focal Loss (DFL) để đơn giản hóa khả năng xuất.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
Tài liệu:Ultralytics YOLO26
GitHub:ultralytics/ultralytics

Tìm hiểu thêm về YOLO26

So sánh kỹ thuật

Bảng sau đây làm nổi bật bước nhảy vọt về hiệu suất từ YOLOv7 lên YOLO26. Trong khi YOLOv7 đã đặt ra các tiêu chuẩn vào thời điểm đó, YOLO26 mang lại tốc độ và hiệu quả vượt trội, đặc biệt đối với suy luận dựa trên CPU.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Phân tích hiệu suất

YOLO26l vượt trội về độ chính xác so với YOLOv7x nặng hơn nhiều (55.0 so với 53.1 mAP) trong khi sử dụng ít tham số hơn đáng kể (24.8M so với 71.3M) và FLOPs (86.4B so với 189.9B). Hiệu quả này làm cho YOLO26 trở nên lý tưởng cho các môi trường hạn chế tài nguyên, nơi tối ưu hóa mô hình là rất quan trọng.

Sự khác biệt về kiến trúc

Kiến trúc YOLOv7

Kiến trúc của YOLOv7 dựa trên E-ELAN (Extended Efficient Layer Aggregation Network), cho phép mạng học các đặc trưng đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất. Nó cũng sử dụng mở rộng mô hình cho các mô hình dựa trên nối kết, điều chỉnh đồng thời độ sâu và chiều rộng của mạng. Tuy nhiên, YOLOv7 vẫn dựa vào các đầu detect dựa trên anchor và yêu cầu Non-Maximum Suppression (NMS) trong quá trình hậu xử lý để lọc các hộp giới hạn trùng lặp. Bước NMS này có thể là một nút thắt cổ chai trong triển khai, thường đòi hỏi triển khai tùy chỉnh cho các phần cứng backend khác nhau như TensorRT hoặc CoreML.

Kiến trúc YOLO26

YOLO26 giới thiệu một số thay đổi triệt để được thiết kế để đơn giản hóa trải nghiệm người dùng và nâng cao hiệu suất:

  • End-to-End NMS-Free: Bằng cách áp dụng kiến trúc end-to-end nguyên bản (tiên phong trong YOLOv10), YOLO26 loại bỏ nhu cầu về NMS. Mô hình xuất ra các kết quả detect cuối cùng trực tiếp, giảm độ trễ và đơn giản hóa đáng kể các quy trình triển khai.
  • Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp tối ưu hóa đầu ra, làm cho mô hình tương thích hơn với các thiết bị biên và các định dạng độ chính xác thấp hơn như INT8.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong việc huấn luyện các Mô hình Ngôn ngữ Lớn (LLMs) như Kimi K2 của Moonshot AI, YOLO26 sử dụng bộ tối ưu hóa MuSGD lai. Điều này kết hợp động lượng của SGD với các thuộc tính thích ứng của bộ tối ưu hóa Muon, mang lại quá trình huấn luyện ổn định hơn và hội tụ nhanh hơn.
  • Tối ưu hóa vật thể nhỏ: Việc tích hợp Cân bằng mất mát lũy tiến (ProgLoss)Gán nhãn nhận biết mục tiêu nhỏ (STAL) trực tiếp giải quyết các thách thức phổ biến trong việc detect vật thể nhỏ, làm cho YOLO26 đặc biệt hiệu quả cho ảnh chụp từ trên không và các ứng dụng IoT.

Huấn luyện và Khả năng sử dụng

Dễ sử dụng

Một trong những đặc điểm nổi bật của Hệ sinh thái Ultralytics là khả năng tiếp cận. Trong khi YOLOv7 yêu cầu nhân bản một kho lưu trữ cụ thể và quản lý các tệp cấu hình phức tạp, YOLO26 được tích hợp trực tiếp vào ultralytics gói python. Điều này cung cấp một API thống nhất cho việc huấn luyện, xác thực và triển khai.

from ultralytics import YOLO

# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single line of code
results = model.train(data="coco8.yaml", epochs=100)

Tính linh hoạt

YOLOv7 chủ yếu tập trung vào phát hiện đối tượng và ước tính tư thế. Ngược lại, YOLO26 cung cấp một khung làm việc thống nhất hỗ trợ một loạt các tác vụ thị giác máy tính rộng hơn, bao gồm:

  • Phân đoạn thực thể: Với các hàm mất mát chuyên biệt để che phủ chính xác.
  • Ước tính tư thế: Sử dụng Ước tính Log-Likelihood phần dư (RLE) cho các điểm khóa chính xác.
  • Hộp giới hạn định hướng (OBB): Với hàm mất mát góc chuyên biệt cho các đối tượng xoay.
  • Phân loại: Để phân loại hình ảnh hiệu quả.

Hiệu quả huấn luyện

Quá trình huấn luyện của YOLO26 được tối ưu hóa cao. Bộ tối ưu hóa MuSGD cho phép hội tụ nhanh hơn, nghĩa là người dùng thường có thể đạt được kết quả tốt hơn trong ít epoch hơn so với các bộ tối ưu hóa cũ. Hơn nữa, dấu chân bộ nhớ thấp hơn của các mô hình YOLO26 cho phép kích thước batch lớn hơn trên cùng một phần cứng, tiếp tục tăng tốc chu kỳ huấn luyện. Đây là một lợi thế đáng kể so với các mô hình dựa trên transformer, vốn thường yêu cầu bộ nhớ CUDA đáng kể.

Các ứng dụng thực tế

Điểm mạnh của YOLOv7

YOLOv7 vẫn là một mô hình có khả năng dành cho các nhà nghiên cứu quan tâm đến các thuộc tính kiến trúc cụ thể của mạng ELAN hoặc những người đang duy trì các hệ thống kế thừa được xây dựng dựa trên kiến trúc kiểu Darknet. Nó đóng vai trò là một tiêu chuẩn tuyệt vời để so sánh trong học thuật.

Điểm mạnh của YOLO26

YOLO26 là lựa chọn được khuyến nghị cho hầu hết các ứng dụng hiện đại nhờ vào cân bằng hiệu suất và dễ dàng triển khai:

  • Điện toán biên: Với khả năng suy luận CPU nhanh hơn tới 43%, YOLO26 hoàn hảo để chạy trên Raspberry Pi, thiết bị di động hoặc máy chủ cục bộ mà không cần GPU chuyên dụng.
  • Robot học & Hệ thống tự hành: Thiết kế end-to-end giảm sự biến động độ trễ, điều này rất quan trọng cho việc ra quyết định thời gian thực trong robot học. Khả năng phát hiện vật thể nhỏ được cải thiện (thông qua STAL) hỗ trợ điều hướng và tránh chướng ngại vật.
  • Triển khai thương mại: Việc loại bỏ NMS và DFL đơn giản hóa quá trình xuất sang các định dạng như ONNX, TensorRT và CoreML, đảm bảo hành vi nhất quán trên các môi trường triển khai khác nhau.
  • Giám sát nông nghiệp: Độ chính xác cao trong phát hiện vật thể nhỏ làm cho YOLO26 trở nên xuất sắc cho các tác vụ như xác định sâu bệnh hoặc đếm cây trồng từ ảnh chụp từ drone.

Di chuyển từ YOLOv7

Người dùng di chuyển từ YOLOv7 sang YOLO26 sẽ thấy quá trình chuyển đổi liền mạch nhờ vào API của Ultralytics. Những cải tiến đáng kể về tốc độ và dễ dàng xuất thường biện minh cho việc nâng cấp đối với các hệ thống sản xuất. Đối với những người tìm kiếm các lựa chọn thay thế hiện đại khác, YOLO11 là một lựa chọn mạnh mẽ khác được hỗ trợ đầy đủ bởi hệ sinh thái Ultralytics.

Kết luận

Trong khi YOLOv7 là một đóng góp đáng kể cho cộng đồng mã nguồn mở, YOLO26 đại diện cho tương lai của thị giác máy tính hiệu quả. Bằng cách giải quyết các nút thắt quan trọng như NMS và tận dụng các kỹ thuật tối ưu hóa hiện đại từ thế giới LLM, YOLO26 cung cấp một mô hình không chỉ nhanh hơn, nhẹ hơn mà còn dễ huấn luyện và triển khai hơn đáng kể.

Đối với các nhà phát triển đang tìm kiếm một giải pháp đáng tin cậy, được bảo trì tốt và linh hoạt, YOLO26 là lựa chọn vượt trội. Việc tích hợp vào hệ sinh thái Ultralytics đảm bảo quyền truy cập vào các bản cập nhật liên tục, tài liệu phong phú và một cộng đồng hỗ trợ phát triển mạnh.

Tìm hiểu thêm về YOLO26


Bình luận