YOLOv7 so với YOLO11: So sánh kỹ thuật toàn diện

Bối cảnh thị giác máy tính đã phát triển nhanh chóng trong vài năm qua. Đối với các lập trình viên và nhà nghiên cứu đang lựa chọn khung phát hiện đối tượng phù hợp, việc hiểu rõ sự khác biệt về kiến trúc và thực tiễn giữa các mô hình định hình thế hệ là rất quan trọng. Hướng dẫn này cung cấp sự so sánh kỹ thuật chi tiết giữa đột phá học thuật YOLOv7Ultralytics YOLO11 được tinh chỉnh cao, sẵn sàng cho môi trường sản xuất.

Nguồn gốc mô hình và triết lý kiến trúc

YOLOv7, ra mắt ngày 6 tháng 7 năm 2022 bởi các tác giả Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao từ Viện Thông tin thuộc Academia Sinica, đã giới thiệu nhiều khái niệm mới cho lĩnh vực này. Được mô tả chi tiết trong bài báo nghiên cứu YOLOv7 xuất bản trên arXiv, mô hình tập trung mạnh mẽ vào phương pháp "trainable bag-of-freebies" và mạng E-ELAN (Extended Efficient Layer Aggregation Networks). Những lựa chọn kiến trúc này được thiết kế đặc biệt để tối đa hóa hiệu suất đường dẫn gradient, biến nó thành công cụ mạnh mẽ cho các bài kiểm chuẩn học thuật trên các GPU cao cấp.

Tìm hiểu thêm về YOLOv7

YOLO11, được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics, ra mắt ngày 27 tháng 9 năm 2024. YOLO11 chuyển dịch trọng tâm từ sự phức tạp kiến trúc thuần túy sang một hệ sinh thái toàn diện, ưu tiên nhà phát triển. Được lưu trữ trên kho lưu trữ GitHub của Ultralytics, YOLO11 có thiết kế không neo (anchor-free) tối ưu, giúp giảm đáng kể mức tiêu thụ bộ nhớ trong cả quá trình huấn luyện và suy luận. Nó được tích hợp nguyên bản vào Ultralytics Platform, mang lại khả năng sử dụng vượt trội từ việc chú thích tập dữ liệu đến triển khai ở biên.

Tìm hiểu thêm về YOLO11

Ưu thế hệ sinh thái

Trong khi các kho lưu trữ độc lập thường trở nên không hoạt động sau khi bài báo học thuật được công bố, các mô hình của Ultralytics được hưởng lợi từ các bản cập nhật liên tục, đảm bảo khả năng tương thích dài hạn với các ngăn xếp học máy hiện đại như các bản phát hành PyTorch mới nhất và các bộ tăng tốc phần cứng chuyên dụng.

Các chỉ số hiệu suất và tính hiệu quả

Khi triển khai các mô hình vào các ứng dụng thực tế, độ chính xác thô phải được cân bằng với tốc độ suy luận và chi phí tính toán. Dưới đây là so sánh trực tiếp các biến thể YOLOv7 và YOLO11 được đánh giá trên các chuẩn tập dữ liệu COCO tiêu chuẩn.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Lưu ý: Việc thiếu tốc độ CPU cho YOLOv7 phản ánh các môi trường thử nghiệm cũ không chuẩn hóa các bài kiểm chuẩn CPU ONNX. Các giá trị tốt nhất trong các tầng có thể so sánh được in đậm.

Phân tích kết quả

Dữ liệu minh họa một sự tiến hóa rõ ràng về tính hiệu quả. Mô hình YOLO11l (Large) đạt mAPval vượt trội 53.4% so với 51.4% của YOLOv7l, trong khi sử dụng ít tham số hơn đáng kể (25.3M so với 36.9M) và ít FLOPs hơn rất nhiều (86.9B so với 104.7B). Sự giảm thiểu độ phức tạp tính toán này cho phép YOLO11 chạy nhanh hơn trên các triển khai NVIDIA TensorRT và yêu cầu ít VRAM hơn, khiến nó phù hợp hơn nhiều cho các môi trường bị hạn chế về phần cứng.

Khả năng sử dụng và luồng công việc huấn luyện

Một điểm khác biệt lớn giữa hai khung này là trải nghiệm nhà phát triển.

Huấn luyện YOLOv7

Sử dụng mã nguồn mở YOLOv7 gốc thường yêu cầu sao chép (clone) kho lưu trữ, giải quyết các phụ thuộc theo cách thủ công và dựa vào các đối số dòng lệnh dài dòng. Việc quản lý các tác vụ khác nhau hoặc xuất sang định dạng di động thường đòi hỏi phải sửa đổi các script nguồn hoặc dựa vào các bản fork của bên thứ ba.

Huấn luyện YOLO11

YOLO11 được tích hợp sâu vào gói Python ultralytics, đơn giản hóa vòng đời học máy. Việc huấn luyện một mô hình phát hiện đối tượng chỉ mất vài dòng code, và khung này xử lý nguyên bản việc tải xuống dữ liệu, tinh chỉnh siêu tham số và lưu bộ đệm.

from ultralytics import YOLO

# Load a pretrained YOLO11 Nano model for maximum speed
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX format for deployment
export_path = model.export(format="onnx")

Hơn nữa, YOLO11 sở hữu tính linh hoạt cực cao. Bằng cách thay đổi hậu tố mô hình, các lập trình viên có thể chuyển đổi ngay lập tức từ phát hiện sang phân đoạn đối tượng, theo dõi ước tính tư thế hoặc nhận diện hộp bao hướng (OBB)—một mức độ hỗ trợ đa tác vụ nguyên bản mà YOLOv7 thiếu.

Xuất mô hình đơn giản

Xuất YOLO11 sang các định dạng biên như Apple CoreML hoặc các khung Intel OpenVINO chỉ yêu cầu một lệnh .export() duy nhất, tránh các thao tác sửa đồ thị phức tạp thường thấy ở các mô hình thế hệ cũ.

Các kịch bản triển khai lý tưởng

Hiểu được thế mạnh của từng mô hình giúp xác định trường hợp sử dụng tốt nhất của chúng.

Hướng tới tương lai: Sự chuyển dịch mô hình của YOLO26

Trong khi YOLO11 đại diện cho một giải pháp tiên tiến được tinh chỉnh cao, lĩnh vực học máy vẫn đang tiến lên không ngừng. Đối với những người dùng bắt đầu các dự án thị giác máy tính hoàn toàn mới ngay hôm nay, việc khám phá Ultralytics YOLO26 mới được phát hành là điều rất được khuyến khích.

Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một số tính năng đột phá vượt qua cả YOLOv7 và YOLO11:

  • Kiến trúc không dùng NMS nguyên bản: YOLO26 loại bỏ nhu cầu xử lý hậu kỳ bằng NMS. Thiết kế end-to-end này đơn giản hóa các quy trình triển khai và giảm đáng kể sự thay đổi về độ trễ.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ chiến lược mô-đun DFL (Distribution Focal Loss), YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị biên và môi trường không có GPU chuyên dụng.
  • Tích hợp trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến từ Moonshot AI, trình tối ưu hóa lai này đảm bảo sự ổn định huấn luyện chưa từng có và tốc độ hội tụ nhanh hơn.
  • Phát hiện đối tượng nhỏ vượt trội: Việc giới thiệu các hàm mất mát ProgLoss và STAL cung cấp sự gia tăng độ chính xác quan trọng để xác định các chi tiết nhỏ, hoàn hảo cho việc phân tích hình ảnh từ máy bay không người lái và dữ liệu cảm biến IoT phức tạp.

Tìm hiểu thêm về YOLO26

Đối với những người dùng quan tâm đến các kiến trúc dựa trên Transformer hoặc các mô hình khác, tài liệu của Ultralytics cũng bao gồm các mô hình như máy phát hiện RT-DETR Transformermô hình từ vựng mở YOLO-World.

Bình luận