Link to this sectionYOLO11 so với YOLOv7#
Bối cảnh của computer vision tiếp tục phát triển với tốc độ nhanh chóng, trong đó nhận diện đối tượng thời gian thực vẫn là ưu tiên hàng đầu của các ứng dụng AI. Việc chọn kiến trúc phù hợp cho dự án của bạn đòi hỏi phải điều hướng sự cân bằng phức tạp giữa tốc độ, độ chính xác và khả năng triển khai dễ dàng. Trong hướng dẫn này, chúng tôi cung cấp sự so sánh kỹ thuật toàn diện giữa hai kiến trúc nổi bật: Ultralytics YOLO11 và YOLOv7.
Link to this sectionBối cảnh mô hình và thông tin kỹ thuật#
Cả hai mô hình đều có tác động đáng kể đến cộng đồng deep learning, nhưng chúng xuất phát từ các triết lý và kỷ nguyên phát triển khác nhau.
Thông tin chi tiết về YOLO11:
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Thông tin chi tiết về YOLOv7:
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Institute of Information Science, Academia Sinica, Taiwan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: https://docs.ultralytics.com/models/yolov7/
Link to this sectionSự khác biệt về kiến trúc#
Khi phân tích các cơ chế bên trong, cả hai trình phát hiện đều sử dụng các khái niệm hiện đại nhất, tuy nhiên nền tảng cấu trúc của chúng lại khác nhau.
YOLOv7 đã giới thiệu khái niệm mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này được thiết kế để liên tục nâng cao khả năng học tập của mạng mà không phá hủy đường dẫn gradient gốc, một bước đột phá quan trọng được báo cáo trong bài báo nghiên cứu của họ. YOLOv7 phụ thuộc nhiều vào việc tái tham số hóa cấu trúc và phương pháp luận "bag-of-freebies" mạnh mẽ trong quá trình huấn luyện, giúp cải thiện độ chính xác tổng thể trên tập dữ liệu COCO mà không làm tăng chi phí suy luận.
Ngược lại, YOLO11 được xây dựng dựa trên kiến trúc Ultralytics đã được tối ưu hóa cao. Nó nhấn mạnh vào quy trình trích xuất đặc trưng tinh gọn hơn với ít tham số hơn, dẫn đến mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện. YOLO11 đạt được sự cân bằng hiệu suất rất khả quan, sử dụng ít tài nguyên tính toán (FLOPs) hơn trong khi vẫn khớp hoặc vượt qua độ chính xác phát hiện của các mô hình nặng hơn. Hơn nữa, YOLO11 hỗ trợ vốn có nhiều tác vụ đa dạng hơn, khiến nó trở thành một lựa chọn linh hoạt cao cho các ứng dụng thị giác máy tính hiện đại.
Một trong những tính năng nổi bật của các mô hình Ultralytics YOLO là yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình hiện đại khác, cho phép các nhà phát triển huấn luyện các mạng mạnh mẽ trên phần cứng PyTorch cấp người tiêu dùng.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Để đánh giá chính xác khả năng ứng dụng thực tế, việc đánh giá các số liệu như mean Average Precision (mAP), tốc độ suy luận, tham số mô hình và độ phức tạp tính toán (FLOPs) là rất cần thiết. Bảng sau đây cho thấy cách các biến thể quy mô YOLO11 so sánh với các mô hình YOLOv7 lớn hơn.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Như đã thấy, một mô hình như YOLO11x đạt được 54.7 mAP cao hơn so với 53.1 mAP của YOLOv7x, trong khi sử dụng ít tham số hơn đáng kể (56.9M so với 71.3M). Điều này làm nổi bật hiệu quả kiến trúc vượt trội của YOLO11.
Link to this sectionHiệu quả huấn luyện và khả năng sử dụng hệ sinh thái#
Một trong những đặc điểm xác định nhất tách biệt hai kiến trúc này là trải nghiệm nhà phát triển và hệ sinh thái xung quanh.
YOLOv7 về cơ bản là một kho lưu trữ nghiên cứu học thuật. Các mô hình huấn luyện thường yêu cầu thiết lập môi trường phức tạp, quản lý thủ công các phần phụ thuộc và sử dụng các đối số dòng lệnh dài. Mặc dù nó hỗ trợ thử nghiệm tiên tiến, việc điều chỉnh mã của kho lưu trữ GitHub YOLOv7 cho các môi trường sản xuất tùy chỉnh có thể mất nhiều thời gian.
YOLO11 định nghĩa lại hoàn toàn sự dễ sử dụng. Nó được tích hợp hoàn toàn vào Ultralytics Platform, một hệ sinh thái toàn diện và được duy trì tốt, cung cấp các quy trình làm việc liền mạch từ đầu đến cuối. Từ việc gắn nhãn dữ liệu và huấn luyện cục bộ đến triển khai, Python API thống nhất và giao diện dòng lệnh đơn giản giúp hợp lý hóa toàn bộ quy trình.
Link to this sectionSo sánh mã nguồn#
Huấn luyện một mô hình nhận diện đối tượng với YOLO11 chỉ yêu cầu một vài dòng mã, làm giảm đáng kể rào cản gia nhập:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Quickly export to ONNX format
model.export(format="onnx")Ngược lại, một lệnh huấn luyện YOLOv7 điển hình trông như thế này, yêu cầu thiết lập cẩn thận các đường dẫn, tệp cấu hình và tập lệnh bash:
python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'YOLO11 cũng cung cấp sự linh hoạt to lớn. Trong khi YOLOv7 yêu cầu các cơ sở mã hoàn toàn khác nhau hoặc các sửa đổi nặng nề để hỗ trợ các tác vụ ngoài phát hiện (như pose hoặc segmentation), YOLO11 xử lý nhận diện đối tượng, phân đoạn cá thể, phân loại hình ảnh, ước tính tư thế và phát hiện Oriented Bounding Box (OBB) thông qua một khung làm việc thống nhất và gắn kết.
Link to this sectionCác ứng dụng thực tế và trường hợp sử dụng lý tưởng#
Việc lựa chọn giữa YOLOv7 và YOLO11 hoàn toàn phụ thuộc vào phạm vi dự án và các ràng buộc triển khai.
Khi nào cân nhắc YOLOv7:
- Đánh giá các mô hình cũ: Các nhà nghiên cứu học thuật khám phá các thiết kế đường dẫn gradient có thể sử dụng YOLOv7 làm đường cơ sở để đánh giá các mạng thần kinh tích chập mới hơn.
- Các quy trình tùy chỉnh hiện có: Các nhóm có các quy trình C++ hoặc CUDA được tùy chỉnh mạnh mẽ, được xây dựng đặc biệt xung quanh logic giải mã bounding box độc đáo của YOLOv7.
Khi nào nên chọn YOLO11:
- Sản xuất thương mại: Các ứng dụng trong bán lẻ thông minh hoặc chẩn đoán chăm sóc sức khỏe được hưởng lợi rất nhiều từ cơ sở mã được duy trì và độ ổn định cao của YOLO11.
- Môi trường hạn chế tài nguyên: Dấu chân nhẹ của YOLO11n làm cho nó cực kỳ phù hợp để triển khai trên các thiết bị di động và biên thông qua ONNX.
- Dự án đa tác vụ: Nếu một ứng dụng cần xác định một người, lập bản đồ khung xương của họ (pose) và phân đoạn một đối tượng họ đang cầm, YOLO11 cung cấp một giải pháp thống nhất.
Link to this sectionĐỉnh cao công nghệ: Tiến về phía trước với YOLO26#
Mặc dù YOLO11 là một lựa chọn cực kỳ mạnh mẽ, nhưng sự đổi mới trong trí tuệ nhân tạo không bao giờ dừng lại. Đối với các kỹ sư bắt đầu dự án mới hôm nay, việc khám phá Ultralytics YOLO26 được khuyến khích mạnh mẽ.
Được phát hành vào tháng 1 năm 2026, YOLO26 giới thiệu thiết kế NMS-Free từ đầu đến cuối, loại bỏ hoàn toàn các nút thắt độ trễ liên quan đến quá trình xử lý hậu kỳ Non-Maximum Suppression. Hơn nữa, YOLO26 kết hợp MuSGD Optimizer mang tính cách mạng, lấy cảm hứng từ các phương pháp huấn luyện LLM, để đảm bảo hội tụ nhanh hơn. Với những cải tiến về mất mát mục tiêu thông qua ProgLoss + STAL và suy luận CPU nhanh hơn tới 43% nhờ loại bỏ DFL, YOLO26 được tối ưu hóa đặc biệt cho tính toán biên và đại diện cho đỉnh cao hiện tại của thị giác AI.
Đối với người dùng quan tâm đến các cấu trúc thay thế chuyên biệt, việc khám phá RT-DETR dựa trên Transformer hoặc các mô hình YOLO-World từ vựng mở động cũng có thể mang lại kết quả hữu ích cho các triển khai thị giác máy tính đa dạng.