YOLO11 so với YOLOv7 So sánh kỹ thuật chi tiết
Lĩnh vực thị giác máy tính tiếp tục phát triển với tốc độ nhanh chóng, trong đó phát hiện đối tượng thời gian thực vẫn luôn dẫn đầu các ứng dụng trí tuệ nhân tạo. Việc lựa chọn kiến trúc phù hợp cho dự án của bạn đòi hỏi phải cân nhắc kỹ lưỡng giữa tốc độ, độ chính xác và tính dễ triển khai. Trong hướng dẫn này, chúng tôi cung cấp so sánh kỹ thuật toàn diện giữa hai kiến trúc nổi bật: Ultralytics YOLO11 và YOLOv7 .
Thông tin cơ bản và chi tiết kỹ thuật của mô hình
Cả hai mô hình đều có tác động đáng kể đến cộng đồng học sâu, nhưng chúng xuất phát từ những triết lý phát triển và thời kỳ khác nhau.
Thông tin chi tiết về YOLO11 :
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 27/09/2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu yolo11 ultralytics
Thông tin chi tiết về YOLOv7 :
Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Tài liệu: ultralytics
Sự khác biệt về kiến trúc
Khi phân tích các cơ chế bên trong, cả hai loại máy dò đều sử dụng các khái niệm tiên tiến nhất, nhưng nền tảng cấu trúc của chúng lại khác nhau.
YOLOv7 Họ đã giới thiệu khái niệm Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này được thiết kế để liên tục nâng cao khả năng học tập của mạng mà không phá hủy đường dẫn gradient ban đầu, một bước đột phá quan trọng được báo cáo trong bài nghiên cứu của họ. YOLOv7 Mô hình này dựa nhiều vào việc tái tham số hóa cấu trúc và phương pháp "túi quà tặng miễn phí" mạnh mẽ trong quá trình huấn luyện, giúp cải thiện độ chính xác tổng thể trên tập dữ liệu COCO mà không làm tăng chi phí suy luận.
Ngược lại, YOLO11 Nó được xây dựng dựa trên kiến trúc Ultralytics đã được tối ưu hóa cao. Nó nhấn mạnh vào quy trình trích xuất đặc trưng tinh vi hơn với ít tham số hơn, dẫn đến mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện. YOLO11 Đạt được sự cân bằng hiệu năng rất thuận lợi, sử dụng ít tài nguyên tính toán hơn (FLOPs) trong khi vẫn đạt được hoặc vượt qua độ chính xác phát hiện của các mô hình phức tạp hơn. Hơn nữa, YOLO11 Vốn dĩ nó hỗ trợ nhiều loại tác vụ hơn, khiến nó trở thành lựa chọn rất linh hoạt cho các ứng dụng thị giác máy tính hiện đại.
Hiệu quả bộ nhớ
Một trong những tính năng nổi bật của Ultralytics YOLO Ưu điểm của các mô hình này là yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các mô hình tiên tiến khác, cho phép các nhà phát triển huấn luyện các mạng mạnh mẽ trên phần cứng PyTorch cấp độ người tiêu dùng.
So sánh hiệu năng và số liệu
Để đánh giá chính xác tính khả thi trong thực tế, cần đánh giá các chỉ số như độ chính xác trung bình (Average Precision) ( mAP Tốc độ suy luận, tham số mô hình và độ phức tạp tính toán (FLOPs) là rất quan trọng. Bảng sau đây minh họa cách thức... YOLO11 các biến thể tỷ lệ so sánh với kích thước lớn hơn YOLOv7 mô hình.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Như đã quan sát, mô hình YOLO11x đạt được mAP cao hơn (54,7) so với YOLOv7x mAP 53,1) , trong khi sử dụng ít tham số hơn đáng kể (56,9 triệu so với 71,3 triệu). Điều này làm nổi bật... YOLO11 Hiệu quả kiến trúc vượt trội của nó.
Hiệu quả đào tạo và khả năng sử dụng hệ sinh thái
Một trong những đặc điểm nổi bật nhất phân biệt hai kiến trúc này là trải nghiệm của nhà phát triển và hệ sinh thái xung quanh.
Về cơ bản, YOLOv7 là một kho lưu trữ nghiên cứu học thuật. Việc huấn luyện mô hình thường yêu cầu thiết lập môi trường phức tạp, quản lý thủ công các phụ thuộc và sử dụng các đối số dòng lệnh dài. Mặc dù nó hỗ trợ các thử nghiệm tiên tiến, việc điều chỉnh mã nguồn của kho lưu trữ GitHub YOLOv7 cho các môi trường sản xuất tùy chỉnh có thể tốn nhiều thời gian.
YOLO11 hoàn toàn định nghĩa lại khái niệm dễ sử dụng. Nó được tích hợp đầy đủ vào Nền tảng Ultralytics , một hệ sinh thái toàn diện và được bảo trì tốt, cung cấp quy trình làm việc liền mạch từ đầu đến cuối. Từ chú thích dữ liệu và đào tạo cục bộ đến triển khai, hệ thống thống nhất này hoạt động hiệu quả. Python Giao diện lập trình ứng dụng (API) và giao diện dòng lệnh đơn giản giúp đơn giản hóa toàn bộ quy trình.
So sánh mã
Huấn luyện mô hình phát hiện đối tượng với YOLO11 Chỉ cần một vài dòng mã, giúp giảm đáng kể rào cản gia nhập:
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly using the unified API
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Quickly export to ONNX format
model.export(format="onnx")
Ngược lại, một điển hình YOLOv7 Lệnh huấn luyện trông như thế này, đòi hỏi phải thiết lập cẩn thận các đường dẫn, tệp cấu hình và bash kịch bản:
python train.py --workers 8 --device 0 --batch-size 32 --data data/coco.yaml --img 640 640 --cfg cfg/training/yolov7.yaml --weights 'yolov7_training.pt'
YOLO11 đồng thời cũng mang lại tính linh hoạt vô cùng lớn. Trong khi đó YOLOv7 Điều này đòi hỏi các cơ sở mã hoàn toàn khác hoặc những sửa đổi lớn để hỗ trợ các tác vụ ngoài việc phát hiện (như nhận diện tư thế hoặc phân đoạn). YOLO11 Hệ thống xử lý phát hiện đối tượng , phân đoạn đối tượng , phân loại hình ảnh , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) thông qua một khung làm việc thống nhất duy nhất.
Xuất khẩu dễ dàng
Xuất khẩu YOLO11 Việc chuyển đổi sang các định dạng như TensorRT hoặc OpenVINO chỉ cần một lệnh duy nhất, giúp giảm thiểu các vấn đề hỗ trợ người vận hành thường gặp với các mô hình cũ.
Ứng dụng thực tế và các trường hợp sử dụng lý tưởng
Lựa chọn giữa YOLOv7 Và YOLO11 Điều này hoàn toàn phụ thuộc vào phạm vi dự án và các ràng buộc triển khai.
Khi nào nên cân nhắc YOLOv7 :
- So sánh hiệu năng các mô hình kế thừa: Các nhà nghiên cứu học thuật khám phá thiết kế đường dẫn gradient có thể sử dụng YOLOv7 như một tiêu chuẩn cơ bản để đánh giá các mạng nơ-ron tích chập thế hệ mới hơn.
- Các quy trình tùy chỉnh hiện có: Các nhóm có mã C++ được tùy chỉnh nhiều hoặc CUDA các đường ống được xây dựng đặc biệt xung quanh YOLOv7 Logic giải mã hộp giới hạn độc đáo của nó.
Khi nào nên lựa chọn YOLO11 :
- Sản xuất thương mại: Các ứng dụng trong lĩnh vực bán lẻ thông minh hoặc chẩn đoán y tế được hưởng lợi rất nhiều từ... YOLO11 Mã nguồn được duy trì tốt và có độ ổn định cao.
- Môi trường hạn chế tài nguyên: Kích thước nhỏ gọn của YOLO11n khiến nó đặc biệt phù hợp để triển khai trên các thiết bị di động và thiết bị biên thông qua ONNX .
- Dự án đa nhiệm: Nếu một ứng dụng cần xác định một người, lập bản đồ khung xương (tư thế) của họ và... segment một vật thể mà họ đang cầm, YOLO11 Cung cấp một giải pháp thống nhất.
Xu hướng tiên tiến: Tiến bước cùng YOLO26
Trong khi YOLO11 Là một lựa chọn vô cùng mạnh mẽ, sự đổi mới trong trí tuệ nhân tạo không bao giờ ngừng lại. Đối với các kỹ sư bắt đầu các dự án mới ngày nay, việc tìm hiểu Ultralytics YOLO26 là rất được khuyến khích.
Ra mắt vào tháng 1 năm 2026, YOLO26 giới thiệu một giải pháp toàn diện từ đầu đến cuối. NMS - Thiết kế tự do, loại bỏ hoàn toàn các điểm nghẽn độ trễ liên quan đến xử lý hậu kỳ Non-Maximum Suppression . Hơn nữa, YOLO26 tích hợp bộ tối ưu hóa MuSGD mang tính cách mạng, lấy cảm hứng từ các phương pháp huấn luyện LLM, để đảm bảo hội tụ nhanh hơn. Với những cải tiến về tổn thất có mục tiêu thông qua ProgLoss + STAL và tốc độ nhanh hơn tới 43%. CPU Nhờ loại bỏ suy luận DFL, YOLO26 được tối ưu hóa đặc biệt cho điện toán biên và đại diện cho đỉnh cao hiện tại của trí tuệ nhân tạo thị giác.
Đối với người dùng quan tâm đến các cấu trúc thay thế chuyên biệt, việc khám phá mô hình RT-DETR dựa trên transformer hoặc mô hình YOLO -World với từ vựng mở động cũng có thể mang lại kết quả có lợi cho nhiều ứng dụng thị giác máy tính khác nhau.