YOLO11 so với YOLOv7: So sánh kỹ thuật chi tiết
Việc lựa chọn mô hình phát hiện đối tượng tối ưu đòi hỏi sự hiểu biết về các khả năng cụ thể và sự đánh đổi của các kiến trúc khác nhau. Trang này cung cấp so sánh kỹ thuật giữa Ultralytics YOLO11 và YOLOv7, hai mô hình mạnh mẽ trong dòng YOLO. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn lựa mô hình phù hợp nhất cho các dự án thị giác máy tính của mình. Trong khi YOLOv7 là một bước tiến đáng kể trong phát hiện theo thời gian thực, Ultralytics YOLO11 đại diện cho trạng thái hiện đại nhất, mang lại hiệu suất vượt trội, tính linh hoạt cao hơn và trải nghiệm nhà phát triển được tinh giản hơn.
YOLOv7: Phát hiện đối tượng hiệu quả và chính xác
YOLOv7 được giới thiệu như một bước tiến lớn trong phát hiện đối tượng theo thời gian thực, tập trung vào tối ưu hóa hiệu quả huấn luyện và độ chính xác mà không làm tăng chi phí suy luận.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Date: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- Tài liệu: https://docs.ultralytics.com/models/yolov7/
Kiến trúc và các tính năng chính
YOLOv7 được xây dựng dựa trên các kiến trúc YOLO trước đó bằng cách giới thiệu một số cải tiến chính. Nó sử dụng các kỹ thuật như Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) và các phương pháp mở rộng mô hình được tối ưu hóa cho các mô hình dựa trên concatenation. Một đóng góp lớn là khái niệm "trainable bag-of-freebies", bao gồm các chiến lược tối ưu hóa được áp dụng trong quá trình đào tạo (như auxiliary heads và coarse-to-fine guidance) để tăng độ chính xác của mô hình cuối cùng mà không làm tăng thêm chi phí tính toán trong quá trình suy luận. YOLOv7 chủ yếu tập trung vào phát hiện đối tượng nhưng có các tiện ích mở rộng cộng đồng cho các tác vụ như ước tính tư thế.
Các chỉ số hiệu suất và trường hợp sử dụng
Khi ra mắt, YOLOv7 đã thể hiện hiệu suất vượt trội, mang lại sự cân bằng hấp dẫn giữa tốc độ và độ chính xác. Ví dụ: mô hình YOLOv7x đạt 53,1% mAPtest trên tập dữ liệu MS COCO ở kích thước ảnh 640. Hiệu quả của nó làm cho nó phù hợp với các ứng dụng thời gian thực như hệ thống an ninh tiên tiến và hệ thống tự động yêu cầu phát hiện nhanh chóng, chính xác.
Điểm mạnh
- Cân bằng giữa độ chính xác và tốc độ cao: Cung cấp sự kết hợp mạnh mẽ giữa mAP và tốc độ suy luận cho các tác vụ thời gian thực.
- Efficient Training: Sử dụng các kỹ thuật huấn luyện nâng cao ("bag-of-freebies") để cải thiện độ chính xác mà không làm tăng chi phí suy luận.
- Hiệu suất đã được thiết lập: Kết quả đã được chứng minh trên các tiêu chuẩn như MS COCO.
Điểm yếu
- Độ phức tạp: Kiến trúc và các kỹ thuật huấn luyện có thể phức tạp để nắm bắt và tối ưu hóa hoàn toàn.
- Tốn tài nguyên: Các mô hình YOLOv7 lớn hơn đòi hỏi tài nguyên GPU đáng kể để đào tạo.
- Tính linh hoạt tác vụ hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, yêu cầu triển khai riêng cho các tác vụ khác như phân đoạn hoặc phân loại so với các mô hình tích hợp như YOLO11.
- Hệ sinh thái rời rạc: Thiếu framework thống nhất, tài liệu mở rộng và bảo trì tích cực được tìm thấy trong hệ sinh thái Ultralytics.
Ultralytics YOLO11: Hiệu quả và Tính linh hoạt Vượt trội
Ultralytics YOLO11, được tạo ra bởi Glenn Jocher và Jing Qiu từ Ultralytics, đại diện cho sự phát triển mới nhất trong dòng YOLO. Được phát hành vào ngày 27 tháng 9 năm 2024, nó được thiết kế để có độ chính xác vượt trội, nâng cao hiệu quả và tính linh hoạt tác vụ rộng hơn trong một khuôn khổ thân thiện với người dùng.
- Tác giả: Glenn Jocher, Jing Qiu
- Tổ chức: Ultralytics
- Ngày: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- Tài liệu: https://docs.ultralytics.com/models/yolo11/
Kiến trúc và các tính năng chính
Kiến trúc của YOLO11 tích hợp các kỹ thuật trích xuất đặc trưng tiên tiến và thiết kế mạng lưới được tinh giản, mang lại độ chính xác cao hơn và thường giảm số lượng tham số so với các phiên bản tiền nhiệm như YOLOv8 và YOLOv7. Tối ưu hóa này dẫn đến tốc độ suy luận nhanh hơn và yêu cầu tính toán thấp hơn, điều này rất quan trọng để triển khai trên nhiều nền tảng khác nhau, từ thiết bị biên đến cơ sở hạ tầng đám mây.
Một ưu điểm chính của YOLO11 là tính linh hoạt. Nó là một mô hình đa nhiệm hỗ trợ nguyên bản phát hiện đối tượng, phân vùng thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn có hướng (OBB). Nó tích hợp liền mạch vào hệ sinh thái Ultralytics, mang lại trải nghiệm người dùng được sắp xếp hợp lý thông qua giao diện Python và CLI đơn giản, tài liệu mở rộng và trọng số được huấn luyện trước có sẵn để huấn luyện hiệu quả.
Điểm mạnh
- Hiệu suất vượt trội: Đạt được điểm số mAP cao hơn với kiến trúc hiệu quả hơn.
- Hiệu quả vượt trội: Tốc độ tuyệt vời trên cả CPU và GPU, với số lượng tham số và FLOPs ít hơn đáng kể so với YOLOv7 để có độ chính xác tương đương.
- Tính Linh hoạt Vượt trội: Hỗ trợ gốc detection (phát hiện), segmentation (phân vùng), classification (phân loại), pose (tư thế) và OBB trong một framework thống nhất.
- Dễ sử dụng: Có API đơn giản, tài liệu đầy đủ và tích hợp liền mạch với các công cụ như Ultralytics HUB để huấn luyện và triển khai không cần code.
- Hệ sinh thái được duy trì tốt: Hưởng lợi từ quá trình phát triển tích cực, một cộng đồng vững mạnh, cập nhật thường xuyên và nguồn tài nguyên phong phú.
- Hiệu quả bộ nhớ: Được thiết kế để sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện và suy luận, giúp nó dễ tiếp cận hơn so với các kiến trúc khác.
Điểm yếu
- Là một mô hình mới hơn, một số tích hợp công cụ của bên thứ ba có thể vẫn đang trong quá trình phát triển so với các mô hình cũ hơn, đã được thiết lập.
- Các mô hình lớn nhất, mặc dù có độ chính xác cao, vẫn có thể yêu cầu tài nguyên tính toán đáng kể cho quá trình huấn luyện và triển khai.
So sánh hiệu năng trực tiếp: YOLO11 so với YOLOv7
Khi so sánh trực tiếp các số liệu hiệu suất, những ưu điểm của Ultralytics YOLO11 trở nên rõ ràng. Các mô hình mang lại sự đánh đổi tốt hơn giữa độ chính xác và hiệu quả trên mọi phương diện.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Từ bảng so sánh, một số thông tin chi tiết quan trọng được đưa ra:
- Độ chính xác và Hiệu quả: YOLO11l đạt được mAP cao hơn (53,4) so với YOLOv7x (53,1) trong khi sử dụng số lượng tham số (25,3M so với 71,3M) và FLOPs (86,9B so với 189,9B) ít hơn đáng kể.
- Tốc độ suy luận: Các mô hình YOLO11 nhanh hơn đáng kể, đặc biệt là trên GPU với TensorRT. YOLO11l nhanh hơn YOLOv7x gần gấp đôi trên GPU T4. Hơn nữa, YOLO11 cung cấp các điểm chuẩn hiệu suất CPU mạnh mẽ thông qua ONNX, một chỉ số quan trọng cho nhiều triển khai thực tế, nơi dữ liệu YOLOv7 không khả dụng.
- Khả năng mở rộng: Họ YOLO11 cung cấp một loạt các mô hình rộng hơn và hiệu quả hơn, từ YOLO11n (độ trễ 1.5 ms) đến YOLO11x (54.7 mAP) có độ chính xác cao, cho phép các nhà phát triển tìm thấy sự cân bằng hoàn hảo cho các nhu cầu cụ thể của họ.
Tại sao nên chọn Ultralytics YOLO11?
Trong khi YOLOv7 là một mô hình mạnh mẽ vào thời điểm đó, Ultralytics YOLO11 là lựa chọn rõ ràng cho các dự án thị giác máy tính hiện đại. Nó không chỉ vượt qua YOLOv7 về các số liệu cốt lõi như độ chính xác và tốc độ mà còn mang lại trải nghiệm người dùng vượt trội và một bộ tính năng toàn diện hơn.
Các ưu điểm chính khi chọn YOLO11 bao gồm:
- Khung thống nhất: Một gói duy nhất, dễ sử dụng cho nhiều tác vụ thị giác, loại bỏ sự cần thiết phải xử lý các kho lưu trữ và môi trường khác nhau.
- Phát triển và Hỗ trợ tích cực: Là một phần của hệ sinh thái Ultralytics được duy trì tích cực, YOLO11 nhận được các bản cập nhật liên tục, sửa lỗi và hỗ trợ từ một cộng đồng lớn và nhóm phát triển cốt lõi.
- Sẵn sàng cho sản xuất: Với trọng tâm là hiệu quả, dễ triển khai và các công cụ mạnh mẽ, YOLO11 được xây dựng cho các ứng dụng thực tế, từ tạo mẫu đến sản xuất quy mô lớn.
- Đảm bảo tương lai: Bằng cách áp dụng YOLO11, các nhà phát triển có thể bắt kịp với nghiên cứu phát hiện đối tượng tiên tiến và hưởng lợi từ những đổi mới liên tục từ Ultralytics.
Đối với các nhà phát triển đang tìm kiếm một mô hình hiện đại, linh hoạt và hiệu suất cao được hỗ trợ bởi một hệ sinh thái mạnh mẽ, Ultralytics YOLO11 là lựa chọn dứt khoát.
So sánh các mô hình khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến YOLOv7, YOLO11 và các mô hình liên quan khác sau:
- So sánh YOLO11 và YOLOv8
- YOLOv7 so sánh với YOLOv8
- YOLOv7 so với YOLOv6
- RT-DETR so với YOLOv7
- Khám phá các mô hình mới nhất như YOLOv10 và các so sánh khác trên trang so sánh chính của chúng tôi.