YOLOv7 so với YOLO11: So sánh Kỹ thuật Chi tiết
Việc lựa chọn mô hình phát hiện đối tượng tối ưu đòi hỏi sự hiểu biết sâu sắc về các khả năng cụ thể và sự đánh đổi của các kiến trúc khác nhau. Trang này cung cấp so sánh kỹ thuật toàn diện giữa YOLOv7 và Ultralytics YOLO11, hai mô hình mạnh mẽ trong dòng YOLO. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, điểm chuẩn hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn lựa mô hình phù hợp nhất cho các dự án thị giác máy tính của mình.
YOLOv7: Phát hiện đối tượng hiệu quả và chính xác
YOLOv7 được giới thiệu như một bước tiến đáng kể trong phát hiện đối tượng theo thời gian thực, tập trung vào tối ưu hóa hiệu quả huấn luyện và độ chính xác mà không làm tăng chi phí suy luận. Nó đã thiết lập một chuẩn mực mới cho các công cụ dò tìm theo thời gian thực khi được phát hành.
Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
Docs: https://docs.ultralytics.com/models/yolov7/
Kiến trúc và các tính năng chính
YOLOv7 xây dựng dựa trên các kiến trúc YOLO trước đó bằng cách giới thiệu một số cải tiến quan trọng. Nó sử dụng các kỹ thuật như Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) trong backbone để cải thiện khả năng trích xuất và học đặc trưng. Một đóng góp lớn là khái niệm "trainable bag-of-freebies", bao gồm các chiến lược tối ưu hóa được áp dụng trong quá trình huấn luyện—như sử dụng detection head phụ trợ và hướng dẫn từ thô đến tinh—để tăng độ chính xác của mô hình cuối cùng mà không làm tăng thêm chi phí tính toán trong quá trình suy luận. Mặc dù chủ yếu tập trung vào phát hiện đối tượng, kho lưu trữ chính thức cho thấy các tiện ích mở rộng cộng đồng cho các nhiệm vụ như ước tính tư thế và phân đoạn thể hiện.
Hiệu suất và các trường hợp sử dụng
YOLOv7 đã chứng minh hiệu suất hiện đại khi phát hành, mang lại sự cân bằng hấp dẫn giữa tốc độ và độ chính xác. Ví dụ: mô hình YOLOv7x đạt được 53,1% mAPtest trên tập dữ liệu MS COCO ở kích thước ảnh 640. Hiệu quả của nó làm cho nó phù hợp cho các ứng dụng thời gian thực như hệ thống an ninh tiên tiến và các hệ thống tự động yêu cầu phát hiện nhanh chóng, chính xác.
Điểm mạnh
- Cân bằng giữa Độ chính xác và Tốc độ cao: Cung cấp sự kết hợp mạnh mẽ giữa mAP và tốc độ suy luận cho các tác vụ thời gian thực trên GPU.
- Efficient Training: Sử dụng các kỹ thuật huấn luyện nâng cao ("bag-of-freebies") để cải thiện độ chính xác mà không làm tăng chi phí suy luận.
- Hiệu Suất Đã Được Chứng Minh: Kết quả đã được chứng minh trên các điểm chuẩn tiêu chuẩn như MS COCO.
Điểm yếu
- Độ phức tạp: Kiến trúc và các kỹ thuật huấn luyện có thể phức tạp để nắm bắt và tối ưu hóa hoàn toàn.
- Tốn tài nguyên: Các mô hình YOLOv7 lớn hơn đòi hỏi tài nguyên GPU đáng kể để đào tạo.
- Tính linh hoạt của tác vụ bị hạn chế: Chủ yếu tập trung vào phát hiện đối tượng, yêu cầu các triển khai riêng biệt cho các tác vụ khác như phân đoạn hoặc phân loại, không giống như các mô hình tích hợp như YOLO11.
- Ít được bảo trì hơn: Khung công cụ này không được phát triển hoặc duy trì tích cực như hệ sinh thái Ultralytics, dẫn đến ít cập nhật hơn và ít hỗ trợ từ cộng đồng hơn.
Ultralytics YOLO11: Hiệu quả và Tính linh hoạt Vượt trội
Ultralytics YOLO11 đại diện cho sự phát triển mới nhất trong dòng YOLO từ Ultralytics, được thiết kế để có độ chính xác vượt trội, nâng cao hiệu quả và tính linh hoạt tác vụ rộng hơn trong một khuôn khổ thân thiện với người dùng. Nó được xây dựng dựa trên thành công của các phiên bản tiền nhiệm như YOLOv8 để mang lại trải nghiệm hiện đại.
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
Tài liệu: https://docs.ultralytics.com/models/yolo11/
Kiến trúc và các tính năng chính
Kiến trúc của YOLO11 tích hợp các kỹ thuật trích xuất đặc trưng tiên tiến và thiết kế mạng lưới được tinh giản, mang lại độ chính xác cao hơn và thường giảm số lượng tham số so với các phiên bản tiền nhiệm. Tối ưu hóa này dẫn đến tốc độ suy luận nhanh hơn và yêu cầu tính toán thấp hơn, điều này rất quan trọng để triển khai trên nhiều nền tảng khác nhau, từ thiết bị biên đến cơ sở hạ tầng đám mây.
Một ưu điểm chính của YOLO11 là tính linh hoạt. Nó hỗ trợ nguyên bản nhiều tác vụ thị giác máy tính, bao gồm phát hiện đối tượng, phân vùng thể hiện, phân loại ảnh, ước tính tư thế và hộp giới hạn có hướng (OBB). Nó tích hợp liền mạch vào hệ sinh thái Ultralytics, mang lại trải nghiệm người dùng được sắp xếp hợp lý thông qua giao diện Python và CLI đơn giản, tài liệu mở rộng và trọng số được huấn luyện trước có sẵn để huấn luyện hiệu quả.
Hiệu suất và các trường hợp sử dụng
YOLO11 thể hiện điểm số độ chính xác trung bình (mAP) ấn tượng trên các kích thước mô hình khác nhau, đạt được sự đánh đổi có lợi giữa tốc độ và độ chính xác. Ví dụ: YOLO11m đạt được mAPval là 51,5 ở kích thước hình ảnh 640 với số lượng tham số ít hơn đáng kể so với YOLOv7l. Các biến thể nhỏ hơn như YOLO11n cung cấp suy luận cực kỳ nhanh, trong khi các mô hình lớn hơn như YOLO11x tối đa hóa độ chính xác. Đáng chú ý, các mô hình YOLO11 thường thể hiện mức sử dụng bộ nhớ thấp hơn trong quá trình đào tạo và suy luận so với các kiến trúc khác.
Độ chính xác và hiệu quả nâng cao của YOLO11 khiến nó trở nên lý tưởng cho các ứng dụng yêu cầu xử lý thời gian thực chính xác:
- Robot: Cho phép điều hướng chính xác và tương tác đối tượng, như đã khám phá trong vai trò của AI trong ngành robot.
- Hệ thống An ninh: Cung cấp sức mạnh cho hệ thống báo động an ninh tiên tiến để phát hiện xâm nhập.
- Phân tích bán lẻ: Cải thiện quản lý hàng tồn kho và phân tích hành vi khách hàng.
- Tự động hóa công nghiệp: Hỗ trợ kiểm soát chất lượng trong sản xuất.
Điểm mạnh
- Hiệu suất vượt trội: Điểm số mAP cao với kiến trúc không neo được tối ưu hóa.
- Suy Luận Hiệu Quả: Tốc độ tuyệt vời, đặc biệt là trên CPU, phù hợp cho các nhu cầu thời gian thực.
- Hỗ trợ tác vụ linh hoạt: Xử lý tự nhiên việc phát hiện, phân đoạn, phân loại, dáng điệu và OBB trong một framework duy nhất.
- Dễ sử dụng: API đơn giản, tài liệu phong phú và hỗ trợ Ultralytics HUB tích hợp để huấn luyện và triển khai không cần code.
- Hệ sinh thái được duy trì tốt: Phát triển tích cực, cộng đồng mạnh mẽ, cập nhật thường xuyên và quy trình huấn luyện hiệu quả.
- Khả năng mở rộng: Hoạt động hiệu quả trên nhiều loại phần cứng, từ biên đến đám mây, với yêu cầu bộ nhớ thấp hơn.
Điểm yếu
- Là một mô hình mới hơn, một số tích hợp công cụ cụ thể của bên thứ ba có thể vẫn đang phát triển so với các mô hình cũ hơn, đã được thiết lập.
- Các mô hình lớn hơn có thể đòi hỏi tài nguyên tính toán đáng kể cho quá trình huấn luyện, mặc dù chúng vẫn rất hiệu quả so với hiệu suất của chúng.
So sánh hiệu năng: YOLOv7 so với YOLO11
Bảng dưới đây so sánh chi tiết hiệu năng giữa các mô hình YOLOv7 và YOLO11 trên bộ dữ liệu COCO. Các mô hình YOLO11 thể hiện sự cân bằng vượt trội giữa độ chính xác, tốc độ và hiệu quả. Ví dụ: YOLO11l đạt mAP cao hơn YOLOv7x với số lượng tham số và FLOPs ít hơn một nửa, đồng thời nhanh hơn đáng kể trên GPU. Tương tự, YOLO11m đạt độ chính xác tương đương YOLOv7l với khoảng một nửa số tham số và chi phí tính toán. Mô hình nhỏ nhất, YOLO11n, cung cấp tốc độ đáng kể trên cả CPU và GPU với mức sử dụng tài nguyên tối thiểu, khiến nó trở nên lý tưởng cho các ứng dụng biên.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Kết luận: Bạn nên chọn mô hình nào?
Trong khi YOLOv7 là một mô hình mạnh mẽ vào thời điểm đó và vẫn mang lại hiệu suất mạnh mẽ để phát hiện đối tượng theo thời gian thực, Ultralytics YOLO11 đại diện cho một bước tiến đáng kể. YOLO11 không chỉ vượt qua YOLOv7 về các số liệu hiệu suất chính mà còn cung cấp một khuôn khổ linh hoạt hơn, thân thiện với người dùng hơn và được hỗ trợ tốt hơn.
Đối với các nhà phát triển và nhà nghiên cứu đang tìm kiếm một giải pháp tất cả trong một hiện đại, YOLO11 là lựa chọn rõ ràng. Ưu điểm của nó bao gồm:
- Cân bằng hiệu suất vượt trội: YOLO11 mang lại sự cân bằng tốt hơn giữa độ chính xác, tốc độ và chi phí tính toán.
- Tính linh hoạt đa nhiệm: Hỗ trợ gốc cho phát hiện, phân đoạn, phân loại, tư thế và OBB giúp loại bỏ nhu cầu về nhiều mô hình và đơn giản hóa quy trình làm việc phát triển.
- Dễ sử dụng: API được tối ưu hóa, tài liệu toàn diện và quy trình huấn luyện đơn giản giúp cả người mới bắt đầu và chuyên gia đều có thể tiếp cận.
- Phát triển tích cực: Là một phần của hệ sinh thái Ultralytics, YOLO11 được hưởng lợi từ các bản cập nhật liên tục, một cộng đồng mã nguồn mở mạnh mẽ và tích hợp với các công cụ như Ultralytics HUB để có MLOps liền mạch.
Tóm lại, nếu ưu tiên của bạn là tận dụng những tiến bộ mới nhất trong AI cho một loạt các ứng dụng với trọng tâm là dễ dàng triển khai và chống lại sự lỗi thời trong tương lai, thì Ultralytics YOLO11 là mô hình được khuyến nghị.
Khám phá các Mô hình Khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến YOLOv7, YOLO11 và các mô hình liên quan khác trong tài liệu Ultralytics:
- So sánh YOLO11 và YOLOv8
- So sánh YOLO11 và YOLOv10
- YOLOv7 so sánh với YOLOv8
- YOLOv7 so sánh với YOLOv5
- Khám phá các mô hình mới nhất như YOLOv9 và YOLOv10.