YOLOv9 so với YOLO11 : Sự tiến hóa kiến trúc và phân tích hiệu suất
Bối cảnh của thị giác máy tính được định hình bởi sự đổi mới nhanh chóng, với các mô hình liên tục vượt qua ranh giới về độ chính xác, tốc độ và hiệu quả. Bài so sánh này khám phá hai cột mốc quan trọng trong lĩnh vực phát hiện đối tượng: YOLOv9 , một mô hình tập trung vào nghiên cứu, giới thiệu các khái niệm kiến trúc mới, và Ultralytics YOLO11 , phiên bản nâng cấp mới nhất, sẵn sàng cho sản xuất, được thiết kế để đáp ứng tính linh hoạt trong thế giới thực.
Trong khi YOLOv9 tập trung vào việc giải quyết các điểm nghẽn thông tin học sâu thông qua những đột phá về mặt lý thuyết, thì Ultralytics YOLO11 cải tiến hiệu suất tiên tiến (SOTA) với trọng tâm là khả năng sử dụng, hiệu quả và tích hợp liền mạch vào hệ sinh thái Ultralytics .
Chỉ số hiệu suất: Tốc độ và độ chính xác
Bảng sau đây trình bày so sánh trực tiếp các số liệu hiệu suất chính được đánh giá trên tập dữ liệu COCO . Khi lựa chọn mô hình, điều quan trọng là phải cân bằng Độ chính xác Trung bình ( mAP ) so với tốc độ suy luận và chi phí tính toán (FLOP).
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Như dữ liệu minh họa, YOLO11 thể hiện hiệu quả vượt trội . Ví dụ, mô hình YOLO11n đạt được hiệu suất cao hơn mAP (39,5%) so với YOLOv9t (38,3%) trong khi sử dụng ít FLOP hơn và chạy nhanh hơn đáng kể trên GPU . Trong khi mô hình YOLOv9e lớn nhất có lợi thế nhỏ về độ chính xác thô, nó đòi hỏi thời gian suy luận gần gấp đôi YOLO11l, khiến YOLO11 sự lựa chọn thực tế hơn cho các tình huống suy luận thời gian thực .
YOLOv9 : Giải quyết tình trạng tắc nghẽn thông tin
YOLOv9 được phát hành với mục tiêu học thuật cụ thể: giải quyết vấn đề mất thông tin khi dữ liệu đi qua mạng nơ-ron sâu. Kiến trúc của nó chịu ảnh hưởng lớn bởi nhu cầu lưu giữ thông tin gradient trong quá trình huấn luyện.
Chi tiết kỹ thuật:
Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/
Các đặc điểm kiến trúc chính
Những đổi mới cốt lõi của YOLOv9 là Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) .
- PGI: Khung giám sát phụ trợ này đảm bảo rằng các lớp sâu nhận được thông tin gradient đáng tin cậy, giảm thiểu "nút thắt thông tin" thường cản trở sự hội tụ của các mạng sâu.
- GELAN: Kiến trúc này tối ưu hóa hiệu quả tham số bằng cách kết hợp sức mạnh của CSPNet và ELAN, cho phép mở rộng tính toán linh hoạt.
Tập trung học thuật
YOLOv9 là một nghiên cứu điển hình tuyệt vời cho các nhà nghiên cứu quan tâm đến lý thuyết học sâu, đặc biệt liên quan đến luồng gradient và bảo toàn thông tin trong mạng nơ-ron tích chập .
Ultralytics YOLO11 : Tính linh hoạt kết hợp với hiệu quả
Xây dựng dựa trên di sản của YOLOv8 , YOLO11 đại diện cho đỉnh cao của thị giác máy tính hướng đến sản xuất. Nó được thiết kế không chỉ để đạt điểm chuẩn mà còn hướng đến khả năng triển khai thực tế, dễ sử dụng và khả năng đa nhiệm.
Chi tiết kỹ thuật:
Tác giả: Glenn Jocher, Jing Qiu
Tổ chức: Ultralytics
Ngày: 27-09-2024
GitHub: https://github.com/ ultralytics / ultralytics
Tài liệu: https://docs. ultralytics .com/models/ yolo11 /
Các đặc điểm kiến trúc chính
YOLO11 Giới thiệu một kiến trúc tinh vi được thiết kế để tối đa hóa việc trích xuất đặc điểm đồng thời giảm thiểu chi phí tính toán. Kiến trúc này sử dụng cấu trúc xương sống và cổ được cải tiến, giúp cải thiện khả năng tích hợp đặc điểm trên nhiều quy mô khác nhau, điều này rất quan trọng để phát hiện các vật thể nhỏ .
Mô hình này cũng có thiết kế đầu được cải tiến để hội tụ nhanh hơn trong quá trình đào tạo. Không giống như các mô hình tập trung vào nghiên cứu, YOLO11 được xây dựng trong một khuôn khổ thống nhất hỗ trợ Phát hiện, Phân đoạn, Phân loại, Ước tính tư thế và Hộp giới hạn định hướng (OBB) một cách tự nhiên.
Điểm so sánh chi tiết
Dễ sử dụng và hệ sinh thái
Một trong những khác biệt quan trọng nhất nằm ở trải nghiệm người dùng. Ultralytics YOLO11 được thiết kế với tư duy "ưu tiên nhà phát triển". Nó tích hợp liền mạch với các nền tảng rộng hơn. Ultralytics hệ sinh thái, bao gồm các công cụ chú thích dữ liệu , quản lý tập dữ liệu và xuất mô hình .
- YOLO11 : Có thể được đào tạo, xác thực và triển khai bằng một vài dòng mã bằng cách sử dụng
ultralyticsPython gói hoặc CLI . Nó có lợi thế là được cập nhật thường xuyên, có nhiều tài liệu hướng dẫn và có một cộng đồng đông đảo. - YOLOv9 : Trong khi được hỗ trợ trong Ultralytics thư viện, việc triển khai ban đầu và một số cấu hình nâng cao có thể yêu cầu hiểu biết sâu hơn về bài nghiên cứu cơ bản.
Yêu cầu về bộ nhớ và hiệu quả đào tạo
Sử dụng tài nguyên hiệu quả là một dấu hiệu của Ultralytics các mô hình. YOLO11 được tối ưu hóa để yêu cầu bộ nhớ CUDA thấp hơn trong quá trình đào tạo so với nhiều giải pháp thay thế dựa trên bộ biến áp hoặc cũ hơn YOLO lặp lại. Điều này cho phép các nhà phát triển đào tạo các lô lớn hơn trên phần cứng cấp tiêu dùng, đẩy nhanh chu kỳ phát triển.
Hơn nữa, YOLO11 cung cấp các trọng số được đào tạo sẵn, chất lượng cao cho tất cả các nhiệm vụ, đảm bảo việc học chuyển giao vừa nhanh chóng vừa hiệu quả. Điều này trái ngược với các mô hình nghiên cứu có thể cung cấp các điểm kiểm tra được đào tạo sẵn hạn chế, chủ yếu tập trung vào COCO phát hiện.
Tính linh hoạt của nhiệm vụ
Trong khi YOLOv9 chủ yếu được công nhận vì những thành tựu trong việc phát hiện đối tượng , YOLO11 cung cấp hỗ trợ gốc cho nhiều tác vụ thị giác máy tính trong một khuôn khổ duy nhất:
- Phân đoạn trường hợp: Che giấu chính xác các đối tượng.
- Ước tính tư thế: Phát hiện các điểm chính của bộ xương (ví dụ, tư thế của con người).
- Phân loại: Phân loại toàn bộ hình ảnh.
- Hộp giới hạn định hướng (OBB): Phát hiện các vật thể xoay, rất quan trọng đối với hình ảnh trên không.
API hợp nhất
Chuyển đổi giữa các tác vụ trong YOLO11 đơn giản như việc thay đổi tệp trọng số mô hình (ví dụ, từ yolo11n.pt để phát hiện yolo11n-seg.pt để phân đoạn).
Ví dụ mã: So sánh trong hành động
Sau đây là Python mã chứng minh cả hai mô hình có thể được tải và sử dụng dễ dàng như thế nào trong Ultralytics khung, làm nổi bật API thống nhất giúp đơn giản hóa việc thử nghiệm các kiến trúc khác nhau.
from ultralytics import YOLO
# Load the research-focused YOLOv9 model (compact version)
model_v9 = YOLO("yolov9c.pt")
# Load the production-optimized YOLO11 model (medium version)
model_11 = YOLO("yolo11m.pt")
# Run inference on a local image
# YOLO11 provides a balance of speed and accuracy ideal for real-time apps
results_11 = model_11("path/to/image.jpg")
# Display results
results_11[0].show()
Các trường hợp sử dụng lý tưởng
Khi nào nên chọn YOLOv9
YOLOv9 là lựa chọn tuyệt vời cho nghiên cứu học thuật và các tình huống mà độ chính xác tối đa trên hình ảnh tĩnh là ưu tiên hàng đầu, bất kể chi phí tính toán.
- Dự án nghiên cứu: Nghiên cứu dòng chảy gradient và kiến trúc mạng nơ-ron.
- Đánh giá chuẩn: Các cuộc thi mà mọi phần của mAP đếm.
- Triển khai máy chủ cao cấp: Nơi có sẵn GPU mạnh mẽ (như A100) để xử lý FLOP cao hơn của biến thể 'E'.
Khi nào nên chọn Ultralytics YOLO11
YOLO11 là lựa chọn được khuyến nghị cho các ứng dụng thương mại , điện toán biên và hệ thống đa tác vụ .
- Edge AI: Triển khai trên các thiết bị như NVIDIA Jetson hoặc Raspberry Pi do tỷ lệ tốc độ trên trọng lượng vượt trội.
- Phân tích thời gian thực: Giám sát giao thông, phân tích thể thao và kiểm soát chất lượng sản xuất trong đó độ trễ là yếu tố quan trọng.
- Đường ống phức tạp: Các ứng dụng yêu cầu phát hiện, phân đoạn và ước tính tư thế đồng thời.
- Nguyên mẫu nhanh: Các công ty khởi nghiệp và doanh nghiệp cần chuyển từ khái niệm sang triển khai nhanh chóng bằng cách sử dụng API Ultralytics .
Các mô hình khác để khám phá
Trong khi YOLOv9 Và YOLO11 là những đối thủ mạnh mẽ, Ultralytics thư viện hỗ trợ nhiều mô hình khác nhau được thiết kế riêng cho các nhu cầu cụ thể:
- YOLOv8 : Tiền thân đáng tin cậy của YOLO11 , vẫn được sử dụng và hỗ trợ rộng rãi.
- RT-DETR : Máy dò dựa trên máy biến áp có độ chính xác cao nhưng có thể cần nhiều bộ nhớ hơn.
- YOLOv10 : Một kiến trúc riêng biệt tập trung vào NMS -đào tạo miễn phí để giảm độ trễ trong các cấu hình cụ thể.
Khám phá đầy đủ các tùy chọn trong phần So sánh mô hình .
Kết luận
Cả hai kiến trúc đều đại diện cho những thành tựu đáng kể trong lĩnh vực thị giác máy tính. YOLOv9 đóng góp những hiểu biết lý thuyết quý giá vào việc đào tạo các mạng lưới sâu, trong khi Ultralytics YOLO11 tổng hợp những tiến bộ này thành một công cụ mạnh mẽ, linh hoạt và hiệu quả cao cho thế giới. Đối với hầu hết các nhà phát triển và nhà nghiên cứu đang tìm kiếm các ứng dụng có khả năng mở rộng, thời gian thực, YOLO11 Sự cân bằng giữa hiệu suất, tính dễ sử dụng và hỗ trợ hệ sinh thái toàn diện khiến nó trở thành sự lựa chọn vượt trội.