YOLOv5 so với YOLOv9 So sánh kỹ thuật chuyên sâu
Lĩnh vực thị giác máy tính và phát hiện đối tượng thời gian thực đã chứng kiến những bước tiến vượt bậc trong vài năm qua. Việc lựa chọn giữa các mô hình đã được kiểm chứng và các kiến trúc nghiên cứu mới hơn là một thách thức phổ biến đối với các kỹ sư máy học. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa hai mô hình có ảnh hưởng lớn trong lĩnh vực này. YOLO Họ: YOLOv5 và YOLOv9 .
Cho dù bạn đang triển khai trên các thiết bị biên có tài nguyên hạn chế, nghiên cứu trích xuất đặc trưng độ chính xác cao hay xây dựng các quy trình phát hiện đối tượng phức tạp, việc hiểu rõ các sắc thái kiến trúc, số liệu hiệu suất và sự khác biệt về hệ sinh thái của các mô hình này là rất quan trọng.
Tổng quan về mô hình
Trước khi đi sâu vào so sánh kiến trúc, điều hữu ích là hiểu được nguồn gốc và mục tiêu chính của mỗi mô hình.
Ultralytics YOLOv5
Được phát triển bởi Glenn Jocher và phát hành bởi Ultralytics vào ngày 26 tháng 6 năm 2020. YOLOv5 Đánh dấu một sự thay đổi mang tính đột phá trong cách các nhà phát triển tương tác với các mô hình thị giác. Bằng cách hoàn toàn áp dụng khung PyTorch , YOLOv5 Thay thế các bước biên dịch phức tạp của các mô hình dựa trên Darknet trước đây bằng một giao diện trực quan, Python - Trải nghiệm người dùng đầu tiên.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:Kho lưu trữ YOLOv5
- Tài liệu: Tổng quan về nền tảng YOLOv5
YOLOv5 Nó nổi tiếng về tính dễ sử dụng và hiệu suất ổn định trên nhiều môi trường phần cứng khác nhau. Nó không chỉ hỗ trợ phát hiện mà còn cả phân loại hình ảnh và phân đoạn đối tượng .
YOLOv9
Bài viết được giới thiệu bởi Chien-Yao Wang và Hong-Yuan Mark Liao đến từ Viện Khoa học Thông tin thuộc Viện Hàn lâm Khoa học Đài Loan. YOLOv9 Tập trung mạnh vào lý thuyết kiến trúc để giảm thiểu các vấn đề tắc nghẽn thông tin trong mạng nơ-ron sâu.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2024-02-21
- Arxiv:2402.13616
- GitHub:Kho lưu trữ YOLOv9
- Tài liệu:Tài liệu YOLOv9
Cốt lõi của YOLOv9 Mô hình này dựa trên hai cải tiến lý thuyết quan trọng: Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network - GELAN). Các khái niệm này giúp mô hình giữ lại các đặc điểm không gian quan trọng xuyên suốt các lớp mạng sâu.
Đảm bảo khả năng tương thích trong tương lai cho các triển khai của bạn
Trong khi YOLOv5 Và YOLOv9 Với hiệu năng mạnh mẽ, YOLO26 mới ra mắt thể hiện sự cân bằng tối ưu giữa tốc độ và độ chính xác. Sở hữu khả năng vận hành vượt trội từ đầu đến cuối... NMS - Thiết kế miễn phí và nhanh hơn tới 43% CPU Xét về khả năng suy luận, YOLO26 được đánh giá cao cho điện toán biên hiện đại và các triển khai sản xuất.
Sự khác biệt về kiến trúc và kỹ thuật
Hiểu rõ những gì tạo nên sức mạnh bên trong các mô hình thị giác này là điều vô cùng quan trọng để tối ưu hóa chiến lược triển khai mô hình .
Trích xuất đặc trưng và lưu giữ thông tin
YOLOv5 Nó sử dụng kiến trúc mạng Cross Stage Partial Network (CSPNet), giúp giảm thiểu đáng kể chi phí tính toán trong khi vẫn duy trì luồng gradient chính xác trong quá trình lan truyền ngược. Thiết kế này được tối ưu hóa cao cho các hoạt động GPU truyền thống và đảm bảo yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện so với các phương án Transformer nặng nề khác.
YOLOv9 Giới thiệu GELAN, một kiến trúc tổng quát mở rộng các nguyên tắc của CSPNet. Kết hợp với PGI—một nhánh phụ có thể đảo ngược— YOLOv9 Điều này đảm bảo các lớp sâu không bị mất dữ liệu ngữ nghĩa cần thiết cho các hàm mục tiêu chính xác. Điều này cho phép YOLOv9 Để đạt được độ chính xác cao, đặc biệt là trên các vật thể nhỏ hơn, mặc dù việc phân nhánh phụ phức tạp đôi khi có thể làm phức tạp các quy trình xuất sang phần cứng biên có hạn chế nghiêm ngặt.
Yêu cầu bộ nhớ và hiệu quả huấn luyện
Khi nói đến hiệu quả đào tạo, YOLOv5 vẫn vô cùng mạnh mẽ. Hệ sinh thái Ultralytics được duy trì tốt đảm bảo điều đó. YOLOv5 các mẫu tiêu thụ ít hơn đáng kể CUDA bộ nhớ, cho phép các nhà nghiên cứu tối đa hóa kích thước lô trên GPU dành cho người tiêu dùng. Trong khi đó, YOLOv9 Mặc dù đạt được hiệu quả tham số xuất sắc (độ chính xác cao so với kích thước), quá trình huấn luyện của nó có thể tốn nhiều tài nguyên hơn nếu không sử dụng các khung tối ưu hóa. May mắn thay, việc tích hợp YOLOv9 vào Ultralytics API giúp nó tiến gần hơn đến sự tương đồng với YOLOv5 Quản lý tài nguyên được tối ưu hóa.
Hiệu suất và số liệu
Để đánh giá khách quan các kiến trúc này, chúng tôi so sánh hiệu năng của chúng trên các tập dữ liệu tiêu chuẩn như... COCO Dưới đây là bảng phân tích chi tiết các chỉ số như sau: mAP (Độ chính xác trung bình), tốc độ suy luận và số lượng tham số.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Như bảng dưới đây cho thấy, YOLOv9 Đạt được độ chính xác thô cao hơn ở các cấp độ tương đương, phản ánh kiến trúc mới hơn của nó. Tuy nhiên, YOLOv5n vẫn duy trì mức độ chính xác cực kỳ thấp. TensorRT Độ trễ 1,12ms, làm nổi bật sức mạnh bền bỉ của nó đối với các ứng dụng điện toán biên cục bộ tốc độ cao.
Các phương pháp huấn luyện và Dễ sử dụng
Ưu điểm thực sự của việc ứng dụng thị giác máy tính hiện nay nằm ở tính dễ tiếp cận của bộ công cụ.
Lợi thế của Ultralytics
Trong khi các kho lưu trữ nghiên cứu gốc cho các mô hình như YOLOv9 Vì chúng là những thành phần cơ bản, nên chúng thường đi kèm với ma trận phụ thuộc phức tạp và các đoạn mã mẫu rườm rà. API Python Ultralytics hoàn toàn loại bỏ sự phức tạp này. Với Ultralytics Trong hệ sinh thái này, bạn có thể đào tạo, đánh giá và xuất cả hai. YOLOv5 Và YOLOv9 Với cú pháp thống nhất, giống hệt nhau.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")
Cách tiếp cận API đơn này mang lại tính linh hoạt vượt trội, hỗ trợ không chỉ phát hiện đối tượng mà còn ước lượng tư thế và hộp giới hạn định hướng (OBB) tùy thuộc vào mô hình được chọn. Hơn nữa, khả năng tích hợp mạnh mẽ với các công cụ như Comet ML và Weights & Biases được tích hợp trực tiếp vào vòng lặp huấn luyện.
Các trường hợp sử dụng lý tưởng và ứng dụng thực tế
Việc lựa chọn giữa các kiến trúc này phụ thuộc phần lớn vào các hạn chế của phần cứng và độ chính xác cần thiết cho lĩnh vực ứng dụng của bạn.
Khi nào nên chọn YOLOv5
YOLOv5 Đây là một cựu chiến binh dày dạn kinh nghiệm, tỏa sáng trong các triển khai ưu tiên tính ổn định, dung lượng bộ nhớ thấp và khả năng tương thích xuất khẩu cực cao.
- Triển khai trên thiết bị di động: Xuất khẩu YOLOv5 đến TFLite hoặc CoreML Việc suy luận trên thiết bị đối với các điện thoại thông minh đời cũ diễn ra vô cùng mượt mà.
- Phần cứng biên thế hệ cũ: Dành cho các thiết bị như Raspberry Pi hoặc các thế hệ đầu tiên. NVIDIA Jetson Nanos, sự tích chập đơn giản của YOLOv5 Đảm bảo tốc độ khung hình ổn định cho các ứng dụng như quản lý bãi đỗ xe thông minh .
- Tạo mẫu nhanh: Sự sẵn có rộng rãi của các hướng dẫn cộng đồng, trọng số được huấn luyện trước tùy chỉnh và khả năng tương thích với tập dữ liệu khổng lồ khiến nó trở thành cách nhanh nhất để xác thực bằng chứng về tính khả thi của ý tưởng.
Khi nào nên chọn YOLOv9
YOLOv9 Phương pháp này lý tưởng cho những trường hợp cần nắm bắt các chi tiết phức tạp và giảm thiểu sai sót, ngay cả khi nó đòi hỏi chi phí tính toán cao hơn một chút.
- Ảnh chụp từ trên không và vệ tinh: Khung PGI rất giỏi trong việc duy trì độ chính xác của các vật thể nhỏ, giúp YOLOv9 Tuyệt vời cho việc giám sát nông nghiệp bằng máy bay không người lái.
- Chẩn đoán hình ảnh y tế: Khi phát hiện những bất thường hoặc tổn thương nhỏ nhất trong các bản quét độ phân giải cao, dòng chảy gradient chính xác của GELAN mang lại lợi thế cần thiết trong việc tái khám.
- Phân tích bán lẻ cao cấp: Việc theo dõi các sản phẩm trùng lặp trên các kệ hàng dày đặc mang lại lợi ích đáng kể từ... YOLOv9 Khả năng lưu giữ tính năng vượt trội của nó.
Mở rộng tầm nhìn của bạn
Trong khi so sánh YOLOv5 Và YOLOv9 Bài viết này cung cấp cái nhìn rõ ràng về sự phát triển của các kiến trúc từ năm 2020 đến năm 2024, cho thấy lĩnh vực AI đang phát triển nhanh hơn bao giờ hết. Đối với các nhà phát triển đang tìm kiếm hiệu năng tối ưu nhất, việc khám phá các mô hình YOLO26 mới nhất rất được khuyến khích. Bằng cách thay thế phương pháp loại bỏ cực đại không tương thích (Non-Maximum Suppression) truyền thống bằng thiết kế NMS -Free từ đầu đến cuối và sử dụng trình tối ưu hóa MuSGD tiên tiến, YOLO26 thu hẹp khoảng cách giữa độ chính xác ở cấp độ nghiên cứu và tốc độ ở cấp độ sản xuất. Với tính năng loại bỏ DFL (Distribution Focal Loss - loại bỏ tổn hao tiêu điểm phân tán để đơn giản hóa việc xuất dữ liệu và cải thiện khả năng tương thích với thiết bị biên/công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , lý tưởng cho điện toán biên. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát được cải tiến với những cải thiện đáng kể trong nhận dạng vật thể nhỏ, rất quan trọng đối với IoT, robot và hình ảnh trên không.
Bạn cũng có thể quan tâm đến việc so sánh các kiến trúc này với các mô hình tiên tiến khác như RT-DETR hoặc YOLO11 có khả năng cao. Sử dụng kiến trúc thống nhất Ultralytics Khung làm việc này đảm bảo rằng bất kể bạn chọn mô hình nào, quy trình phát triển của bạn vẫn luôn gọn gàng, hiệu quả và sẵn sàng mở rộng.