YOLOv9 so với YOLOv6 -3.0: Phân tích đổi mới kiến trúc và hiệu suất
Lĩnh vực phát hiện đối tượng thời gian thực đang thay đổi nhanh chóng, với các nhà nghiên cứu liên tục nỗ lực vượt qua giới hạn về độ chính xác và hiệu quả. Hai cột mốc quan trọng trong quá trình phát triển này là YOLOv9 , được Viện Hàn lâm Khoa học Trung Quốc giới thiệu vào đầu năm 2024, và YOLOv6 , một phiên bản mạnh mẽ được Meituan phát hành năm 2023. Mặc dù cả hai mô hình đều hướng đến giải quyết các thách thức trong công nghiệp, nhưng chúng lại áp dụng các phương pháp kiến trúc khác nhau về cơ bản để đạt được hiệu suất cao.
Triết lý kiến trúc
Sự khác biệt cốt lõi giữa hai mô hình này nằm ở cách chúng quản lý luồng thông tin và trích xuất đặc trưng trong toàn bộ mạng nơ-ron .
YOLOv9 Khôi phục thông tin bị mất
YOLOv9 giải quyết một vấn đề cơ bản trong học sâu: mất mát thông tin khi dữ liệu lan truyền qua các lớp sâu. Các tác giả, Chien-Yao Wang và Hong-Yuan Mark Liao, đã giới thiệu Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) . PGI cung cấp một nhánh giám sát phụ trợ đảm bảo thông tin ngữ nghĩa quan trọng được bảo toàn, cho phép mô hình học được các đặc trưng mạnh mẽ hơn mà không làm tăng chi phí suy luận.
Ngoài ra, YOLOv9 Sử dụng kiến trúc GELAN (Generalized Efficient Layer Aggregation Network) . GELAN tối ưu hóa việc sử dụng tham số, kết hợp thế mạnh của CSPNet và ELAN để đạt được độ chính xác vượt trội với số phép tính FLOP ít hơn so với các thế hệ trước.
YOLOv6-3.0: Tối ưu hóa công nghiệp
YOLOv6 , được phát triển bởi nhóm thị giác máy tính của Meituan, tập trung mạnh vào việc triển khai thực tiễn trong công nghiệp. Được mệnh danh là "Tái khởi động quy mô lớn", phiên bản này giới thiệu tính năng Huấn luyện hỗ trợ neo (Anchor-Aided Training - AAT) , kết hợp lợi ích của các bộ dò dựa trên neo và không dựa trên neo để ổn định quá trình huấn luyện. Nó cũng có thiết kế cổ được cải tiến sử dụng Ghép nối hai chiều (Bi-directional Concatenation - BiC) để cải thiện khả năng kết hợp đặc trưng.
YOLOv6 Nó nổi tiếng với việc sử dụng rộng rãi phương pháp tái tham số hóa kiểu RepVGG , cho phép các cấu trúc huấn luyện phức tạp được thu gọn thành các khối suy luận đơn giản hơn và nhanh hơn.
So sánh hiệu suất
Khi so sánh hiệu năng, YOLOv9 Nhìn chung, GELAN thể hiện độ chính xác trung bình ( mAP ) cao hơn với chi phí tính toán tương tự hoặc thấp hơn. Kiến trúc GELAN cho phép YOLOv9 Với khả năng xử lý hình ảnh hiệu quả cao, đây là lựa chọn đáng gờm cho các tác vụ đòi hỏi độ chính xác cao.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Trong khi YOLOv6 -3.0 thể hiện khả năng cạnh tranh TensorRT tốc độ—chủ yếu nhờ thiết kế xương sống thân thiện với phần cứng— YOLOv9 Thông thường, YOLOv9m đạt được độ chính xác cao hơn trên mỗi tham số. Ví dụ, YOLOv9m vượt trội hơn YOLOv6 -3.0m về độ chính xác (51,4% so với 50,0%) trong khi sử dụng ít tham số hơn đáng kể (20,0 triệu so với 34,9 triệu).
Hệ sinh thái và Dễ sử dụng
Một trong những yếu tố quan trọng nhất đối với các nhà phát triển là hệ sinh thái xung quanh mô hình. Đây chính là điểm mà nền tảng và thư viện Ultralytics mang lại lợi thế vượt trội.
Lợi thế của Ultralytics
YOLOv9 Nó được tích hợp hoàn toàn vào hệ sinh thái Ultralytics , cung cấp API thống nhất giúp đơn giản hóa toàn bộ vòng đời vận hành máy học (MLOps) .
- Huấn luyện đơn giản: Bạn có thể huấn luyện một YOLOv9 Xây dựng mô hình dựa trên dữ liệu tùy chỉnh chỉ với vài dòng mã. Python .
- Hiệu quả bộ nhớ: Ultralytics Các mô hình được tối ưu hóa để giảm thiểu việc sử dụng bộ nhớ GPU trong quá trình huấn luyện, ngăn ngừa các lỗi hết bộ nhớ (OOM) thường gặp ở các kho lưu trữ khác.
- Tính linh hoạt: Hệ sinh thái hỗ trợ xuất dễ dàng sang các định dạng như ONNX , OpenVINO và TensorRT .
Quy trình làm việc tinh gọn
Sử dụng Ultralytics Tiết kiệm đáng kể thời gian kỹ thuật so với việc cấu hình các kho lưu trữ nghiên cứu độc lập.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Ngược lại, việc sử dụng YOLOv6 Quá trình này thường bao gồm việc sao chép kho lưu trữ Meituan cụ thể, thiết lập môi trường chuyên dụng và quản lý thủ công các tệp cấu hình cũng như các quy trình tăng cường dữ liệu .
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào những ràng buộc cụ thể của môi trường triển khai của bạn.
Các kịch bản độ chính xác cao ( YOLOv9 )
YOLOv9 Khả năng lưu giữ thông tin ngữ nghĩa của nó khiến nó trở nên lý tưởng cho các nhiệm vụ phát hiện đầy thách thức, nơi mà các chi tiết nhỏ đều quan trọng.
- Hình ảnh y tế: Trong các tác vụ như phát hiện khối u , kiến trúc PGI giúp bảo toàn các đặc điểm mờ nhạt mà nếu không sẽ bị mất đi trong các lớp mạng sâu.
- Giám sát trên không: Dùng để phát hiện các vật thể nhỏ như xe cộ hoặc người từ hình ảnh chụp bằng máy bay không người lái . YOLOv9 Khả năng ghi nhớ tính năng được cải tiến giúp nâng cao tỷ lệ nhớ lại.
Tự động hóa công nghiệp ( YOLOv6 -3.0)
YOLOv6 Được thiết kế đặc biệt cho các ứng dụng công nghiệp, nơi phần cứng cố định và hiệu suất là yếu tố quan trọng hàng đầu.
- Dây chuyền sản xuất: Trong môi trường được kiểm soát chặt chẽ như sản xuất pin , nơi camera kiểm tra các bộ phận trên băng chuyền, thì... TensorRT tối ưu hóa của YOLOv6 có thể rất hiệu quả.
Nhìn về phía trước: Sức mạnh của YOLO26
Trong khi YOLOv9 Và YOLOv6 -3.0 là những mô hình xuất sắc, lĩnh vực này vẫn tiếp tục phát triển. YOLO26 mới nhất đại diện cho công nghệ tiên tiến nhất hiện nay dành cho các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính dễ sử dụng.
YOLO26 giới thiệu một số tính năng đột phá:
- Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ Non-Maximum Suppression ( NMS ) , YOLO26 đơn giản hóa quy trình triển khai và giảm sự biến động về độ trễ.
- Bộ tối ưu hóa MuSGD: Là sự kết hợp giữa SGD và Muon, bộ tối ưu hóa này mang lại những cải tiến về độ ổn định được lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn (LLM).
- Hiệu quả được nâng cao: Với việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL) và các tối ưu hóa khác, YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% , lý tưởng cho các thiết bị biên như Raspberry Pi .
- Tính linh hoạt trong tác vụ: Ngoài khả năng phát hiện, YOLO26 còn cung cấp những cải tiến chuyên biệt cho việc ước lượng tư thế (sử dụng ước lượng logarit xác suất dư) và phân đoạn .
Kết luận
Cả YOLOv9 và YOLOv6 đều cung cấp những khả năng ấn tượng. YOLOv6 -3.0 vẫn là ứng cử viên nặng ký cho các hạng mục cụ thể TensorRT - tối ưu hóa quy trình làm việc công nghiệp. Tuy nhiên, đối với hầu hết các nhà nghiên cứu và nhà phát triển, YOLOv9 cung cấp hiệu quả tham số và độ chính xác vượt trội. Hơn nữa, việc là một phần của hệ sinh thái Ultralytics đảm bảo hỗ trợ lâu dài, dễ dàng truy cập vào các trọng số được huấn luyện trước và lộ trình nâng cấp liền mạch lên các kiến trúc mới hơn như YOLO26.
Tài liệu tham khảo
- YOLOv9 : Wang, C.-Y., & Liao, H.-YM (2024). " YOLOv9 "Học những gì bạn muốn học bằng cách sử dụng thông tin độ dốc có thể lập trình." arXiv:2402.13616 .
- YOLOv6 v3.0: Li, C., và cộng sự. (2023). " YOLOv6 v3.0: Tái nạp toàn diện." arXiv:2301.05586 .
- Tài liệu Ultralytics : ultralytics