YOLOv9 So sánh với YOLOX: Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại
Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển nhanh chóng trong các kiến trúc phát hiện đối tượng thời gian thực. Hướng dẫn này cung cấp sự so sánh toàn diện giữa YOLOv9 và YOLOX , phân tích những cải tiến về kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng. Cho dù bạn đang xây dựng các ứng dụng thông minh cho AI trong sản xuất hay đang khám phá mô hình dự đoán , việc hiểu rõ các mô hình này sẽ giúp bạn đưa ra quyết định sáng suốt cho lần triển khai tiếp theo.
Đổi mới Kiến trúc
YOLOv9: Thông tin Gradient có thể lập trình
YOLOv9 Nó đã tạo ra một sự thay đổi mang tính đột phá bằng cách giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng nơ-ron sâu. Những cải tiến cốt lõi của nó bao gồm Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 21 tháng 2, 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
Bằng cách giữ lại dữ liệu đặc trưng quan trọng trong quá trình truyền tiến, YOLOv9 Điều này đảm bảo rằng các gradient được sử dụng để cập nhật trọng số trong quá trình lan truyền ngược vẫn chính xác. Kiến trúc này vượt trội trong việc trích xuất đặc trưng , giúp nó có khả năng phát hiện các vật thể nhỏ trong môi trường phức tạp, chẳng hạn như trong ảnh chụp từ trên không và các bản quét y tế chi tiết.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
Ra mắt vào giữa năm 2021, YOLOX đã thay đổi... YOLO Chuỗi này hướng tới thiết kế không cần neo. Nó giới thiệu một đầu tách rời, tách biệt các nhiệm vụ phân loại và định vị, và sử dụng chiến lược gán nhãn SimOTA để cải thiện sự hội tụ của quá trình huấn luyện.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 18 tháng 7 năm 2021
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
Mặc dù YOLOX là một bước đột phá vào thời điểm đó, đạt được độ chính xác trung bình ( mAP ) xuất sắc và loại bỏ việc điều chỉnh siêu tham số anchor box, nhưng kiến trúc cơ bản của nó đã bị vượt qua bởi các mạng hiện đại hơn, cân bằng tốt hơn giữa số lượng tham số và khả năng giữ lại đặc trưng.
Tiến hóa không cần neo
Cả YOLOX và các phiên bản mới hơn Ultralytics Các mô hình này áp dụng thiết kế không cần neo, giúp giảm độ phức tạp của việc điều chỉnh siêu tham số và cải thiện khả năng khái quát hóa trên các tập dữ liệu đa dạng.
Phân tích hiệu suất
Khi so sánh các mô hình này trên toàn hệ máy MS COCO tiêu chuẩn, những tiến bộ trong YOLOv9 trở nên rõ ràng. YOLOv9 Luôn đạt được sự cân bằng tốt hơn giữa độ chính xác và số phép tính FLOPs .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Mặc dù YOLOX cung cấp các phiên bản nhẹ hơn như YOLOX-Nano cho những trường hợp đặc biệt, YOLOv9 Các biến thể này luôn vượt trội hơn các mô hình YOLOX có kích thước tương tự về độ chính xác thuần túy. Ví dụ, YOLOv9m đạt được độ chính xác 51,4%. mAP so với 49,7% của YOLOXl, mặc dù có ít hơn một nửa số tham số (20,0 triệu so với 54,2 triệu).
Lợi thế của Ultralytics
Việc lựa chọn mô hình không chỉ liên quan đến lý thuyết kiến trúc; hệ sinh thái xung quanh nó quyết định tốc độ phát triển và sự thành công khi triển khai. Sử dụng YOLOv9 Hệ sinh thái Ultralytics mang đến sự dễ sử dụng vượt trội và sự hỗ trợ cộng đồng mạnh mẽ.
Không giống như các kho lưu trữ nghiên cứu gốc cũ hơn, Ultralytics khung này cung cấp một giải pháp thống nhất. Python API này đơn giản hóa các quy trình phức tạp. Quá trình huấn luyện yêu cầu bộ nhớ GPU thấp hơn đáng kể so với nhiều giải pháp thay thế khác, mang lại hiệu quả huấn luyện vượt trội.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")
Với khả năng hỗ trợ tích hợp cho nhiều tác vụ, bao gồm phát hiện đối tượng , phân đoạn đối tượng và ước tính tư thế , bạn có thể nhanh chóng điều chỉnh giải pháp thị giác máy tính của mình mà không cần thay đổi toàn bộ mã nguồn.
Xuất khẩu liền mạch
Triển khai ở vùng biên? Ultralytics Giúp bạn dễ dàng xuất các mô hình đã được huấn luyện sang các định dạng được tối ưu hóa cao như ONNX , TensorRT và... OpenVINO Chỉ với một lệnh duy nhất.
Các ứng dụng thực tế
Những ưu điểm riêng biệt của các mô hình này giúp chúng phù hợp với các ứng dụng thực tế khác nhau:
Phân tích bán lẻ tốc độ cao
Đối với môi trường bán lẻ hiện đại yêu cầu nhận diện sản phẩm theo thời gian thực, YOLOv9 thể hiện sự vượt trội. Khả năng lưu giữ các chi tiết đặc trưng phức tạp khiến nó hoàn toàn phù hợp cho việc triển khai AI trong bán lẻ, nơi cần phân biệt giữa các sản phẩm trông giống nhau trên kệ hàng đông đúc.
Triển khai Edge cũ
Trong những trường hợp bị ràng buộc bởi các hạn chế phần cứng nghiêm ngặt hoặc các NPU chuyên dụng gặp khó khăn với các khối tổng hợp mới hơn, YOLOX-Nano đôi khi có thể tìm được chỗ đứng. Các mẫu tích chập thuần túy, được tối giản của nó đôi khi được ưa chuộng cho các bộ vi điều khiển có tài nguyên cực kỳ hạn chế.
Robot tự hành
Đối với điều hướng robot, việc bỏ sót các vật thể nhỏ có thể gây ra hậu quả thảm khốc. Kiến trúc GELAN bên trong YOLOv9 Đảm bảo rằng các đặc điểm của các vật cản nhỏ, ở xa không bị mất đi trong các lớp sâu của mạng, vượt trội hơn các mô hình cũ trong các môi trường an toàn quan trọng như trí tuệ nhân tạo trong các ứng dụng ô tô .
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOv9 Việc lựa chọn YOLOX phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv9
YOLOv9 là một lựa chọn tốt cho:
- Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến trúc.
Khi nào nên chọn YOLOX
YOLOX được khuyên dùng cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Tương lai: Hãy cùng bước vào YOLO26
Trong khi YOLOv9 Đây là một cột mốc ấn tượng, cho thấy nhu cầu của môi trường sản xuất liên tục đẩy các giới hạn lên cao. YOLO26 mới ra mắt đại diện cho tiêu chuẩn tối thượng cho trí tuệ nhân tạo thị giác hiện đại.
YOLO26 hoàn toàn đổi mới quy trình triển khai với thiết kế không cần NMS Node-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ nhu cầu về việc loại bỏ các xung đột không tối đa phức tạp trong quá trình xử lý hậu kỳ, nó mang lại độ trễ suy luận thấp hơn đáng kể.
Hơn nữa, YOLO26 tích hợp bộ tối ưu hóa MuSGD đột phá, một sự kết hợp giữa... SGD và Muon, công nghệ kế thừa những cải tiến từ quá trình huấn luyện LLM để mang lại khả năng hội tụ cực kỳ ổn định và nhanh chóng. Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm, trở thành lựa chọn tốt nhất cho các thiết bị biên và triển khai trong doanh nghiệp. Với những cải tiến đáng kể trong nhận dạng vật thể nhỏ thông qua ProgLoss và STAL, YOLO26 đã thay thế hiệu quả cả YOLOX và... YOLOv9 .
Đối với các kỹ sư đang tìm hiểu về các kiến trúc hiện đại, chúng tôi cũng khuyên bạn nên xem xét YOLO11 và RT-DETR như những lựa chọn thay thế mạnh mẽ. Ultralytics bộ sản phẩm. Hãy đảm bảo dự án của bạn có khả năng đáp ứng nhu cầu trong tương lai bằng cách tận dụng hiệu năng vượt trội của các mẫu máy mới nhất trên... Ultralytics Nền tảng.