YOLOv9 So sánh với YOLOX: Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại
Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển nhanh chóng trong các kiến trúc phát hiện đối tượng thời gian thực. Hướng dẫn này cung cấp sự so sánh toàn diện giữa YOLOv9 và YOLOX , phân tích những cải tiến về kiến trúc, các chỉ số hiệu suất và phương pháp huấn luyện của chúng. Cho dù bạn đang xây dựng các ứng dụng thông minh cho AI trong sản xuất hay đang khám phá mô hình dự đoán , việc hiểu rõ các mô hình này sẽ giúp bạn đưa ra quyết định sáng suốt cho lần triển khai tiếp theo.
Đổi mới Kiến trúc
YOLOv9: Thông tin Gradient có thể lập trình
YOLOv9 Nó đã tạo ra một sự thay đổi mang tính đột phá bằng cách giải quyết vấn đề tắc nghẽn thông tin vốn có trong các mạng nơ-ron sâu. Những cải tiến cốt lõi của nó bao gồm Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 21 tháng 2, 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
Bằng cách giữ lại dữ liệu đặc trưng quan trọng trong quá trình truyền xuôi, YOLOv9 đảm bảo rằng các gradient được sử dụng để cập nhật trọng số trong quá trình lan truyền ngược vẫn chính xác. Kiến trúc này vượt trội trong trích xuất đặc trưng, làm cho nó có khả năng cao trong việc detect các đối tượng nhỏ trong môi trường phức tạp, chẳng hạn như những gì được tìm thấy trong hình ảnh trên không và quét y tế chi tiết.
YOLOX: Kết nối Nghiên cứu và Công nghiệp
Ra mắt vào giữa năm 2021, YOLOX đã thay đổi... YOLO Chuỗi này hướng tới thiết kế không cần neo. Nó giới thiệu một đầu tách rời, tách biệt các nhiệm vụ phân loại và định vị, và sử dụng chiến lược gán nhãn SimOTA để cải thiện sự hội tụ của quá trình huấn luyện.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày: 18 tháng 7 năm 2021
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
Mặc dù YOLOX là một bước đột phá vào thời điểm đó, đạt được độ chính xác trung bình ( mAP ) xuất sắc và loại bỏ việc điều chỉnh siêu tham số anchor box, nhưng kiến trúc cơ bản của nó đã bị vượt qua bởi các mạng hiện đại hơn, cân bằng tốt hơn giữa số lượng tham số và khả năng giữ lại đặc trưng.
Tiến hóa không neo
Cả YOLOX và các mô hình Ultralytics mới hơn đều áp dụng thiết kế không neo, giúp giảm độ phức tạp của việc tinh chỉnh siêu tham số và cải thiện khả năng tổng quát hóa trên các tập dữ liệu đa dạng.
Phân tích hiệu suất
Khi so sánh các mô hình này trên toàn hệ máy MS COCO tiêu chuẩn, những tiến bộ trong YOLOv9 trở nên rõ ràng. YOLOv9 Luôn đạt được sự cân bằng tốt hơn giữa độ chính xác và số phép tính FLOPs .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Mặc dù YOLOX cung cấp các phiên bản nhẹ hơn như YOLOX-Nano cho những trường hợp đặc biệt, YOLOv9 Các biến thể này luôn vượt trội hơn các mô hình YOLOX có kích thước tương tự về độ chính xác thuần túy. Ví dụ, YOLOv9m đạt được độ chính xác 51,4%. mAP so với 49,7% của YOLOXl, mặc dù có ít hơn một nửa số tham số (20,0 triệu so với 54,2 triệu).
Lợi thế của Ultralytics
Việc lựa chọn một mô hình không chỉ liên quan đến lý thuyết kiến trúc; hệ sinh thái xung quanh nó quyết định tốc độ phát triển và thành công triển khai. Việc sử dụng YOLOv9 trong hệ sinh thái Ultralytics mang lại sự dễ sử dụng vượt trội và sự hỗ trợ mạnh mẽ từ cộng đồng.
Không giống như các kho lưu trữ nghiên cứu gốc cũ hơn, Ultralytics khung này cung cấp một giải pháp thống nhất. Python API này đơn giản hóa các quy trình phức tạp. Quá trình huấn luyện yêu cầu bộ nhớ GPU thấp hơn đáng kể so với nhiều giải pháp thay thế khác, mang lại hiệu quả huấn luyện vượt trội.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")
Với khả năng hỗ trợ tích hợp cho nhiều tác vụ, bao gồm phát hiện đối tượng , phân đoạn đối tượng và ước tính tư thế , bạn có thể nhanh chóng điều chỉnh giải pháp thị giác máy tính của mình mà không cần thay đổi toàn bộ mã nguồn.
Xuất khẩu liền mạch
Triển khai ra thiết bị biên? Ultralytics giúp đơn giản hóa việc xuất các mô hình đã huấn luyện của bạn sang các định dạng được tối ưu hóa cao như ONNX, TensorRT và OpenVINO chỉ với một lệnh duy nhất.
Các ứng dụng thực tế
Những ưu điểm riêng biệt của các mô hình này giúp chúng phù hợp với các ứng dụng thực tế khác nhau:
Phân tích bán lẻ tốc độ cao
Đối với môi trường bán lẻ hiện đại yêu cầu nhận diện sản phẩm theo thời gian thực, YOLOv9 thể hiện sự vượt trội. Khả năng lưu giữ các chi tiết đặc trưng phức tạp khiến nó hoàn toàn phù hợp cho việc triển khai AI trong bán lẻ, nơi cần phân biệt giữa các sản phẩm trông giống nhau trên kệ hàng đông đúc.
Triển khai Edge cũ
Trong những trường hợp bị ràng buộc bởi các hạn chế phần cứng nghiêm ngặt hoặc các NPU chuyên dụng gặp khó khăn với các khối tổng hợp mới hơn, YOLOX-Nano đôi khi có thể tìm được chỗ đứng. Các mẫu tích chập thuần túy, được tối giản của nó đôi khi được ưa chuộng cho các bộ vi điều khiển có tài nguyên cực kỳ hạn chế.
Robot học Tự hành
Đối với điều hướng robot, việc bỏ sót các vật thể nhỏ có thể gây ra hậu quả thảm khốc. Kiến trúc GELAN bên trong YOLOv9 Đảm bảo rằng các đặc điểm của các vật cản nhỏ, ở xa không bị mất đi trong các lớp sâu của mạng, vượt trội hơn các mô hình cũ trong các môi trường an toàn quan trọng như trí tuệ nhân tạo trong các ứng dụng ô tô .
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa YOLOv9 và YOLOX phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOv9
YOLOv9 là một lựa chọn tốt cho:
- Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
- Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
- Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.
Khi nào nên chọn YOLOX
YOLOX được khuyên dùng cho:
- Nghiên cứu detect không Anchor: Nghiên cứu học thuật sử dụng kiến trúc không anchor, gọn gàng của YOLOX làm cơ sở để thử nghiệm các đầu detect mới hoặc hàm mất mát.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ, nơi dấu chân cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ huấn luyện.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Tương lai: Hãy cùng bước vào YOLO26
Trong khi YOLOv9 Đây là một cột mốc ấn tượng, cho thấy nhu cầu của môi trường sản xuất liên tục đẩy các giới hạn lên cao. YOLO26 mới ra mắt đại diện cho tiêu chuẩn tối thượng cho trí tuệ nhân tạo thị giác hiện đại.
YOLO26 hoàn toàn đổi mới quy trình triển khai với thiết kế không cần NMS Node-Maximum Suppression) từ đầu đến cuối . Bằng cách loại bỏ nhu cầu về việc loại bỏ các xung đột không tối đa phức tạp trong quá trình xử lý hậu kỳ, nó mang lại độ trễ suy luận thấp hơn đáng kể.
Hơn nữa, YOLO26 tích hợp bộ tối ưu hóa MuSGD đột phá, một sự kết hợp giữa... SGD và Muon, công nghệ kế thừa những cải tiến từ quá trình huấn luyện LLM để mang lại khả năng hội tụ cực kỳ ổn định và nhanh chóng. Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các phiên bản tiền nhiệm, trở thành lựa chọn tốt nhất cho các thiết bị biên và triển khai trong doanh nghiệp. Với những cải tiến đáng kể trong nhận dạng vật thể nhỏ thông qua ProgLoss và STAL, YOLO26 đã thay thế hiệu quả cả YOLOX và... YOLOv9 .
Đối với các kỹ sư đang tìm hiểu về các kiến trúc hiện đại, chúng tôi cũng khuyên bạn nên xem xét YOLO11 và RT-DETR như những lựa chọn thay thế mạnh mẽ. Ultralytics bộ sản phẩm. Hãy đảm bảo dự án của bạn có khả năng đáp ứng nhu cầu trong tương lai bằng cách tận dụng hiệu năng vượt trội của các mẫu máy mới nhất trên... Ultralytics Nền tảng.