YOLOv9 so với YOLO11 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại
Sự phát triển nhanh chóng của thị giác máy tính đã liên tục đẩy lùi giới hạn của những gì có thể đạt được trong việc phát hiện đối tượng theo thời gian thực. Khi so sánh các kiến trúc hàng đầu, YOLOv9 và Ultralytics YOLO11 nổi bật như những bước tiến vượt bậc, mỗi kiến trúc phục vụ các nhu cầu kỹ thuật riêng biệt. YOLOv9 đã giới thiệu những phương pháp mới để bảo toàn dòng gradient trong quá trình huấn luyện mạng nơ-ron sâu, đồng thời YOLO11 Đã tạo nên một cuộc cách mạng trong hệ sinh thái thị giác đa năng với hiệu quả, tính linh hoạt và sự dễ sử dụng vượt trội.
Bản so sánh kỹ thuật toàn diện này phân tích kiến trúc, các chỉ số hiệu năng, yêu cầu bộ nhớ và các kịch bản triển khai lý tưởng của chúng để giúp bạn lựa chọn mô hình tối ưu cho dự án AI tiếp theo của mình.
Đảm bảo tính bền vững cho dự án của bạn với YOLO26
Trong khi YOLOv9 Và YOLO11 Những mẫu xe xuất sắc đã được khẳng định, nhưng YOLO26 mới ra mắt đánh dấu bước tiến tiếp theo. Nó sở hữu những tính năng hoàn hảo từ đầu đến cuối. NMS - Thiết kế đơn giản, không cần cấu hình phức tạp, giúp triển khai dễ dàng hơn tới 43%. CPU và bộ tối ưu hóa MuSGD tiên tiến giúp hội tụ nhanh chóng. Đối với tất cả các dự án sản xuất mới, YOLO26 được đánh giá cao.
Thông số kỹ thuật và tác giả
Việc hiểu rõ nguồn gốc của các mô hình này cung cấp bối cảnh thiết yếu cho các quyết định về kiến trúc và sự phụ thuộc vào khung phần mềm của chúng.
YOLOv9
YOLOv9 Tập trung mạnh vào khía cạnh học thuật trong việc giải quyết các nút thắt cổ chai thông tin trong học sâu, ưu tiên tối đa độ chính xác của các đặc trưng thông qua các khối mạng tùy chỉnh.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 21 tháng 2, 2024
- Arxiv:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
Ultralytics YOLO11
YOLO11 Được thiết kế từ đầu dành cho môi trường sản xuất, tập trung vào sự cân bằng giữa độ chính xác hàng đầu, tốc độ triển khai thực tế và tính linh hoạt đa nhiệm.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 27 tháng 9 năm 2024
- GitHub:https://github.com/ultralytics/ultralytics
Đổi mới Kiến trúc
Thông tin về độ dốc có thể lập trình trong YOLOv9
YOLOv9 Giới thiệu khái niệm Thông tin Gradient Lập trình được (PGI) cùng với Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN). Khi mạng nơ-ron trở nên sâu hơn, chúng thường gặp phải tình trạng tắc nghẽn thông tin, trong đó các chi tiết quan trọng bị mất đi trong quá trình truyền tiến. PGI giải quyết vấn đề này bằng cách cung cấp các bản cập nhật gradient đáng tin cậy, giữ lại thông tin không gian chi tiết, trong khi GELAN tối đa hóa hiệu quả tham số. Điều này làm cho YOLOv9 đặc biệt giỏi trong các tác vụ đòi hỏi độ chính xác đặc trưng cao, mặc dù nó dựa trên phương pháp loại bỏ cực đại không chuẩn (Non-Maximum Suppression) NMS ) trong quá trình xử lý hậu kỳ, điều này có thể gây ra độ trễ trên các thiết bị biên.
Tối ưu hóa hiệu quả trong YOLO11
YOLO11 Nền tảng này được xây dựng dựa trên nhiều năm nghiên cứu cơ bản để mang lại một kiến trúc được tối ưu hóa cao. Nó cải tiến so với các phiên bản trước bằng cách giảm chi phí tính toán trong khi tối đa hóa việc trích xuất đặc trưng. Không giống như các phương pháp truyền thống NMS các đường ống bị tắc nghẽn CPU hiệu suất, YOLO11 Sử dụng các đầu dò được tinh chỉnh, đạt được sự cân bằng đáng kinh ngạc giữa độ trễ và độ chính xác. Hơn nữa, YOLO11 So với các mô hình Transformer nặng nề, vốn thường huấn luyện chậm hơn và yêu cầu lượng bộ nhớ khổng lồ, Transformer có ưu điểm là sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận mô hình. CUDA ký ức.
So sánh Các chỉ số Hiệu suất
Khi so sánh các mô hình này trên tập dữ liệu COCO tiêu chuẩn, cả hai đều thể hiện khả năng đáng kinh ngạc, nhưng lại xuất hiện sự đánh đổi giữa số lượng tham số thô và tốc độ hoạt động.
Dưới đây là bảng phân tích chi tiết các chỉ số hiệu suất của YOLO .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Phân tích kết quả
- Tốc độ và hiệu quả phần cứng: YOLO11 luôn vượt trội YOLOv9 về tốc độ suy luận. Ví dụ, YOLO11n đạt được tốc độ đáng kinh ngạc 1,5ms trên NVIDIA T4. GPU Sử dụng TensorRT , điều này khiến nó trở nên vô cùng khả thi cho các quy trình xử lý thời gian thực nghiêm ngặt.
- Yêu cầu về máy tính: YOLO11 Các mô hình này thường yêu cầu ít phép tính FLOP hơn (ví dụ: 68.0B cho YOLO11m so với 76.3B cho YOLOv9m), dẫn đến mức tiêu thụ điện năng thấp hơn trên các thiết bị biên chạy bằng pin như Raspberry Pi hoặc phần cứng di động.
- Độ chính xác tương đương: Mặc dù YOLOv9e nhỉnh hơn YOLO11x một chút về độ chính xác tuyệt đối. mAP (55,6 so với 54,7), YOLO11 Đạt độ chính xác cao nhất với độ trễ thấp hơn đáng kể (11,3ms so với 16,77ms), thể hiện sự cân bằng hiệu năng tốt hơn cho các triển khai thực tế.
Hệ sinh thái và Dễ sử dụng
Mặc dù các chỉ số thô rất quan trọng, nhưng hệ sinh thái của nền tảng thường quyết định sự thành công của dự án. Đây chính là điểm mạnh thực sự Ultralytics .
Bản gốc YOLOv9 Kho lưu trữ này rất chuyên biệt, cung cấp các giải pháp nghiên cứu tiên tiến. Tuy nhiên, Nền tảng Ultralytics và gói mã nguồn mở tương ứng của nó mang đến trải nghiệm người dùng được tối ưu hóa, API đơn giản và tài liệu đầy đủ, giúp giảm đáng kể thời gian đưa sản phẩm ra thị trường.
Tính linh hoạt đa nhiệm
YOLOv9 Tập trung chủ yếu vào việc phát hiện khung bao quanh. Ngược lại, YOLO11 là một công cụ đa nhiệm mạnh mẽ, thống nhất, hỗ trợ đầy đủ các chức năng sau:
- Phân đoạn thực thể
- Ước tính tư thế
- Hộp giới hạn xoay (Oriented Bounding Boxes - OBB)
- Phân loại hình ảnh
Triển khai liền mạch
Sử dụng Ultralytics Hệ sinh thái này cho phép các nhà phát triển dễ dàng xuất mô hình sang nhiều định dạng khác nhau chỉ với một dòng mã Python . Cho dù nhắm mục tiêu vào ONNX , OpenVINO , TFLite hay CoreML , quá trình chuyển đổi từ huấn luyện sang sản xuất đều rất dễ dàng.
from ultralytics import YOLO
# Load a highly efficient YOLO11 model
model = YOLO("yolo11n.pt")
# Train rapidly on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to OpenVINO for Intel CPU acceleration
model.export(format="openvino")
Các trường hợp sử dụng lý tưởng
Khi nào nên sử dụng YOLOv9
YOLOv9 Đây là một công cụ tuyệt vời cho môi trường nghiên cứu hoặc các tình huống ưu tiên độ chính xác cao về chi tiết, nơi độ trễ phần cứng không phải là yếu tố hạn chế chính. Kiến trúc GELAN của nó có thể mang lại lợi thế rất lớn trong phân tích hình ảnh y tế, nơi việc phát hiện những biến đổi nhỏ nhất của pixel là vô cùng quan trọng.
Tại sao YOLO11 là sự lựa chọn ưu việt
Đối với các nhà phát triển, kỹ sư và đội ngũ sản xuất, YOLO11 là lựa chọn rất được khuyến nghị . Nó hoạt động xuất sắc trong các môi trường đòi hỏi tốc độ cao và khả năng triển khai mở rộng:
- Phân tích bán lẻ thông minh: Theo dõi sản phẩm và khách hàng một cách liền mạch bằng bộ xử lý tiêu chuẩn Intel .
- Máy bay không người lái tự hành: Kiến trúc có hiệu năng thấp giúp tiết kiệm pin trong khi vẫn đảm bảo khả năng phát hiện vật thể nhỏ mạnh mẽ.
- Dự án động: Các quy trình công việc có thể bắt đầu bằng việc phát hiện nhưng sau đó phát triển để yêu cầu ước lượng tư thế hoặc phân đoạn.
Hướng tới tương lai: Bước tiến hóa tiếp theo
Trong khi YOLO11 Đại diện cho công nghệ tiên tiến nhất trong thế hệ của nó, lĩnh vực thị giác máy tính vẫn tiếp tục phát triển. Người dùng muốn khám phá những giới hạn của trí tuệ nhân tạo cũng nên hướng đến YOLO26 .
Tiên phong trong giải pháp toàn diện từ đầu đến cuối NMS -Thiết kế không cần tài nguyên được khám phá lần đầu trong YOLOv10 , YOLO26 giới thiệu trình tối ưu hóa MuSGD (một sự kết hợp của...) SGD và Muon) mang lại sự ổn định huấn luyện chưa từng có. Với việc loại bỏ Distribution Focal Loss (DFL) để đơn giản hóa quá trình xuất dữ liệu, cùng với các cơ chế mất mát tiên tiến như ProgLoss và STAL, YOLO26 đạt được tốc độ nhanh hơn tới 43%. CPU suy luận. Đối với các dự án hiện đại, nó cung cấp sự kết hợp tối ưu giữa đổi mới học thuật và độ tin cậy sẵn sàng cho sản xuất. Hơn nữa, các nhóm nâng cấp từ các hệ thống cũ như Ultralytics YOLOv8 sẽ thấy quá trình chuyển đổi sang YOLO26 hoặc YOLO11 hoàn toàn không ma sát nhờ vào sự thống nhất. Ultralytics API.