YOLOv9 so với YOLOv7 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại
Sự phát triển của công nghệ phát hiện đối tượng thời gian thực được thúc đẩy bởi nỗ lực không ngừng nhằm cân bằng giữa hiệu quả tính toán và độ chính xác cao. Hai kiến trúc mang tính bước ngoặt trong hành trình này là YOLOv9 Và YOLOv7 Cả hai đều được phát triển bởi các nhà nghiên cứu tại Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan. Trong khi đó, YOLOv7 đã giới thiệu chiếc túi quà tặng miễn phí có thể huấn luyện mang tính cách mạng, phiên bản mới hơn. YOLOv9 Giải quyết trực diện các nút thắt thông tin trong học sâu.
Bản so sánh kỹ thuật toàn diện này sẽ phân tích sự khác biệt về kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng cho cả hai mô hình, giúp các kỹ sư và nhà nghiên cứu học máy lựa chọn công cụ phù hợp cho các quy trình xử lý hình ảnh máy tính của họ.
So sánh hiệu năng và số liệu
Khi so sánh các mô hình này, hiệu năng và hiệu quả thô là những yếu tố quan trọng. Bảng sau đây trình bày chi tiết độ chính xác trung bình (Average Precision) ( mAP ) và các yêu cầu tính toán cho tiêu chuẩn COCO các tiêu chuẩn đánh giá bộ dữ liệu.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Cân bằng hiệu suất
Hãy chú ý cách YOLOv9c đạt được độ chính xác gần như tương đương (53.0). mAP ) như YOLOv7x (53.1) mAP Trong khi đó, số lượng tham số (25,3 triệu so với 71,3 triệu) và phép tính FLOPs lại ít hơn đáng kể. Điều này chứng tỏ sự cải thiện về cân bằng hiệu năng trong các kiến trúc hiện đại.
YOLOv9: Giải quyết nút thắt thông tin
Được giới thiệu vào đầu năm 2024, YOLOv9 Về cơ bản, nó đã thay đổi cách thức mạng nơ-ron sâu lưu giữ dữ liệu trong suốt các lớp của chúng.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 21 tháng 2, 2024
- Nguồn tham khảo: Bài báo trên Arxiv | Kho lưu trữ GitHub
Đổi mới kiến trúc
YOLOv9 Giới thiệu Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) và Thông tin độ dốc lập trình được (PGI). GELAN kết hợp những ưu điểm của CSPNet và ELAN để tối ưu hóa hiệu quả tham số và chi phí tính toán, đảm bảo độ chính xác cao với số lượng tham số ít hơn. PGI là một khung giám sát phụ trợ được thiết kế để ngăn ngừa mất dữ liệu trong các mạng sâu, tạo ra các độ dốc đáng tin cậy để cập nhật trọng số trong quá trình huấn luyện.
Điểm mạnh và hạn chế
Điểm mạnh chính của YOLOv9 Điểm mạnh của nó là khả năng trích xuất các đặc điểm tinh tế mà không cần tốn quá nhiều tài nguyên tính toán, khiến nó cực kỳ hiệu quả cho các tác vụ đòi hỏi độ chính xác cao về đặc điểm, chẳng hạn như phân tích hình ảnh y tế . Tuy nhiên, cấu trúc PGI phức tạp trong quá trình huấn luyện có thể khiến việc tùy chỉnh kiến trúc trở nên khó khăn hơn đối với người mới bắt đầu so với các framework thống nhất hơn.
YOLOv7 Người tiên phong trong việc chia sẻ túi quà miễn phí
Ra mắt năm 2022, YOLOv7 Thiết lập một chuẩn mực mới cho những gì có thể đạt được trên phần cứng dành cho người tiêu dùng, giới thiệu những cải tiến về cấu trúc giúp tăng tốc độ suy luận thời gian thực một cách đáng kể.
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức:Viện Khoa học Thông tin, Academia Sinica
- Ngày: 6 tháng 7 năm 2022
- Nguồn tham khảo: Bài báo trên Arxiv | Kho lưu trữ GitHub
Đổi mới kiến trúc
YOLOv7 Đóng góp cốt lõi của mô hình là Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN). Kiến trúc này cho phép mô hình liên tục học hỏi nhiều đặc điểm đa dạng hơn. Ngoài ra, YOLOv7 Mô hình này sử dụng "túi quà tặng có thể huấn luyện" - các kỹ thuật như tích chập được tham số hóa lại theo kế hoạch và gán nhãn động. Những phương pháp này cải thiện độ chính xác của mô hình trong quá trình huấn luyện mà không làm tăng chi phí suy luận trong quá trình triển khai.
Điểm mạnh và hạn chế
YOLOv7 YOLOv7x được tối ưu hóa cao cho xử lý biên thời gian thực và vẫn là một thành phần thiết yếu trong các hệ thống cũ và môi trường CUDA đời cũ. Hạn chế chính của nó hiện nay là kích thước tham số lớn hơn so với các mô hình mới hơn. Như được thể hiện trong bảng hiệu năng, để đạt được độ chính xác hàng đầu cần mô hình YOLOv7x nặng nề, đòi hỏi lượng bộ nhớ GPU lớn hơn đáng kể so với các kiến trúc hiện đại tương đương.
Cái Ultralytics Ưu điểm: Triển khai đơn giản hóa
Trong khi các kho lưu trữ nghiên cứu ban đầu dành cho YOLOv9 Và YOLOv7 Mặc dù cung cấp nền tảng học thuật xuất sắc, việc triển khai các mô hình này trong môi trường sản xuất có thể phức tạp. Việc tích hợp chúng thông qua... ultralytics gói dịch vụ này mang đến những ưu đãi chưa từng có. Dễ sử dụng.
Bằng cách sử dụng Nền tảng Ultralytics tích hợp, các nhà phát triển được hưởng lợi từ một hệ sinh thái được duy trì tốt với giao diện trực quan. Python API, sự hỗ trợ tích cực từ cộng đồng và khả năng theo dõi thử nghiệm mạnh mẽ.
Đảm bảo tương lai với YOLO26
Nếu bạn đang bắt đầu một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên bạn nên tìm hiểu về YOLO26 mới được phát hành thay vì cả hai. YOLOv9 Và YOLOv7 Được phát hành như một tiêu chuẩn tiên tiến mới nhất, YOLO26 mang đến những cải tiến đột phá:
- Thiết kế không cần NMS từ đầu đến cuối: Loại bỏ quá trình xử lý hậu kỳ Non-Maximum Suppression, giảm đáng kể độ phức tạp và độ trễ khi triển khai.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa cho môi trường điện toán biên , đảm bảo ứng dụng của bạn chạy mượt mà ngay cả khi không có GPU chuyên dụng.
- Bộ tối ưu hóa MuSGD: Một bộ tối ưu hóa lai lấy cảm hứng từ quá trình huấn luyện LLM, mang lại sự hội tụ ổn định cao và giảm thời gian huấn luyện.
- Loại bỏ DFL: Đơn giản hóa việc xuất mô hình bằng cách loại bỏ Suy hao tiêu điểm phân bố (Distribution Focal Loss), tăng cường khả năng tương thích với các thiết bị di động công suất thấp.
- ProgLoss + STAL: Cải thiện đáng kể hiệu suất phát hiện vật thể nhỏ, trở thành lựa chọn hàng đầu cho ảnh chụp từ trên không và giám sát.
Các lựa chọn thay thế phổ biến khác trong hệ sinh thái này bao gồm Ultralytics YOLOv8 và YOLO11 , cả hai đều cung cấp tính linh hoạt cao trong các tác vụ như phân đoạn đối tượng và ước tính tư thế .
Ví dụ triển khai
Việc huấn luyện và xuất bất kỳ kiến trúc nào trong số này đều vô cùng đơn giản với API thống nhất. Đoạn mã bên dưới minh họa đặc tính Hiệu quả huấn luyện được tối ưu hóa của Ultralytics công cụ.
from ultralytics import YOLO
# Initialize YOLOv9 or the recommended YOLO26 model
model = YOLO("yolov9c.pt") # Swap with "yolo26n.pt" for faster edge performance
# Train on a custom dataset with built-in data augmentation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
Yêu cầu bộ nhớ
Khi huấn luyện trên phần cứng dành cho người tiêu dùng, hiệu quả sử dụng bộ nhớ là rất quan trọng. Ultralytics triển khai của YOLOv9 và YOLO26 được tối ưu hóa mạnh mẽ để giảm thiểu hiện tượng tăng đột biến VRAM, không giống như các mô hình dựa trên transformer (chẳng hạn như RT-DETR ) thường gặp phải tình trạng phình to bộ nhớ nghiêm trọng trong quá trình huấn luyện.
Ứng dụng thực tế và các trường hợp sử dụng lý tưởng
Việc lựa chọn giữa các kiến trúc này thường phụ thuộc vào những ràng buộc cụ thể của môi trường sản xuất của bạn.
Khi nào nên sử dụng YOLOv9 : YOLOv9 Nó hoạt động xuất sắc trong môi trường cần giữ lại những chi tiết nhỏ nhất. Khả năng trích xuất đặc điểm mạnh mẽ của nó làm cho nó lý tưởng cho phân tích bán lẻ để đếm số lượng sản phẩm được đóng gói dày đặc trên kệ hoặc cho các ứng dụng nông nghiệp, nơi việc xác định bệnh cây trồng ở giai đoạn đầu trên lá nhỏ là rất quan trọng.
Khi nào nên sử dụng YOLOv7 : YOLOv7 vẫn là ứng cử viên sáng giá cho các quy trình triển khai hệ thống cũ. Nếu bạn đang tích hợp vào các hệ thống phần cứng cũ hơn (như một số thế hệ của Google Coral Edge TPU ), kiến trúc CNN đơn giản của YOLOv7 Việc biên dịch có thể dễ dàng hơn so với các nhánh gradient phức tạp hơn của các mô hình mới hơn.
Khi nào nên sử dụng YOLO26 (Khuyến nghị): Đối với bất kỳ ứng dụng hiện đại nào — từ máy bay không người lái tự hành đến quản lý giao thông thành phố thông minh — YOLO26 là lựa chọn tối ưu. NMS Kiến trúc không phụ thuộc vào bộ nhớ đảm bảo thời gian suy luận xác định, điều này rất cần thiết cho robot an toàn, trong khi độ chính xác cao của nó vượt trội hơn cả hai. YOLOv9 Và YOLOv7 Trên mọi phương diện.