Chuyển đến nội dung

YOLOv10 so với YOLOv7 : Nâng cao kiến trúc phát hiện đối tượng theo thời gian thực

Sự tiến hóa của YOLO Dòng sản phẩm (You Only Look Once) đã liên tục vượt qua các giới hạn của thị giác máy tính, cân bằng giữa tốc độ và độ chính xác cho các ứng dụng thời gian thực. Bài so sánh này khám phá những thay đổi về kiến trúc và sự khác biệt về hiệu suất giữa YOLOv10 , một mô hình tiên tiến do các nhà nghiên cứu từ Đại học Thanh Hoa phát hành, và YOLOv7 , một mô hình có ảnh hưởng lớn do Viện Hàn lâm Khoa học Trung Quốc phát triển. Mặc dù cả hai mô hình đều có những đóng góp đáng kể cho lĩnh vực phát hiện đối tượng , chúng sử dụng các chiến lược riêng biệt để đạt được mục tiêu hiệu suất.

Sự tiến hóa của kiến trúc mô hình

Sự chuyển đổi từ YOLOv7 ĐẾN YOLOv10 đánh dấu sự thay đổi lớn về cách mạng lưới nơ-ron xử lý hậu kỳ và tích hợp tính năng.

YOLOv10 : Cái NMS -Cách mạng Tự do

YOLOv10 , được phát hành vào ngày 23 tháng 5 năm 2024, bởi Ao Wang, Hui Chen và những người khác từ Đại học Thanh Hoa , giới thiệu một bước đột phá NMS - chiến lược đào tạo miễn phí. Theo truyền thống, các bộ phát hiện đối tượng dựa vào NMS (Non-Maximum Suppression) để lọc ra các hộp giới hạn trùng lặp, điều này có thể tạo ra nút thắt về độ trễ suy luận.

YOLOv10 sử dụng các Bài tập kép nhất quán cho NMS - Đào tạo miễn phí, cho phép mô hình dự đoán trực tiếp các trường hợp đối tượng duy nhất. Kết hợp với thiết kế mô hình toàn diện hướng đến hiệu quả-độ chính xác , nó tối ưu hóa nhiều thành phần khác nhau—bao gồm đầu phân loại nhẹ và lấy mẫu giảm tách kênh không gian—để giảm thiểu sự dư thừa tính toán.

Tìm hiểu thêm về YOLOv10

YOLOv7 : Được tối ưu hóa cho Túi quà tặng có thể huấn luyện

YOLOv7 , được phát hành vào ngày 6 tháng 7 năm 2022 bởi Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao từ Academia Sinica, tập trung vào việc tối ưu hóa quy trình đào tạo mà không làm tăng chi phí suy luận. YOLOv7 đã giới thiệu Mạng Tổng hợp Lớp Hiệu quả Mở rộng (E-ELAN) , giúp tăng cường khả năng học của mạng bằng cách kiểm soát đường dẫn gradient.

YOLOv7 tận dụng mạnh mẽ "Túi quà tặng miễn phí"—các phương pháp cải thiện độ chính xác trong quá trình huấn luyện mà không ảnh hưởng đến tốc độ suy luận—và các kỹ thuật mở rộng mô hình giúp kết hợp các tham số một cách hiệu quả. Mặc dù rất hiệu quả, nhưng việc dựa vào các phương pháp truyền thống NMS hậu xử lý có nghĩa là độ trễ đầu cuối của nó thường cao hơn so với thế hệ mới hơn NMS -kiến trúc tự do.

Tìm hiểu thêm về YOLOv7

So sánh hiệu suất kỹ thuật

Khi đánh giá các mô hình này, các mô hình riêng biệt sẽ xuất hiện liên quan đến hiệu quả và khả năng phát hiện thô. YOLOv10 thường mang lại hiệu quả vượt trội, đạt được mAP (Độ chính xác trung bình) tương tự hoặc tốt hơn với ít tham số hơn đáng kể và thời gian suy luận nhanh hơn so với YOLOv7 .

Bảng dưới đây phác thảo các số liệu chính trên tập dữ liệu COCO .

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Hiểu biết sâu sắc về hiệu quả

Dữ liệu làm nổi bật một lợi thế quan trọng cho YOLOv10 trong môi trường hạn chế về tài nguyên. YOLOv10m đạt được độ chính xác gần như giống hệt nhau (51,3% mAP ) đến YOLOv7l (51,4% mAP ) nhưng thực hiện như vậy với ít hơn một nửa số tham số (15,4M so với 36,9M) và FLOP thấp hơn đáng kể (59,1B so với 104,7B).

Độ trễ và thông lượng

YOLOv10 việc loại bỏ của NMS Bước này làm giảm đáng kể độ trễ thường thấy trong các cảnh đông đúc. Trong các ứng dụng như xe tự hành hoặc giám sát bằng máy bay không người lái , nơi mà từng mili giây đều có giá trị, thời gian suy luận có thể dự đoán được của YOLOv10 mang lại lợi thế quan trọng về mặt an toàn. YOLOv7 vẫn có khả năng cạnh tranh về thông lượng trên GPU cao cấp nhưng tiêu tốn nhiều bộ nhớ và tính toán hơn để đạt được kết quả tương đương.

Các trường hợp và ứng dụng sử dụng

Sự khác biệt về kiến trúc quyết định kịch bản triển khai lý tưởng cho từng mô hình.

Kịch bản lý tưởng cho YOLOv10

  • Edge AI: Do số lượng tham số và FLOP thấp, YOLOv10 hoàn hảo cho các thiết bị như Raspberry Pi hoặc NVIDIA Jetson .
  • Phân tích video thời gian thực: Tốc độ suy luận cao hỗ trợ xử lý FPS cao để quản lý giao thông và phân tích bán lẻ.
  • Robot: Độ trễ thấp hơn giúp phản ứng nhanh hơn khi thực hiện nhiệm vụ điều hướng và thao tác robot.

Kịch bản lý tưởng cho YOLOv7

  • Hệ thống kế thừa: Các dự án đã được tích hợp với YOLOv7 codebase có thể đủ ổn định để duy trì mà không cần phải tái cấu trúc ngay lập tức.
  • Phát hiện mục đích chung: Đối với các triển khai phía máy chủ nơi VRAM dồi dào, YOLOv7 Các mô hình lớn hơn vẫn cung cấp khả năng phát hiện mạnh mẽ, mặc dù chúng kém hiệu quả hơn so với các giải pháp thay thế mới hơn như YOLO11 .

Các Ultralytics Lợi thế

Mặc dù cả hai mô hình đều mạnh mẽ, việc tận dụng hệ sinh thái Ultralytics mang lại những lợi ích rõ rệt cho các nhà phát triển và nhà nghiên cứu. Ultralytics khuôn khổ chuẩn hóa giao diện cho việc đào tạo, xác thực và triển khai, giúp việc chuyển đổi giữa các mô hình và hiệu suất chuẩn trở nên dễ dàng hơn đáng kể.

Dễ sử dụng và hiệu quả đào tạo

Một trong những rào cản chính trong học sâu là sự phức tạp của quy trình đào tạo. Ultralytics các mô hình, bao gồm YOLOv10 và YOLO11 , sử dụng một cách hợp lý Python API xử lý việc tăng cường dữ liệu, điều chỉnh siêu tham sốxuất dữ liệu tự động.

  • API đơn giản: Đào tạo mô hình chỉ bằng một vài dòng mã.
  • Hiệu quả bộ nhớ: Ultralytics tối ưu hóa thường dẫn đến thấp hơn CUDA sử dụng bộ nhớ trong quá trình đào tạo so với triển khai thô.
  • Trọng số được đào tạo trước: Truy cập vào các mô hình được đào tạo trước chất lượng cao trên ImageNet và COCO tăng tốc quá trình học chuyển giao .

Tính linh hoạt trong nhiều nhiệm vụ

Hiện đại Ultralytics Các mô hình này mở rộng ra ngoài phạm vi phát hiện hộp giới hạn đơn giản. Chúng hỗ trợ Phân đoạn thực thể , Ước lượng tư thế , Phát hiện đối tượng định hướng (OBB)Phân loại trong cùng một khuôn khổ. Tính linh hoạt này là một lợi thế quan trọng so với các kho lưu trữ độc lập cũ.

Ví dụ về mã: Chạy YOLOv10 với Ultralytics

Ví dụ sau đây chứng minh sự đơn giản của việc sử dụng Ultralytics API để tải một chương trình được đào tạo trước YOLOv10 Mô hình và chạy suy luận. Sự dễ sử dụng này trái ngược với việc thiết lập thủ công thường được yêu cầu cho các kiến trúc cũ hơn như YOLOv7 .

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Kết luận và Đề xuất

Đối với các dự án mới, YOLOv10 hoặc YOLO11 tiên tiến hơn là lựa chọn được khuyến nghị. YOLOv10 'S NMS Kiến trúc -free mang lại sự cân bằng vượt trội giữa tốc độ và độ chính xác, giúp nó có khả năng thích ứng cao với nhu cầu điện toán biên hiện đại. Nó giải quyết các điểm nghẽn độ trễ của các thế hệ trước đồng thời giảm thiểu dung lượng tính toán.

Mặc dù YOLOv7 vẫn là một cột mốc đáng kính trong lịch sử thị giác máy tính, nhưng kiến trúc của nó lại kém hiệu quả hơn so với tiêu chuẩn hiện nay. Các nhà phát triển đang tìm kiếm hiệu suất tốt nhất, khả năng bảo trì lâu dài và dễ triển khai sẽ thấy hệ sinh thái Ultralytics —với các bản cập nhật liên tục và hỗ trợ công cụ rộng rãi — là môi trường hiệu quả nhất để xây dựng các giải pháp AI thị giác.

Khám phá thêm


Bình luận