YOLOv7 so với YOLOv10 So sánh các kiến trúc cho việc phát hiện thời gian thực
Sự phát triển của các mô hình phát hiện đối tượng được đặc trưng bởi nỗ lực không ngừng hướng tới độ chính xác cao hơn và độ trễ thấp hơn. Hai cột mốc quan trọng trong hành trình này là YOLOv7 , được phát hành vào giữa năm 2022, và YOLOv10 , được giới thiệu vào giữa năm 2024. Mặc dù cả hai kiến trúc đều nâng cao trình độ công nghệ hiện có khi được phát hành, nhưng chúng đại diện cho những triết lý thiết kế khác biệt về cơ bản. YOLOv7 tập trung vào việc tối ưu hóa quá trình đào tạo thông qua "một loạt quà tặng miễn phí", trong khi đó YOLOv10 đã tiên phong trong cách tiếp cận toàn diện giúp loại bỏ nhu cầu về việc triệt tiêu không tối đa (Non-Maximum Suppression) NMS ).
Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết để giúp các nhà nghiên cứu và kỹ sư lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của họ. Chúng tôi phân tích kiến trúc, các chỉ số hiệu suất và quy trình triển khai, cho thấy lý do tại sao các phiên bản hiện đại như... YOLOv10 —và YOLO26 mới hơn—thường là lựa chọn ưu tiên cho các giải pháp AI có khả năng mở rộng.
So sánh hiệu suất mô hình
Bảng dưới đây nêu bật sự khác biệt về hiệu năng giữa hai mẫu máy. YOLOv10 Luôn mang lại độ trễ thấp hơn và hiệu quả cao hơn (ít tham số và FLOPs hơn) so với YOLOv7 đặc biệt là ở các phiên bản nhỏ hơn.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv7: Nguồn sức mạnh từ các cải tiến miễn phí
Được phát hành vào tháng 7 năm 2022, YOLOv7 được phát triển để tối ưu hóa quá trình huấn luyện mà không làm tăng chi phí suy luận. Các tác giả đã giới thiệu một khái niệm gọi là "túi quà tặng có thể huấn luyện", đề cập đến các phương pháp tối ưu hóa giúp cải thiện độ chính xác trong quá trình huấn luyện nhưng bị loại bỏ trong quá trình suy luận, giúp mô hình hoạt động nhanh.
Các chi tiết kỹ thuật chính:
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Liên kết:Bài báo ArXiv | Kho lưu trữ GitHub
YOLOv7 đã giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) . Kiến trúc này cho phép mô hình học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát hiệu quả các đường dẫn gradient ngắn nhất và dài nhất. Ngoài ra, nó còn sử dụng các kỹ thuật mở rộng mô hình để sửa đổi đồng thời các thuộc tính kiến trúc (như độ sâu và độ rộng), đảm bảo hiệu suất tối ưu trên các kích thước khác nhau. Mặc dù đạt hiệu suất cao trên tập dữ liệu COCO , YOLOv7 Đây chủ yếu là một bộ dò dựa trên neo, điều này đôi khi có thể làm phức tạp việc tinh chỉnh siêu tham số so với các phương pháp thay thế không dựa trên neo hiện đại.
YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực
Được các nhà nghiên cứu từ Đại học Thanh Hoa công bố vào tháng 5 năm 2024, YOLOv10 đánh dấu một bước chuyển biến quan trọng trong... YOLO dòng dõi bằng cách giới thiệu NMS - Đào tạo miễn phí.
Các chi tiết kỹ thuật chính:
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 2024-05-23
- Liên kết:Bài báo ArXiv | Kho lưu trữ GitHub
YOLOv10 giải quyết một nút thắt cổ chai lâu đời trong phát hiện thời gian thực: sự phụ thuộc vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression) NMS ) để xử lý hậu kỳ. Bằng cách sử dụng các phép gán kép nhất quán , YOLOv10 giúp đạt được quá trình huấn luyện từ đầu đến cuối, cho phép mô hình đưa ra dự đoán cuối cùng trực tiếp. Việc loại bỏ NMS Nó giúp giảm đáng kể độ trễ suy luận và đơn giản hóa quy trình triển khai, đặc biệt là trên các thiết bị biên nơi chi phí xử lý hậu kỳ rất cao. Hơn nữa, thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác tối ưu hóa nhiều thành phần khác nhau, chẳng hạn như đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh, để giảm sự dư thừa tính toán.
So sánh quan trọng: Kiến trúc và khả năng sử dụng
Mặc dù cả hai mẫu đều mạnh mẽ, nhưng sự khác biệt về kiến trúc sẽ quyết định trường hợp sử dụng lý tưởng của chúng.
Không NMS so với Dựa trên Anchor
Điểm khác biệt quan trọng nhất là yêu cầu về xử lý hậu kỳ. YOLOv7 dựa vào NMS để lọc các hộp giới hạn chồng chéo. Mặc dù hiệu quả, NMS Điều này gây ra độ trễ tỷ lệ thuận với số lượng đối tượng được phát hiện, khiến thời gian dự đoán thay đổi. Ngược lại, YOLOv10 Thiết kế toàn diện của nó cung cấp thời gian suy luận xác định, điều này rất quan trọng đối với các ứng dụng thời gian thực quan trọng về an toàn như xe tự hành .
Hiệu quả và sử dụng tài nguyên
YOLOv10 Thể hiện hiệu quả vượt trội. Như thể hiện trong bảng so sánh, YOLOv10b đạt được độ chính xác tương đương với YOLOv7 -X nhưng với số tham số ít hơn khoảng 65% . Việc giảm đáng kể kích thước mô hình này dẫn đến mức tiêu thụ bộ nhớ thấp hơn, giúp giảm thiểu tác động tiêu cực. YOLOv10 Rất phù hợp cho các môi trường có bộ nhớ hạn chế như ứng dụng di động hoặc thiết bị IoT.
Hiệu quả bộ nhớ
Đối với các nhà phát triển nhắm mục tiêu vào các thiết bị biên, số lượng tham số giảm đi của YOLOv10 Điều này có nghĩa là mức sử dụng RAM trong quá trình suy luận giảm đáng kể. Nhờ đó, cho phép chạy các lô dữ liệu lớn hơn hoặc thực hiện đa nhiệm cùng với các mô hình AI khác trên cùng một phần cứng.
Đào tạo và Hệ sinh thái
Hệ sinh thái xung quanh một mô hình quyết định tính khả thi của nó đối với các nhà phát triển. Đây là nơi mà... Ultralytics Sự tích hợp tỏa sáng. Cả hai mô hình đều có thể truy cập được thông qua... Ultralytics Python gói phần mềm này thống nhất trải nghiệm người dùng.
- Dễ sử dụng: Bạn có thể chuyển đổi giữa các mô hình bằng cách thay đổi một chuỗi ký tự duy nhất (ví dụ:
model = YOLO("yolov10n.pt")). - Các chế độ thống nhất: Ultralytics Chuẩn hóa các lệnh để huấn luyện , xác thực và xuất sang các định dạng như... ONNX , TensorRT , Và CoreML .
- Hiệu quả đào tạo: Ultralytics các triển khai được tối ưu hóa cho mức thấp hơn CUDA mức sử dụng bộ nhớ so với dữ liệu thô PyTorch các kho lưu trữ, cho phép kích thước lô lớn hơn trên GPU dành cho người tiêu dùng.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model (swappable with YOLOv7)
model = YOLO("yolov10n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
Tương lai: YOLO26
Trong khi YOLOv7 Và YOLOv10 Các tính năng rất xuất sắc, lĩnh vực này phát triển rất nhanh. Phiên bản YOLO26 mới ra mắt (tháng 1 năm 2026) được xây dựng dựa trên nền tảng đó. NMS - nền tảng miễn phí của YOLOv10 nhưng lại giới thiệu thêm những cải tiến để đạt được tốc độ và độ chính xác cao hơn nữa.
- NMS từ đầu đến cuối - Miễn phí: Giống như YOLOv10 YOLO26 hoạt động hoàn toàn từ đầu đến cuối, đảm bảo độ trễ được xác định rõ ràng.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ huấn luyện LLM, bộ tối ưu hóa lai này đảm bảo huấn luyện ổn định và hội tụ nhanh hơn.
- Tối ưu hóa cho điện toán biên: Với việc loại bỏ hiện tượng suy hao tiêu điểm phân tán (DFL), YOLO26 nhanh hơn tới 43% trên CPU , trở thành lựa chọn vượt trội cho điện toán biên.
- Tính linh hoạt: YOLO26 hỗ trợ tất cả các tác vụ bao gồm OBB , ước lượng tư thế và phân đoạn .
Kết luận
Lựa chọn giữa YOLOv7 Và YOLOv10 Điều này phụ thuộc vào các ràng buộc cụ thể của bạn.
- Hãy chọn YOLOv7 nếu bạn đang bảo trì các hệ thống cũ được tối ưu hóa cho kiến trúc cụ thể của nó hoặc nếu bạn cần các tính năng "tập hợp các tiện ích miễn phí" đặc thù để nghiên cứu so sánh.
- Hãy chọn YOLOv10 cho các triển khai mới yêu cầu độ trễ thấp và hiệu quả cao. NMS - Thiết kế đơn giản và số lượng tham số giảm thiểu khiến nó trở nên lý tưởng cho các ứng dụng biên thời gian thực.
Tuy nhiên, để đạt được sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính dễ sử dụng, chúng tôi khuyên bạn nên xem xét phiên bản YOLO26 mới nhất. Được hỗ trợ bởi nền tảng Ultralytics mạnh mẽ, nó cung cấp giải pháp có khả năng đáp ứng nhu cầu tương lai tốt nhất cho việc phát triển thị giác máy tính.