YOLOv10 so với YOLOv5 So sánh kỹ thuật toàn diện

Việc lựa chọn kiến trúc mạng nơ-ron phù hợp là rất quan trọng để triển khai thành công các pipeline thị giác máy tính trong môi trường sản xuất. Trang này cung cấp phân tích kỹ thuật chuyên sâu so sánh YOLOv10 và YOLOv5, hai mô hình có ảnh hưởng lớn trong sự phát triển của detect vật thể thời gian thực. Mặc dù cả hai mô hình đều tạo ra những tác động đáng kể đến cộng đồng AI, chúng đại diện cho các kỷ nguyên và triết lý khác nhau trong thiết kế kiến trúc học sâu.

Hướng dẫn này đánh giá các kiến trúc này dựa trên Độ chính xác trung bình ( mAP ) , độ trễ suy luận, hiệu quả tham số và hỗ trợ hệ sinh thái, giúp bạn chọn mô hình tốt nhất cho nhu cầu triển khai của mình.

Tổng quan về mô hình

YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực

Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã giới thiệu một cách tiếp cận mới lạ để phát hiện đối tượng bằng cách loại bỏ nhu cầu xử lý hậu kỳ.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 2024-05-23
Bài báo nghiên cứu:arXiv:2405.14458
Mã nguồn:Kho lưu trữ YOLOv10 GitHub

Bước đột phá mang tính quyết định của YOLOv10 Đó là thiết kế hoàn toàn không cần hệ thống quản lý mạng NMS . Về mặt lịch sử, YOLO Các mô hình dựa vào phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression - NMS ) để lọc ra các hộp giới hạn dư thừa. YOLOv10 sử dụng các nhiệm vụ kép nhất quán cho NMS - huấn luyện miễn phí, giúp giảm đáng kể sự biến động về độ trễ suy luận và đơn giản hóa logic triển khai. Ngoài ra, kiến trúc này còn có thiết kế toàn diện hướng đến hiệu quả và độ chính xác, tối ưu hóa triệt để các thành phần khác nhau để giảm thiểu sự dư thừa tính toán.

Tìm hiểu thêm về YOLOv10

YOLOv5 Tiêu chuẩn ngành về khả năng sử dụng

Được phát hành ngay sau khi thành lập Ultralytics PyTorch kho lưu trữ, YOLOv5 Nó đã định nghĩa lại những gì các nhà phát triển mong đợi từ một khung AI thị giác mã nguồn mở. Nó vẫn là một trong những kiến trúc được triển khai rộng rãi nhất trên toàn cầu.

Tác giả: Glenn Jocher
Tổ chức:Ultralytics
Ngày: 2020-06-26
Mã nguồn:Kho lưu trữ YOLOv5 GitHub

YOLOv5 Được đánh giá cao nhờ tính dễ sử dụng và hệ sinh thái được duy trì rất tốt . Được viết hoàn toàn bằng tiếng Anh. PyTorch Nó cung cấp trải nghiệm "từ con số không đến chuyên gia" liền mạch với hỗ trợ sẵn có cho việc huấn luyện, xác thực và xuất sang các định dạng như ONNX và TensorRT . Không giống như YOLOv10 , tập trung chủ yếu vào việc phát hiện đối tượng thuần túy, YOLOv5 Thể hiện tính linh hoạt vượt trội, hỗ trợ phân đoạn đối tượng và phân loại hình ảnh trong cùng một hệ thống thống nhất. Python API.

Tìm hiểu thêm về YOLOv5

So sánh hiệu năng và số liệu

Việc hình dung mối quan hệ giữa tốc độ và độ chính xác là rất cần thiết để xác định các mô hình mang lại độ chính xác tốt nhất cho một ràng buộc tốc độ nhất định. Hiểu rõ các chỉ số hiệu suất này là nền tảng để lựa chọn một mô hình phù hợp với các ràng buộc phần cứng cụ thể của bạn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Phân tích kỹ thuật

Độ chính xác (mAP): YOLOv10 thể hiện lợi thế rõ ràng về độ chính xác qua các thế hệ. Chẳng hạn, mô hình YOLOv10-X đạt 54.4% mAP^val, vượt trội hơn YOLOv5x (50.7% mAP). Bước nhảy vọt này phần lớn là nhờ chiến lược huấn luyện không NMS và những cải tiến kiến trúc được giới thiệu vào năm 2024.
Độ trễ suy luận: Mặc dù các mô hình YOLOv5 cực kỳ nhanh trên các điểm chuẩn TensorRT T4 thô (ví dụ: YOLOv5n ở 1.12ms), YOLOv10 loại bỏ hoàn toàn bước hậu xử lý NMS. Trong các triển khai thực tế từ đầu đến cuối, thiết kế không NMS của YOLOv10 mang lại độ trễ nhất quán và xác định hơn, điều này rất quan trọng đối với các ứng dụng thời gian thực như phương tiện tự hành và robot.
Hiệu quả tham số: Các mô hình YOLOv10 duy trì Cân bằng hiệu suất cạnh tranh cao. YOLOv10-S đạt 46.7% mAP chỉ với 7.2M tham số, trong khi YOLOv5s đạt 37.4% mAP với 9.1M tham số.

Mẹo triển khai

Khi triển khai trên các thiết bị AI biên như NVIDIA Jetson , các mô hình không có NMS logic (như YOLOv10 và YOLO26) thường biên dịch sạch hơn thành TensorRT , tránh các thao tác dự phòng trở lại CPU .

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và YOLOv5 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn YOLOv5

YOLOv5 được khuyến nghị cho:

Hệ thống sản xuất đã được chứng minh: Các triển khai hiện có nơi hồ sơ track ổn định lâu dài, tài liệu phong phú và sự hỗ trợ cộng đồng lớn của YOLOv5 được đánh giá cao.
Huấn luyện hạn chế tài nguyên: Môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 là một lợi thế.
Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng, bao gồm ONNX, TensorRT, CoreML và TFLite.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics

Trong khi YOLOv10 Mặc dù Ultralytics cung cấp khả năng phát hiện tuyệt vời, việc dựa vào các kho lưu trữ học thuật đôi khi có thể làm phức tạp các quy trình sản xuất. Bằng cách sử dụng gói Python chính thức Ultralytics , bạn có quyền truy cập vào một hệ sinh thái thống nhất hỗ trợ cả hai. YOLOv5 Và YOLOv10 cùng với các tính năng nâng cao.

Hiệu quả huấn luyện: Các kiến trúc Ultralytics YOLO được tối ưu hóa sâu sắc để giảm yêu cầu bộ nhớ trong quá trình huấn luyện. Không giống như các mô hình transformer nặng (như RT-DETR) yêu cầu bộ nhớ CUDA lớn, bạn có thể dễ dàng huấn luyện YOLOv5 và YOLOv10 trên các GPU phổ thông tiêu chuẩn.
Tích hợp hệ sinh thái: Sự tích hợp với Nền tảng Ultralytics cho phép các nhà phát triển quản lý trực quan các tập dữ liệu, track các thử nghiệm bằng cách sử dụng Weights & Biases và tự động điều chỉnh siêu tham số.

Ví dụ mã: Đào tạo liền mạch

Sử dụng Ultralytics Với thư viện này, việc chuyển đổi giữa các kiến trúc này đơn giản chỉ bằng cách thay đổi chuỗi mô hình. Quy trình huấn luyện tự động xử lý việc tăng cường dữ liệu, điều chỉnh tỷ lệ và cấu hình trình tối ưu hóa.

from ultralytics import YOLO

# To use YOLOv5:
# model = YOLO("yolov5s.pt")

# To use YOLOv10:
model = YOLO("yolov10s.pt")

# Train the model on a custom dataset
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    batch=16,
    device=0,  # Use GPU 0
)

# Export the trained model to ONNX format
path = model.export(format="onnx")

Thế hệ tiếp theo: Ultralytics YOLO26

Nếu bạn đang bắt đầu một dự án học máy mới, chúng tôi đặc biệt khuyên bạn nên đánh giá Ultralytics YOLO26 mới nhất. Được phát hành vào tháng 1 năm 2026, nó đại diện cho công nghệ tiên tiến nhất hiện nay bằng cách kết hợp những cải tiến tốt nhất trong năm năm qua.

YOLO26 tích hợp sẵn thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối, một thiết kế tiên phong của... YOLOv10 , đảm bảo triển khai nhanh chóng và có tính xác định. Hơn nữa, YOLO26 giới thiệu một số đột phá quan trọng:

Tăng tốc suy luận trên CPU lên đến 43%: Bằng cách loại bỏ module Distribution Focal Loss (DFL), YOLO26 đạt được tốc độ tăng đáng kể trên các CPU tiêu chuẩn, trở thành lựa chọn hàng đầu cho triển khai di động và các cảm biến IoT công suất thấp.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, YOLO26 sử dụng một sự kết hợp giữa SGD và Muon. Điều này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ được tăng tốc đáng kể so với các trình tối ưu hóa AdamW được sử dụng trong YOLOv10.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho hình ảnh drone và các ứng dụng an ninh trên không.
Nắm vững tác vụ chuyên biệt: Trong khi YOLOv10 chỉ là một bộ detect hộp giới hạn, YOLO26 cung cấp các cải tiến kiến trúc chuyên dụng cho tất cả các tác vụ, bao gồm Ước tính Log-Likelihood Dư (RLE) cho Tư thế và các hàm mất mát góc chuyên biệt cho Hộp giới hạn định hướng (OBB).

Khám phá thêm

Nếu bạn đang tìm hiểu sâu hơn về lĩnh vực phát hiện đối tượng, bạn cũng có thể quan tâm đến việc so sánh các kiến trúc này với các framework khác. Hãy xem các bài phân tích chi tiết của chúng tôi về YOLO11 so với EfficientDet hoặc RT-DETR so với YOLOv8 để có cái nhìn toàn diện hơn về hiệu năng.

Cho dù bạn dựa vào di sản vững chắc của YOLOv5 , cái NMS - sự đổi mới miễn phí của YOLOv10 hoặc hiệu năng tiên tiến vượt trội của YOLO26, Ultralytics Hệ sinh thái này cung cấp các công cụ cần thiết để nhanh chóng và hiệu quả hiện thực hóa các ứng dụng trí tuệ nhân tạo (AI) về mặt thị giác.