YOLOv5 và YOLOv10: So sánh kỹ thuật toàn diện

Lĩnh vực thị giác máy tính thời gian thực đã chứng kiến sự tăng trưởng vượt bậc trong vài năm qua, với nhiều kiến trúc khác nhau đang thúc đẩy giới hạn của những gì khả thi trên phần cứng hiện đại. Khi đánh giá các kiến trúc tiên tiến nhất, việc so sánh giữa YOLOv5YOLOv10 làm nổi bật một bước tiến hóa quan trọng trong lĩnh vực phát hiện đối tượng. Bài phân tích kỹ thuật chuyên sâu này khám phá các mô hình kiến trúc, sự đánh đổi về hiệu suất và cách các nhà phát triển có thể tận dụng các công cụ này trong môi trường sản xuất.

Đi sâu vào kiến trúc

Hiểu được những khác biệt về cấu trúc giữa các mô hình này là yếu tố cốt lõi để triển khai chúng một cách hiệu quả trong thực tế.

Ultralytics YOLOv5: Tiêu chuẩn công nghiệp

Được giới thiệu bởi Ultralytics, YOLOv5 từ lâu đã được công nhận nhờ sự cân bằng vượt trội giữa tốc độ, độ chính xác và khả năng tiếp cận.

Tìm hiểu thêm về YOLOv5

YOLOv5 dựa trên cơ chế phát hiện anchor-based kết hợp với xương sống CSPDarknet được tối ưu hóa sâu sắc. Kiến trúc này dựa nhiều vào các thao tác tiêu chuẩn được hỗ trợ bởi hầu hết các công cụ suy luận (inference engine), giúp nó trở nên cực kỳ linh hoạt. Điểm mạnh chính nằm ở Ultralytics Python SDK, cung cấp trải nghiệm người dùng tinh gọn, API đơn giản và tài liệu phong phú. Ngoài ra, yêu cầu bộ nhớ thấp hơn của YOLOv5 so với các mô hình dựa trên Transformer có nghĩa là nó huấn luyện nhanh chóng trên các GPU phổ thông mà không bị gánh nặng VRAM quá lớn.

YOLOv10: Thúc đẩy tiến bộ mô hình

Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 nhắm đến việc giải quyết các nút thắt cổ chai về độ trễ cụ thể đã xuất hiện trong các kiến trúc trước đó.

Tìm hiểu thêm về YOLOv10

Đặc điểm định hình của YOLOv10 là thiết kế không cần NMS (Non-Maximum Suppression) một cách tự nhiên. Bằng cách sử dụng cơ chế gán kép nhất quán trong quá trình huấn luyện, mô hình này loại bỏ nhu cầu hậu xử lý NMS trong quá trình suy luận. Việc giảm độ trễ lý thuyết này rất có lợi cho các triển khai chạy trên phần cứng cao cấp với khả năng tăng tốc NVIDIA TensorRT mạnh mẽ, mặc dù nó có thể tạo ra các phức tạp về cấu trúc cho các thiết bị biên.

Ưu thế hệ sinh thái

Trong khi YOLOv10 mang lại những nét mới lạ về kiến trúc, các mô hình của Ultralytics như YOLOv5 và phiên bản mới hơn YOLO26 được hỗ trợ tự nhiên trong Ultralytics Platform, mang lại hiệu quả huấn luyện vượt trội, tự động tối ưu hóa siêu tham số và các tùy chọn xuất mô hình phong phú ngay từ đầu.

Phân tích hiệu suất

Khi so sánh các mô hình này, sự cân bằng giữa độ chính xác (mAP) và chi phí tính toán (độ trễ và tham số) quyết định trường hợp sử dụng tối ưu nhất. Dưới đây là bảng so sánh hiệu suất kỹ thuật trên bộ dữ liệu COCO.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLOv10 rõ ràng đạt được mAP50-95 cao hơn ở cùng quy mô kích thước nhờ tận dụng thiết kế mô hình hiện đại hướng đến sự cân bằng giữa hiệu quả và độ chính xác. Tuy nhiên, YOLOv5 vẫn duy trì độ trễ cực kỳ cạnh tranh, đặc biệt là ở các tầng Nano và Small, giúp nó trở nên đáng tin cậy cho các môi trường nhúng bị giới hạn tài nguyên như dòng NVIDIA Jetson hoặc các CPU tiêu chuẩn thông qua OpenVINO.

Phương pháp huấn luyện và Hệ sinh thái

Giá trị của một mô hình gắn liền mật thiết với hệ sinh thái bao quanh nó. Ultralytics duy trì một hệ sinh thái được chăm chút đặc biệt, hỗ trợ một loạt các tác vụ cực kỳ rộng lớn. Trong khi YOLOv10 chỉ tập trung nghiêm ngặt vào phát hiện đối tượng 2D, Ultralytics hỗ trợ tự nhiên cho phân đoạn cá thể, phân loại hình ảnh, ước tính tư thếhộp bao định hướng (OBB).

Hơn nữa, việc huấn luyện một mô hình Ultralytics yêu cầu bộ nhớ thấp hơn đáng kể so với các phương pháp dựa trên Transformer cạnh tranh, giúp chu kỳ phát triển diễn ra nhanh chóng và tiết kiệm chi phí.

Thực thi mã liền mạch

Việc huấn luyện, kiểm thử (validate) và xuất mô hình được thống nhất dưới một API duy nhất. Bạn có thể chuyển đổi giữa các mô hình chỉ bằng cách thay đổi một chuỗi văn bản.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model for baseline testing
model_v5 = YOLO("yolov5s.pt")

# Load a YOLOv10 model for comparison
model_v10 = YOLO("yolov10s.pt")

# Train the model on the COCO8 dataset efficiently
results = model_v5.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Automatically utilizes PyTorch CUDA acceleration
    batch=16,
)

# Export to ONNX for CPU inference deployment
model_v5.export(format="onnx", simplify=True)

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOv5 và YOLOv10 phụ thuộc vào các yêu cầu dự án cụ thể, hạn chế triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv5

YOLOv5 là một lựa chọn mạnh mẽ cho:

  • Các hệ thống sản xuất đã được kiểm chứng: Các triển khai hiện có nơi mà hồ sơ ổn định lâu dài, tài liệu phong phú và sự hỗ trợ lớn từ cộng đồng của YOLOv5 được đánh giá cao.
  • Huấn luyện trong môi trường hạn chế tài nguyên: Các môi trường có tài nguyên GPU hạn chế, nơi quy trình huấn luyện hiệu quả và yêu cầu bộ nhớ thấp hơn của YOLOv5 mang lại nhiều lợi thế.
  • Hỗ trợ định dạng xuất rộng rãi: Các dự án yêu cầu triển khai trên nhiều định dạng bao gồm ONNX, TensorRT, CoreML, và TFLite.

Khi nào nên chọn YOLOv10

YOLOv10 được khuyến nghị cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Tương lai: Ultralytics YOLO26

Trong khi YOLOv5 đã cách mạng hóa khả năng tiếp cận và YOLOv10 đã đẩy giới hạn của kiến trúc không cần NMS, trạng thái tiên tiến nhất vẫn tiếp tục phát triển. Đối với các dự án mới, chúng tôi đặc biệt khuyến nghị Ultralytics YOLO26 tiên tiến nhất, được phát hành vào tháng 1 năm 2026.

YOLO26 hợp nhất sự tin cậy của hệ sinh thái Ultralytics với những tiến bộ mang tính đột phá:

  • Thiết kế không cần NMS từ đầu đến cuối: Kết hợp mô hình không cần NMS trực tiếp vào khung làm việc Ultralytics, YOLO26 đơn giản hóa việc triển khai và đảm bảo độ trễ thấp hơn.
  • Suy luận trên CPU nhanh hơn tới 43%: Với việc loại bỏ Distribution Focal Loss (DFL), YOLO26 nhanh hơn đáng kể trên các thiết bị biên không có GPU.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các đổi mới trong huấn luyện LLM từ Moonshot AI, bộ tối ưu hóa MuSGD cung cấp sự ổn định chưa từng có và khả năng hội tụ nhanh chóng.
  • ProgLoss + STAL: Các hàm mất mát mới này cải thiện đáng kể khả năng nhận diện đối tượng nhỏ, vốn rất quan trọng cho các lĩnh vực như hình ảnh máy bay không người lái và robot.

Bạn có thể quản lý, huấn luyện và triển khai YOLO26 trực tiếp thông qua Ultralytics Platform.

Kết luận

Việc chọn giữa YOLOv5 và YOLOv10 thường phụ thuộc vào các hạn chế cụ thể của dự án. YOLOv10 cung cấp mAP tuyệt vời cho các nhà nghiên cứu và các ứng dụng tận dụng thông lượng GPU thô. Ngược lại, YOLOv5 vẫn là một cỗ máy làm việc bền bỉ, có khả năng tương thích cao cho các triển khai tiêu chuẩn.

Tuy nhiên, lĩnh vực thị giác máy tính rất năng động. Để khai thác sự cân bằng tốt nhất về hiệu suất, tính linh hoạt và sự dễ sử dụng, các nhà phát triển nên tìm đến Ultralytics YOLO26. Nó gói gọn tốc độ suy luận không cần NMS với hệ sinh thái Ultralytics mạnh mẽ, đầy đủ tài liệu, đảm bảo các giải pháp AI thị giác của bạn sẵn sàng cho tương lai. Đối với các trường hợp sử dụng chuyên biệt, nhà phát triển cũng có thể khám phá YOLO11 để có độ bền bỉ tổng quát, hoặc RT-DETR để có độ chính xác dựa trên Transformer.

Bình luận