YOLOv10 so với YOLOv7: Sự tiến hóa của nhận diện vật thể thời gian thực

Sự phát triển nhanh chóng của thị giác máy tính trong vài năm qua đã tạo ra các kiến trúc ngày càng hiệu quả cho các ứng dụng thời gian thực. Việc so sánh YOLOv10YOLOv7 làm nổi bật một giai đoạn chuyển đổi quan trọng trong quá trình tiến hóa này. Trong khi YOLOv7 giới thiệu các chiến lược huấn luyện và mở rộng kiến trúc hiệu quả cao, YOLOv10 đã cách mạng hóa việc triển khai bằng cách loại bỏ sự phụ thuộc lâu dài vào Non-Maximum Suppression (NMS).

Cả hai mô hình đều phá vỡ các giới hạn về object detection tại thời điểm ra mắt, tuy nhiên Ultralytics ecosystem hiện đại cùng sự ra đời của các mô hình thế hệ tiếp theo như YOLO26 mang đến quy trình làm việc vượt trội hơn hẳn cho các kỹ sư AI ngày nay.

Hồ sơ và Nguồn gốc Mô hình

Hiểu rõ nguồn gốc của các mô hình này cung cấp bối cảnh giá trị về các lựa chọn thiết kế kiến trúc và nghiên cứu học thuật đằng sau chúng.

Chi tiết về YOLOv10

Tìm hiểu thêm về YOLOv10

Chi tiết về YOLOv7

Tìm hiểu thêm về YOLOv7

Đổi mới kiến trúc

Phương pháp tiếp cận của YOLOv7

Được phát hành vào năm 2022, YOLOv7 tập trung mạnh mẽ vào việc tối ưu hóa đường dẫn gradient. Nó giới thiệu mạng Extended Efficient Layer Aggregation Network (E-ELAN), cho phép mô hình học các tính năng đa dạng hơn mà không phá hủy đường dẫn gradient gốc. Hơn nữa, các tác giả đã triển khai phương pháp "trainable bag-of-freebies", sử dụng các kỹ thuật tái tham số hóa (re-parameterization) trong quá trình huấn luyện mà sau đó có thể được hợp nhất trong quá trình suy luận (inference) để duy trì tốc độ thực thi nhanh. Mặc dù có những tối ưu hóa ấn tượng này, YOLOv7 vẫn phụ thuộc nhiều vào NMS để hậu xử lý, gây ra độ trễ biến thiên trong quá trình phân tích các cảnh quay dày đặc.

Bước đột phá của YOLOv10

YOLOv10 đã giải quyết trực tiếp nút thắt NMS. Bằng cách giới thiệu các phép gán nhất quán (consistent dual assignments) trong quá trình huấn luyện, nhóm nghiên cứu tại Đại học Thanh Hoa đã cho phép thực hiện nhận diện end-to-end không cần NMS. Phương pháp dual-head này sử dụng một nhánh với các phép gán one-to-many để cung cấp tín hiệu giám sát phong phú trong khi huấn luyện, và một nhánh khác với phép gán one-to-one để suy luận mà không cần NMS. Sự thay đổi kiến trúc này đảm bảo inference latency thấp và nhất quán, phù hợp cho phân tích video tốc độ cao. Hơn nữa, YOLOv10 áp dụng thiết kế mô hình tập trung vào hiệu suất và độ chính xác tổng thể, loại bỏ các dư thừa tính toán được tìm thấy trong các thế hệ trước.

Tác động của hậu xử lý

Việc loại bỏ hậu xử lý NMS không chỉ tăng tốc độ suy luận mà còn đơn giản hóa đáng kể việc triển khai trên phần cứng AI biên, chẳng hạn như các bộ tăng tốc AI và NPU, nơi mà các thao tác NMS tùy chỉnh thường rất khó biên dịch.

So sánh hiệu năng

Khi so sánh các chỉ số thô trên MS COCO dataset, khoảng cách thế hệ trở nên rõ ràng. YOLOv10 đạt được sự đánh đổi thuận lợi hơn nhiều giữa số lượng tham số, yêu cầu tính toán và độ chính xác.

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Như đã thấy ở trên, YOLOv10x mang lại mAP vượt trội là 54,4% so với 53,1% của YOLOv7x, trong khi sử dụng ít hơn khoảng 20% tham số. Hơn nữa, các mô hình YOLOv10 gọn nhẹ (Nano và Small) cung cấp tốc độ TensorRT deployment vượt trội, khiến chúng trở nên hấp dẫn cho việc triển khai trên thiết bị di động.

Lợi thế của hệ sinh thái Ultralytics

Mặc dù nghiên cứu các tài liệu kiến trúc mang lại nhiều hiểu biết sâu sắc, sự phát triển thị giác máy tính hiện đại dựa trên các khung (framework) mạnh mẽ và được bảo trì tốt. Việc chọn một mô hình được Ultralytics hỗ trợ mang lại lợi thế lớn cho các nhà phát triển đang tìm cách chuyển nhanh từ bản mẫu (prototype) sang sản xuất.

Phát triển tinh gọn

Cả YOLOv10 và YOLOv7 đều có thể được truy cập thông qua gói Python Ultralytics tiêu chuẩn. Điều này mang lại Ease of Use tuyệt vời, thay thế hàng nghìn dòng mã boilerplate bằng một API đơn giản và trực quan. Hơn nữa, các mô hình Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc Transformer nặng nề, cho phép sử dụng kích thước lô (batch size) lớn hơn trên phần cứng cấp độ người tiêu dùng.

Tính linh hoạt chưa từng có

Trong khi các kho lưu trữ cũ thường chỉ tập trung vào việc phát hiện bounding box, framework Ultralytics tích hợp hỗ trợ liền mạch cho rất nhiều tác vụ. Cho dù bạn đang thực hiện Instance Segmentation, Pose Estimation, hay phát hiện Oriented Bounding Box (OBB), quy trình công việc vẫn được giữ nguyên.

Ví dụ về mã: Quy trình huấn luyện nhất quán

Đoạn mã sau đây minh họa quy trình huấn luyện liền mạch, tự động xử lý data augmentation và lập lịch tốc độ học (learning rate scheduling):

from ultralytics import YOLO

# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export to ONNX format for rapid deployment
model.export(format="onnx")

Các trường hợp sử dụng và khuyến nghị

Việc lựa chọn giữa YOLOv10 và YOLOv7 phụ thuộc vào yêu cầu cụ thể của dự án, các hạn chế khi triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là lựa chọn mạnh mẽ cho:

  • Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
  • Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
  • Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.

Khi nào nên chọn YOLOv7

YOLOv7 được khuyến nghị cho:

  • Academic Benchmarking: Tái hiện các kết quả hiện đại nhất (state-of-the-art) từ năm 2022 hoặc nghiên cứu tác động của E-ELAN và các kỹ thuật trainable bag-of-freebies.
  • Reparameterization Research: Nghiên cứu các convolution được tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình hỗn hợp.
  • Existing Custom Pipelines: Các dự án với quy trình tùy chỉnh mạnh mẽ được xây dựng dựa trên kiến trúc cụ thể của YOLOv7 mà không dễ dàng để tái cấu trúc.

Khi nào nên chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:

  • Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
  • Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.

Tiêu chuẩn mới: Giới thiệu YOLO26

Mặc dù YOLOv10 là một bước tiến vượt bậc vào năm 2024, bối cảnh thị giác máy tính thay đổi cực kỳ nhanh chóng. Đối với tất cả các dự án phát triển mới, chúng tôi đặc biệt khuyến nghị mô hình thế hệ mới nhất: Ultralytics YOLO26. Ra mắt vào tháng 1 năm 2026, nó đại diện cho đỉnh cao tuyệt đối của AI thị giác thời gian thực, vượt xa cả YOLOv7 và YOLOv10.

Tìm hiểu thêm về YOLO26

YOLO26 mang đến những cải tiến chưa từng có được thiết kế đặc biệt cho các môi trường triển khai hiện đại:

  • End-to-End NMS-Free Design: Xây dựng trên nền tảng do YOLOv10 thiết lập, YOLO26 loại bỏ hoàn toàn hậu xử lý NMS để có các quy trình triển khai đơn giản hơn và suy luận tốc độ cao nhất quán.
  • Up to 43% Faster CPU Inference: Được tối ưu hóa mạnh mẽ cho điện toán biên và các thiết bị thiếu GPU chuyên dụng, mang lại khả năng tiết kiệm đáng kể chi phí phần cứng.
  • DFL Removal: Distribution Focal Loss đã bị loại bỏ hoàn toàn, giúp đơn giản hóa đáng kể logic xuất và cải thiện khả năng tương thích với các thiết bị biên công suất thấp và vi điều khiển.
  • MuSGD Optimizer: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang các cải tiến huấn luyện Large Language Model (LLM) trực tiếp vào thị giác máy tính, tạo ra động lực huấn luyện cực kỳ ổn định và tốc độ hội tụ nhanh hơn.
  • ProgLoss + STAL: Những hàm loss tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, một lĩnh vực vốn dĩ khó khăn và rất quan trọng đối với máy bay không người lái, robot và smart city monitoring.
  • Task-Specific Improvements: YOLO26 không chỉ là một trình phát hiện. Nó bao gồm loss phân đoạn ngữ nghĩa chuyên dụng, Residual Log-Likelihood Estimation (RLE) để theo dõi tư thế chính xác tuyệt đối, và các thuật toán loss góc chuyên dụng để loại bỏ các vấn đề ranh giới OBB.
Quản lý dữ liệu và Huấn luyện

Để có trải nghiệm tốt nhất trong việc quản lý tập dữ liệu, huấn luyện YOLO26 và triển khai mô hình lên đám mây, hãy khám phá Ultralytics Platform. Nó cung cấp giao diện không cần code (no-code) bổ trợ hoàn hảo cho Python SDK.

Các trường hợp sử dụng trong thực tế

Việc lựa chọn kiến trúc phù hợp phụ thuộc rất lớn vào các hạn chế về phần cứng và ứng dụng của bạn.

Khi nào nên sử dụng YOLOv7

YOLOv7 vẫn là một lựa chọn đáng tin cậy để duy trì các quy trình cũ đã được tích hợp sâu với cấu trúc tensor cụ thể của nó hoặc khi tái hiện các tiêu chuẩn học thuật từ năm 2022 và 2023. Nó hoạt động hiệu quả trên các GPU máy chủ cao cấp.

Khi nào nên sử dụng YOLOv10

YOLOv10 tỏa sáng trong các tình huống đòi hỏi độ trễ nghiêm ngặt, không thay đổi. Vì không có NMS, nó rất tuyệt vời cho việc đếm đám đông mật độ cao hoặc manufacturing defect detection nơi số lượng vật thể biến động mạnh nhưng thời gian xử lý trên mỗi khung hình phải duy trì hằng số.

Khi nào nên dùng YOLO26

YOLO26 là lựa chọn cuối cùng cho bất kỳ dự án khởi tạo mới (greenfield project). Từ việc triển khai các security alarm systems tinh vi trên một thiết bị Raspberry Pi cơ bản cho đến việc chạy các phân tích video dựa trên đám mây quy mô lớn, tốc độ CPU vượt trội và khả năng phát hiện vật thể nhỏ tiên tiến khiến nó vượt xa các thế hệ cũ.

Đối với các nhà phát triển quan tâm đến việc khám phá các kiến trúc hiện đại thay thế, chúng tôi cũng cung cấp hỗ trợ mở rộng cho các trình phát hiện dựa trên Transformer như RT-DETR và các thế hệ chủ chốt trước đây như Ultralytics YOLO11.

Bình luận