YOLOv9 so với YOLOv10: Phân tích kỹ thuật chuyên sâu về sự tiến hóa của nhận diện đối tượng theo thời gian thực

Bối cảnh thị giác máy tính theo thời gian thực đã chứng kiến những tiến bộ vượt bậc, chủ yếu nhờ các nhà nghiên cứu không ngừng đẩy mạnh ranh giới giữa hiệu suất và độ hiệu quả. Khi phân tích sự tiến hóa của các model thị giác máy tính hiện đại, YOLOv9YOLOv10 đại diện cho hai cột mốc quan trọng. Được ra mắt vào đầu năm 2024, cả hai model này đều giới thiệu những thiết kế kiến trúc thay đổi hoàn toàn cục diện nhằm giải quyết các thách thức lâu đời trong mạng neural sâu, từ thắt nút cổ chai thông tin đến độ trễ trong quá trình hậu xử lý.

Bài phân tích kỹ thuật toàn diện này khám phá kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng, giúp bạn điều hướng sự phức tạp của các hệ sinh thái nhận diện đối tượng hiện đại.

Nguồn gốc Model và Những đột phá về Kiến trúc

Việc hiểu rõ nguồn gốc và nền tảng lý thuyết của các model này là rất quan trọng để lựa chọn kiến trúc phù hợp cho dự án thị giác máy tính cụ thể của bạn.

YOLOv9: Làm chủ luồng thông tin

Được giới thiệu vào ngày 21 tháng 2 năm 2024, YOLOv9 giải quyết vấn đề lý thuyết về mất mát thông tin khi dữ liệu truyền qua các mạng neural sâu.

YOLOv9 giới thiệu Generalized Efficient Layer Aggregation Network (GELAN), giúp tối đa hóa việc sử dụng tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN. Hơn nữa, nó sử dụng Programmable Gradient Information (PGI), một cơ chế giám sát phụ đảm bảo các lớp sâu giữ lại thông tin không gian quan trọng. Điều này làm cho YOLOv9 cực kỳ mạnh mẽ đối với các tác vụ yêu cầu độ trung thực cao về đặc trưng, chẳng hạn như phân tích hình ảnh y tế hoặc giám sát từ xa.

Tìm hiểu thêm về YOLOv9

YOLOv10: Hiệu quả End-to-End theo thời gian thực

Được ra mắt không lâu sau đó vào ngày 23 tháng 5 năm 2024, YOLOv10 định hình lại quy trình triển khai bằng cách loại bỏ một trong những nút cổ chai gây trễ khét tiếng nhất trong nhận diện đối tượng: Non-Maximum Suppression (NMS).

YOLOv10 sử dụng consistent dual assignments trong quá trình training, cho phép thiết kế NMS-free nguyên bản. Điều này giúp loại bỏ gánh nặng hậu xử lý trong quá trình inference, giảm đáng kể độ trễ. Kết hợp với thiết kế model hướng tới sự cân bằng tổng thể giữa hiệu quả và độ chính xác, YOLOv10 đạt được sự cân bằng xuất sắc, giảm bớt chi phí tính toán (FLOPs) trong khi vẫn duy trì độ chính xác cạnh tranh, khiến nó trở nên rất hấp dẫn đối với các ứng dụng edge computing.

Tìm hiểu thêm về YOLOv10

So sánh hiệu suất và các chỉ số

Khi đo điểm chuẩn hai

Modelkích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Phân tích dữ liệu

  1. Độ trễ so với Độ chính xác: Các model YOLOv10 thường mang lại tốc độ inference vượt trội. Ví dụ, YOLOv10s đạt 46,7% mAP chỉ với 2,66ms trên TensorRT, so với YOLOv9s đòi hỏi 3,54ms cho mức mAP gần như tương đương là 46,8%.
  2. Độ chính xác cấp cao: Đối với các kịch bản nghiên cứu đòi hỏi độ chính xác nhận diện tối đa, YOLOv9e vẫn là một lựa chọn đáng gờm, đạt mức 55,6% mAP ấn tượng. Kiến trúc PGI của nó đảm bảo các đặc trưng tinh vi được trích xuất một cách đáng tin cậy.
  3. Hiệu quả: YOLOv10 xuất sắc trong FLOPs efficiency. Điều này chuyển đổi trực tiếp thành mức tiêu thụ năng lượng thấp hơn, một chỉ số quan trọng đối với các thiết bị chạy bằng pin sử dụng vision AI models.
Mẹo triển khai

Nếu bạn đang triển khai trên CPU hoặc phần cứng edge bị hạn chế tài nguyên như Raspberry Pi, kiến trúc NMS-free của YOLOv10 thường sẽ cung cấp một quy trình mượt mà hơn bằng cách loại bỏ các bước hậu xử lý không xác định.

Lợi thế từ Ultralytics: Training và Hệ sinh thái

Mặc dù sự khác biệt về kiến trúc là rất quan trọng, hệ sinh thái phần mềm xung quanh mới là yếu tố quyết định lớn đến sự thành công của một dự án. Cả YOLOv9 và YOLOv10 đều được tích hợp hoàn toàn vào Ultralytics ecosystem, mang lại trải nghiệm nhà phát triển vô song.

Dễ sử dụng và Hiệu quả bộ nhớ

Không giống như các kiến trúc dựa trên Transformer phức tạp vốn chịu tình trạng chiếm dụng bộ nhớ khổng lồ, các model Ultralytics YOLO được thiết kế để sử dụng GPU memory một cách tối ưu. Điều này cho phép các nhà nghiên cứu sử dụng batch sizes lớn hơn trên phần cứng tiêu dùng, giúp AI tiên tiến trở nên dễ tiếp cận hơn.

The unified Python API abstracts away the complexities of data augmentation and hyperparameter tuning. You can seamlessly switch between architectures simply by altering the weight file string.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Cho dù bạn cần log các chỉ số vào MLflow hay xuất ra TensorRT để triển khai phần cứng tốc độ cao, nền tảng Ultralytics đều hỗ trợ trực tiếp.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các model này phụ thuộc vào các ràng buộc triển khai của bạn:

  • Chọn YOLOv9 nếu: Bạn đang thực hiện các tác vụ small object detection, chẳng hạn như hình ảnh drone trên không hoặc phát hiện khối u nhỏ, nơi việc giữ lại đặc trưng của kiến trúc GELAN cung cấp độ trung thực cao nhất.
  • Chọn YOLOv10 nếu: Mục tiêu chính của bạn là real-time inference trên các thiết bị edge. Thiết kế NMS-free làm cho nó trở nên hoàn hảo cho robot tự hành, giám sát giao thông thời gian thực và smart surveillance.

Đón đầu tương lai: Chuyển dịch sang YOLO26

Mặc dù YOLOv8, YOLOv9 và YOLOv10 đều là những model xuất sắc, các nhà phát triển đang tìm cách xây dựng các giải pháp AI hiện đại nên cân nhắc Ultralytics YOLO26, được ra mắt vào tháng 1 năm 2026.

YOLO26 đại diện cho sự tổng hợp tối ưu của các thế hệ trước, kết hợp những khía cạnh tốt nhất của độ chính xác từ YOLOv9 và hiệu quả từ YOLOv10.

Những đổi mới chính trên YOLO26

  • Thiết kế End-to-End NMS-Free: Xây dựng trên nền tảng của YOLOv10, YOLO26 loại bỏ hoàn toàn hậu xử lý NMS một cách nguyên bản để triển khai đơn giản hơn.
  • Optimizer MuSGD: Sự kết hợp giữa SGD và Muon, mang những cải tiến training LLM tiên tiến vào thị giác máy tính để đạt sự hội tụ cực kỳ ổn định và nhanh chóng.
  • Tốc độ Inference trên CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho edge computing và các thiết bị không có GPU chuyên dụng.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa model export và tăng cường khả năng tương thích với thiết bị tiêu thụ năng lượng thấp.
  • ProgLoss + STAL: Các hàm loss được cải tiến này mang lại những bước tiến đáng kể trong nhận diện đối tượng nhỏ, ngang bằng hoặc vượt trội so với khả năng của YOLOv9.

Đối với các nhà nghiên cứu đang đánh giá các kiến trúc cũ, RT-DETRYOLO11 cũng là những phương án thay thế được tài liệu hóa đầy đủ trong hệ sinh thái Ultralytics. Tuy nhiên, để đạt được sự linh hoạt tối đa trên mọi tác vụ thị giác, việc chuyển sang YOLO26 trên Ultralytics Platform đảm bảo bạn đang tận dụng đỉnh cao của vision AI mã nguồn mở.

Bình luận