Link to this sectionYOLOv9 so với YOLOv10: Tìm hiểu chuyên sâu về kỹ thuật trong sự phát triển của nhận diện đối tượng thời gian thực#
Bối cảnh của thị giác máy tính thời gian thực đã chứng kiến những bước tiến to lớn, chủ yếu nhờ vào việc các nhà nghiên cứu không ngừng thúc đẩy giới hạn về hiệu suất và hiệu quả. Khi phân tích sự phát triển của các model thị giác máy tính hiện đại nhất, YOLOv9 và YOLOv10 đại diện cho hai cột mốc quan trọng. Được ra mắt vào đầu năm 2024, cả hai model đều giới thiệu các thiết kế kiến trúc mang tính thay đổi mô hình để giải quyết các thách thức lâu đời trong mạng thần kinh sâu, từ nút thắt thông tin đến độ trễ hậu xử lý.
Bài so sánh kỹ thuật toàn diện này khám phá các kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng của chúng, giúp bạn điều hướng sự phức tạp của các hệ sinh thái nhận diện đối tượng hiện đại.
Link to this sectionNguồn gốc của model và các đột phá về kiến trúc#
Việc hiểu rõ nguồn gốc và nền tảng lý thuyết của các model này là rất quan trọng để chọn kiến trúc phù hợp cho dự án thị giác máy tính cụ thể của bạn.
Link to this sectionYOLOv9: Làm chủ luồng thông tin#
Được giới thiệu vào ngày 21 tháng 2 năm 2024, YOLOv9 giải quyết vấn đề lý thuyết về mất mát thông tin khi dữ liệu đi qua các mạng thần kinh sâu.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Institute of Information Science, Academia Sinica, Taiwan
- Tham khảo: YOLOv9 arXiv Paper
- Kho lưu trữ: YOLOv9 GitHub
YOLOv9 giới thiệu Generalized Efficient Layer Aggregation Network (GELAN), giúp tối đa hóa việc sử dụng tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN. Hơn nữa, nó sử dụng Programmable Gradient Information (PGI), một cơ chế giám sát bổ trợ đảm bảo các lớp sâu giữ lại thông tin không gian quan trọng. Điều này làm cho YOLOv9 trở nên cực kỳ mạnh mẽ cho các tác vụ đòi hỏi độ trung thực tính năng cao, chẳng hạn như phân tích hình ảnh y tế hoặc giám sát từ xa.
Link to this sectionYOLOv10: Hiệu quả end-to-end thời gian thực#
Được phát hành ngay sau đó vào ngày 23 tháng 5 năm 2024, YOLOv10 tái hình dung quy trình triển khai bằng cách loại bỏ một trong những nút thắt độ trễ khét tiếng nhất trong nhận diện đối tượng: Non-Maximum Suppression (NMS).
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
- Tổ chức: Đại học Thanh Hoa
- Tham khảo: YOLOv10 arXiv Paper
- Kho lưu trữ: YOLOv10 GitHub
YOLOv10 sử dụng consistent dual assignments trong quá trình huấn luyện, cho phép thiết kế NMS-free nguyên bản. Điều này loại bỏ chi phí hậu xử lý trong quá trình inference, giúp giảm đáng kể độ trễ. Kết hợp với thiết kế model hướng tới sự cân bằng toàn diện về hiệu quả và độ chính xác, YOLOv10 đạt được mức cân bằng vượt trội, giảm chi phí tính toán (FLOPs) trong khi vẫn duy trì độ chính xác cạnh tranh, khiến nó trở nên rất hấp dẫn cho các ứng dụng điện toán biên.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi benchmark hai
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Link to this sectionPhân tích dữ liệu#
- Độ trễ so với độ chính xác: Các model YOLOv10 thường mang lại tốc độ inference vượt trội. Ví dụ, YOLOv10s đạt 46.7% mAP chỉ trong 2.66ms trên TensorRT, so với YOLOv9s cần 3.54ms cho mAP 46.8% gần như tương đương.
- Độ chính xác đỉnh cao: Đối với các kịch bản nghiên cứu yêu cầu độ chính xác nhận diện tối đa, YOLOv9e vẫn là một lựa chọn đáng gờm, đạt tới mức 55.6% mAP ấn tượng. Kiến trúc PGI của nó đảm bảo các tính năng tinh vi được trích xuất một cách đáng tin cậy.
- Hiệu quả: YOLOv10 vượt trội về hiệu quả FLOPs. Điều này chuyển đổi trực tiếp thành mức tiêu thụ điện năng thấp hơn, một số liệu quan trọng cho các thiết bị chạy bằng pin sử dụng các model vision AI.
Nếu bạn đang triển khai trên CPU hoặc phần cứng biên hạn chế về tài nguyên như Raspberry Pi, kiến trúc NMS-free của YOLOv10 thường sẽ cung cấp một quy trình mượt mà hơn bằng cách loại bỏ các bước hậu xử lý không xác định.
Link to this sectionLợi thế từ Ultralytics: Huấn luyện và hệ sinh thái#
Mặc dù sự khác biệt về kiến trúc là rất quan trọng, nhưng hệ sinh thái phần mềm xung quanh quyết định rất nhiều đến sự thành công của một dự án. Cả YOLOv9 và YOLOv10 đều được tích hợp hoàn toàn vào hệ sinh thái Ultralytics, mang lại trải nghiệm nhà phát triển vô song.
Link to this sectionDễ sử dụng và hiệu quả bộ nhớ#
Không giống như các kiến trúc dựa trên Transformer phức tạp gặp tình trạng chiếm dụng bộ nhớ khổng lồ, các model Ultralytics YOLO được thiết kế để sử dụng bộ nhớ GPU tối ưu. Điều này cho phép các nhà nghiên cứu sử dụng batch size lớn hơn trên phần cứng phổ thông, giúp AI hiện đại trở nên dễ tiếp cận.
API Python thống nhất giúp trừu tượng hóa sự phức tạp của tăng cường dữ liệu và tinh chỉnh siêu tham số. Bạn có thể chuyển đổi liền mạch giữa các kiến trúc chỉ bằng cách thay đổi chuỗi file trọng số.
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")Cho dù bạn cần ghi nhật ký số liệu vào MLflow hay xuất sang TensorRT để triển khai phần cứng tốc độ cao, nền tảng Ultralytics đều xử lý nó một cách nguyên bản.
Link to this sectionCác trường hợp sử dụng lý tưởng#
Việc lựa chọn giữa các model này phụ thuộc vào các ràng buộc triển khai của bạn:
- Chọn YOLOv9 nếu: Bạn đang thực hiện các tác vụ nhận diện đối tượng nhỏ, chẳng hạn như hình ảnh máy bay không người lái (drone) hoặc phát hiện khối u nhỏ, nơi khả năng giữ lại tính năng của kiến trúc GELAN cung cấp độ trung thực cao nhất.
- Chọn YOLOv10 nếu: Mục tiêu chính của bạn là inference thời gian thực trên các thiết bị biên. Thiết kế NMS-free giúp nó hoàn hảo cho robotics tự hành, giám sát giao thông thời gian thực và giám sát thông minh.
Link to this sectionHướng tới tương lai: Sự chuyển dịch sang YOLO26#
Mặc dù YOLOv8, YOLOv9 và YOLOv10 là những model tuyệt vời, nhưng các nhà phát triển muốn xây dựng các giải pháp AI hiện đại nên cân nhắc Ultralytics YOLO26, được phát hành vào tháng 1 năm 2026.
YOLO26 đại diện cho sự tổng hợp tối ưu của các thế hệ trước, kết hợp những khía cạnh tốt nhất về độ chính xác của YOLOv9 và hiệu quả của YOLOv10.
Link to this sectionNhững đổi mới chính của YOLO26#
- Thiết kế NMS-Free End-to-End: Dựa trên nền tảng của YOLOv10, YOLO26 loại bỏ hoàn toàn hậu xử lý NMS một cách nguyên bản để triển khai đơn giản hơn.
- Bộ tối ưu hóa MuSGD: Một sự kết hợp giữa SGD và Muon, mang những cải tiến huấn luyện LLM tiên tiến vào thị giác máy tính để đạt được sự hội tụ nhanh và ổn định đáng kinh ngạc.
- Inference CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị không có GPU chuyên dụng.
- Loại bỏ DFL: Distribution Focal Loss đã bị loại bỏ để đơn giản hóa xuất model và tăng khả năng tương thích với các thiết bị công suất thấp.
- ProgLoss + STAL: Các hàm mất mát cải tiến này mang lại sự nâng cấp đáng kể trong việc nhận diện đối tượng nhỏ, ngang bằng hoặc vượt xa khả năng của YOLOv9.
Đối với các nhà nghiên cứu đang đánh giá các kiến trúc cũ, RT-DETR và YOLO11 cũng là những lựa chọn thay thế được ghi chép đầy đủ trong hệ sinh thái Ultralytics. Tuy nhiên, để có tính linh hoạt tối đa trên tất cả các tác vụ thị giác máy tính, việc chuyển sang YOLO26 trên Ultralytics Platform đảm bảo bạn đang tận dụng đỉnh cao của vision AI mã nguồn mở.