Meet YOLO26: next-gen vision AI.

Link to this sectionSo sánh YOLOv9 với EfficientDet#

Lĩnh vực thị giác máy tính đã chứng kiến sự phát triển nhanh chóng trong object detection thời gian thực, với các nhà nghiên cứu liên tục vượt qua các giới hạn về độ chính xác và hiệu quả. Khi xây dựng các hệ thống thị giác mạnh mẽ, việc lựa chọn kiến trúc tối ưu là một quyết định quan trọng. Hai mô hình được thảo luận nhiều trong không gian này là YOLOv9, một bản cập nhật nâng cao của dòng YOLO tập trung vào thông tin gradient, và EfficientDet, một framework có khả năng mở rộng được phát triển bởi Google.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu so sánh hai kiến trúc này, kiểm tra cơ chế nền tảng, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Link to this sectionNguồn gốc mô hình và thông số kỹ thuật#

Việc hiểu về dòng dõi và triết lý thiết kế của một mô hình cung cấp bối cảnh có giá trị cho các quyết định cấu trúc và ứng dụng thực tế của nó.

Link to this sectionYOLOv9: Tối đa hóa luồng thông tin#

Được phát triển để giải quyết vấn đề "nút thắt cổ chai thông tin" (information bottleneck) trong học sâu, YOLOv9 giới thiệu các phương pháp mới để đảm bảo dữ liệu không bị mất khi đi qua các mạng thần kinh sâu.

  • Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
  • Tổ chức: Viện Thông tin học, Academia Sinica, Đài Loan
  • Ngày: 21 tháng 2 năm 2024
  • Liên kết: Ấn phẩm ArXiv, GitHub chính thức

YOLOv9 giới thiệu Programmable Gradient Information (PGI), một framework giám sát phụ đảm bảo thông tin gradient được bảo toàn đáng tin cậy qua các lớp sâu. Công nghệ này được kết hợp với Generalized Efficient Layer Aggregation Network (GELAN), giúp tối ưu hóa hiệu quả tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN. Điều này cho phép YOLOv9 đạt được độ chính xác cao trong khi vẫn duy trì một footprint nhẹ phù hợp cho xử lý biên thời gian thực.

Tìm hiểu thêm về YOLOv9

Link to this sectionEfficientDet: Compound Scaling và BiFPN#

Được giới thiệu bởi Google Brain, EfficientDet tiếp cận bài toán object detection bằng cách mở rộng hệ thống các chiều của mạng lưới một cách có hệ thống để cân bằng giữa tốc độ và độ chính xác.

EfficientDet dựa trên backbone EfficientNet kết hợp với Bidirectional Feature Pyramid Network (BiFPN). BiFPN cho phép hợp nhất tính năng đa quy mô một cách dễ dàng và nhanh chóng. Kiến trúc này sử dụng phương pháp mở rộng hợp nhất (compound scaling) để điều chỉnh độ phân giải, độ sâu và chiều rộng cho tất cả các backbone, mạng tính năng và mạng dự đoán box/lớp một cách đồng thời.

Tìm hiểu thêm về EfficientDet

Lựa chọn Framework phù hợp

Mặc dù các kiến trúc lý thuyết rất quan trọng, hệ sinh thái phần mềm thường quyết định sự thành công của dự án. Ultralytics cung cấp trải nghiệm người dùng tinh gọn và các công cụ triển khai mạnh mẽ giúp giảm đáng kể thời gian ra thị trường so với các codebase nghiên cứu phức tạp.

Link to this sectionSo sánh Hiệu năng và Chỉ số#

Khi phân tích hiệu suất mô hình, việc cân bằng giữa độ chính xác với độ trễ suy luận và chi phí tính toán là rất cần thiết. Bảng dưới đây minh họa các sự đánh đổi trên các kích thước khác nhau của YOLOv9 và EfficientDet.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Link to this sectionPhân tích quan trọng về các chỉ số#

  1. Ngưỡng độ chính xác: YOLOv9e đạt độ chính xác tổng thể cao nhất ở mức ấn tượng 55,6% mAP (mean Average Precision), vượt trội hơn mô hình EfficientDet-d7 nặng nhất (53,7%) trong khi vẫn duy trì tốc độ TensorRT nhanh hơn.
  2. Tốc độ thời gian thực: YOLOv9t chỉ cần 2,3ms trên T4 GPU khi sử dụng TensorRT, nhấn mạnh hiệu quả của kiến trúc GELAN đối với các luồng video tốc độ cao. EfficientDet-d0 hoạt động nhanh nhưng hy sinh đáng kể mAP để đạt được tốc độ đó.
  3. Độ phức tạp tính toán: EfficientDet mở rộng đáng kể về số lượng tham số và FLOPs khi hệ số compound tăng lên. Biến thể d7 đạt độ trễ 128ms, khiến nó chậm hơn gấp 10 lần so với các mô hình YOLO hiện đại tương đương, hạn chế nghiêm trọng việc sử dụng trong các môi trường suy luận thời gian thực.

Link to this sectionHiệu quả huấn luyện và hệ sinh thái#

Việc lựa chọn mô hình bao gồm cả việc đánh giá hệ sinh thái nhà phát triển. Hệ sinh thái Ultralytics mang lại lợi thế vượt trội về hiệu quả đào tạo, tính linh hoạt khi triển khai và sự linh hoạt chung.

Link to this sectionLợi thế từ Ultralytics#

Các mô hình được hỗ trợ trong framework Ultralytics, bao gồm YOLOv9 thông qua các tích hợp cộng đồng và các mô hình Ultralytics chính thức như YOLOv8 và YOLO11, được hưởng lợi từ yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình đào tạo so với các kiến trúc dựa trên Transformer hoặc TensorFlow cũ hơn như EfficientDet. Backend PyTorch mạnh mẽ đảm bảo khả năng hội tụ nhanh và ổn định.

Link to this sectionVí dụ triển khai#

Việc đào tạo một mô hình thị giác máy tính tiên tiến không nên đòi hỏi hàng trăm dòng mã boilerplate. Đây là cách bạn có thể bắt đầu đào tạo dễ dàng bằng gói Python của Ultralytics:

from ultralytics import YOLO

# Load an official Ultralytics model (e.g., YOLO11 or YOLO26)
model = YOLO("yolo11n.pt")

# Train the model natively on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Link to this sectionCác trường hợp sử dụng lý tưởng và ứng dụng thực tế#

Các mô hình cấu trúc khác nhau làm cho chúng phù hợp với các kịch bản riêng biệt.

Khi nào nên sử dụng EfficientDet: EfficientDet vẫn là một lựa chọn khả thi trong các hệ thống cũ đã gắn liền với hệ sinh thái TensorFlow nơi việc di chuyển sang PyTorch là không khả thi. Nó cũng nổi tiếng trong lịch sử nghiên cứu phân tích hình ảnh y tế nơi việc xử lý ngoại tuyến chậm đối với các bản quét độ phân giải cao là có thể chấp nhận được.

Khi nào nên sử dụng YOLOv9: YOLOv9 vượt trội trong các môi trường yêu cầu trích xuất độ chính xác tối đa từ các lớp sâu mà không làm tăng số lượng tham số. Các ứng dụng như quản lý giao thông đô thị thông minh phức tạp và giám sát đám đông mật độ cao được hưởng lợi rất nhiều từ khả năng duy trì tính toàn vẹn của tính năng của PGI.

Link to this sectionĐảm bảo tương lai: Thế hệ AI thị giác tiếp theo#

Mặc dù YOLOv9 và EfficientDet rất mạnh mẽ, các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa tốc độ edge computing, độ ổn định khi đào tạo và sự đơn giản khi triển khai nên hướng tới những đổi mới mới nhất.

Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 đại diện cho trạng thái tiên tiến nhất hiện nay. Nó cải thiện các thế hệ trước (bao gồm YOLO11YOLOv8) với một số bước đột phá quan trọng:

  • Thiết kế end-to-end không cần NMS: YOLO26 loại bỏ hoàn toàn Non-Maximum Suppression, một khái niệm được tiên phong trong YOLOv10, giúp cho việc triển khai mô hình nhanh hơn và đơn giản hơn đáng kể.
  • Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa việc xuất và cải thiện khả năng tương thích với các thiết bị biên/thiết bị tiêu thụ điện năng thấp.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa hoàn hảo cho các thiết bị IoT và các môi trường thiếu GPU chuyên dụng.
  • MuSGD Optimizer: Một sự kết hợp lai mang tính cách mạng giữa SGD và Muon (lấy cảm hứng từ các đổi mới trong đào tạo LLM), đảm bảo khả năng hội tụ nhanh hơn và các lần đào tạo cực kỳ ổn định.
  • ProgLoss + STAL: Các hàm loss tiên tiến cải thiện đáng kể khả năng phát hiện các đối tượng nhỏ, một yếu tố quan trọng đối với hình ảnh máy bay không người lái và robot mạnh mẽ.

Tìm hiểu thêm về YOLO26

Bằng cách tận dụng Nền tảng Ultralytics toàn diện, các nhóm có thể dễ dàng quản lý tập dữ liệu, theo dõi các thử nghiệm và triển khai các mô hình như YOLO26 trên các hệ sinh thái phần cứng đa dạng, đảm bảo các pipeline thị giác máy tính của họ luôn tiên tiến và sẵn sàng sản xuất.

Người đóng góp

Bình luận