Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 so với YOLOv6-3.0#

Sự tiến hóa của công nghệ phát hiện đối tượng thời gian thực được thúc đẩy bởi những đổi mới liên tục trong kiến trúc mạng thần kinh, giúp tối ưu hóa sự cân bằng tinh tế giữa tốc độ suy luận, độ chính xác và hiệu quả tính toán. Khi các lập trình viên và nhà nghiên cứu điều hướng trong bối cảnh các framework thị giác máy tính đầy cạnh tranh, việc so sánh các kiến trúc hàng đầu là yếu tố thiết yếu để chọn đúng công cụ cho công việc.

Hướng dẫn kỹ thuật này cung cấp một so sánh chuyên sâu giữa hai model có năng lực cao: YOLOv9, nổi tiếng với khả năng lưu giữ thông tin học sâu, và YOLOv6-3.0, một model được thiết kế đặc biệt cho các ứng dụng công nghiệp.

Link to this sectionTổng quan về YOLOv9: Tối đa hóa khả năng lưu giữ đặc trưng#

Được giới thiệu vào đầu năm 2024, YOLOv9 giải quyết một trong những thách thức dai dẳng nhất trong mạng thần kinh sâu: sự mất mát thông tin trong quá trình feed-forward. Bằng cách đảm bảo các gradient đáng tin cậy và các bản đồ đặc trưng lưu giữ dữ liệu quan trọng, model này đẩy xa giới hạn về độ chính xác lý thuyết.

  • Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
  • Tổ chức: Viện Thông tin học, Academia Sinica, Đài Loan
  • Ngày: 21 tháng 2 năm 2024
  • Liên kết: Arxiv Paper, GitHub Repository

Link to this sectionKiến trúc và phương pháp luận#

YOLOv9 giới thiệu khái niệm Programmable Gradient Information (PGI) cùng với Generalized Efficient Layer Aggregation Network (GELAN). PGI giải quyết nút thắt thông tin bằng cách cung cấp giám sát phụ trợ, giúp mạng chính học được các đặc trưng mạnh mẽ và đáng tin cậy mà không làm tăng thêm chi phí suy luận. Trong khi đó, GELAN tối ưu hóa việc sử dụng tham số, cho phép model đạt được mean Average Precision (mAP) hàng đầu trong khi vẫn giữ chi phí tính toán ở mức hợp lý. Điều này khiến nó trở thành lựa chọn vượt trội cho phân tích hình ảnh y tế hoặc phát hiện các đối tượng cực nhỏ nơi độ trung thực của đặc trưng là yếu tố sống còn.

Tìm hiểu thêm về YOLOv9

Link to this sectionTổng quan về YOLOv6-3.0: Xây dựng cho quy mô công nghiệp#

Được phát triển bởi Meituan, YOLOv6-3.0 (hay còn gọi là v3.0) được thiết kế từ đầu để phục vụ các ứng dụng công nghiệp hạng nặng. Ra mắt vào đầu năm 2023, model tập trung mạnh mẽ vào hiệu quả triển khai, cung cấp một bộ các model thân thiện với lượng tử hóa, vượt trội trên phần cứng biên.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
  • Tổ chức: Meituan
  • Ngày: 13 tháng 1, 2023
  • Liên kết: Arxiv Paper, GitHub Repository

Link to this sectionKiến trúc và phương pháp luận#

YOLOv6-3.0 tạo sự khác biệt thông qua các chiến lược RepOptimizer và Anchor-Aided Training (AAT). Model sử dụng thiết kế mạng thần kinh nhận thức phần cứng lấy cảm hứng từ RepVGG, cho phép chạy cực nhanh trên GPU trong quá trình suy luận nhờ việc hợp nhất các lớp. Bản cập nhật 3.0 tinh chỉnh thêm kiến trúc bằng cách giới thiệu mô-đun Bi-directional Concatenation (BiC) để cải thiện độ chính xác định vị. Vì được tối ưu hóa cao cho các định dạng triển khai như TensorRTOpenVINO, YOLOv6-3.0 thường được áp dụng trong logistics, tự động hóa sản xuất và các môi trường server có lưu lượng cao.

Tìm hiểu thêm về YOLOv6-3.0

Link to this sectionSo sánh hiệu năng#

Khi đánh giá các model này trên dataset COCO tiêu chuẩn, chúng ta có thể quan sát thấy sự đánh đổi rõ rệt giữa độ chính xác và tốc độ suy luận thô.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Link to this sectionPhân tích kỹ thuật#

Trong khi YOLOv6-3.0n dẫn đầu về tốc độ thô trên phần cứng T4 (1.17ms), YOLOv9t quản lý để đạt được mAP cao hơn một chút (38.3%) trong khi sử dụng ít hơn một nửa số tham số (2.0M so với 4.7M) và ít FLOPs hơn đáng kể. Đối với các yêu cầu phức tạp cần độ chính xác cao, YOLOv9e khổng lồ đẩy độ chính xác lên 55.6% mAP, minh chứng cho sức mạnh của kiến trúc PGI trong các mạng sâu.

Chuẩn bị cho tương lai dự án của bạn với YOLO26

Nếu bạn đang bắt đầu một sáng kiến thị giác máy tính mới, chúng tôi thực sự khuyên bạn nên sử dụng YOLO26. Ra mắt năm 2026, model này sở hữu thiết kế End-to-End NMS-Free nguyên bản giúp loại bỏ hoàn toàn độ trễ xử lý hậu kỳ, mang lại tốc độ suy luận CPU nhanh hơn tới 43%.

Link to this sectionLợi thế từ hệ sinh thái Ultralytics#

Bất kể triết lý kiến trúc của model nào thu hút bạn, việc triển khai chúng một cách nguyên bản thông qua Ultralytics Python API đều mang lại trải nghiệm lập trình vượt trội.

Link to this sectionDễ sử dụng và hiệu quả huấn luyện#

Huấn luyện các model học sâu phức tạp theo truyền thống đòi hỏi rất nhiều boilerplate code. Ultralytics Platform tóm tắt các sự phức tạp đó. Dù bạn đang tinh chỉnh YOLOv9 cho phát hiện lỗi sản phẩm hay xuất YOLOv6 cho các ứng dụng di động, quy trình làm việc vẫn nhất quán một cách đáng kinh ngạc.

Hơn nữa, các kiến trúc của Ultralytics thường có yêu cầu bộ nhớ CUDA thấp hơn trong quá trình huấn luyện so với các model dựa trên Transformer cồng kềnh. Điều này cho phép các lập trình viên sử dụng batch size lớn hơn trên các GPU tiêu dùng, giúp cải thiện đáng kể hiệu quả huấn luyện.

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", quantize=16)

Link to this sectionTính linh hoạt chưa từng có trong các tác vụ thị giác#

Trong khi YOLOv6-3.0 được tối ưu hóa mạnh mẽ để tạo bounding box nhanh, các dự án thị giác máy tính hiện đại thường đòi hỏi cách tiếp cận đa nhiệm. Các model của Ultralytics nổi tiếng vì tính linh hoạt cực cao. Với các công cụ như Ultralytics YOLOv8 và YOLO26 mới hơn, một framework duy nhất có thể xử lý liền mạch phát hiện đối tượng, phân đoạn cá thể, phân loại hình ảnh, ước tính tư thếoriented bounding boxes (OBB).

Link to this sectionGiới thiệu YOLO26: Tiêu chuẩn mới#

Đối với các tổ chức muốn tối đa hóa cả hiệu suất lẫn sự dễ dàng trong triển khai, YOLO26 đại diện cho sự hội tụ tối thượng của tốc độ và độ chính xác.

Dựa trên những thành công của YOLO11, YOLO26 giới thiệu một số tính năng thay đổi tư duy:

  • MuSGD Optimizer: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (LLM) như Kimi K2 của Moonshot AI, trình tối ưu hóa lai này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa biểu đồ xuất, giúp nó tương thích hơn đáng kể với các chip tính toán biên công suất thấp.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong nhận diện đối tượng nhỏ, vốn rất quan trọng đối với hoạt động của drone và các ứng dụng IoT.
  • Cải tiến theo tác vụ: YOLO26 bao gồm tạo mẫu đa quy mô nguyên bản cho phân đoạn, Residual Log-Likelihood Estimation (RLE) cho theo dõi khung xương và các thuật toán mất mát góc chuyên dụng để giải quyết các trường hợp biên trong phát hiện OBB.

Link to this sectionCác kịch bản triển khai lý tưởng#

Việc lựa chọn kiến trúc phù hợp cuối cùng phụ thuộc vào các ràng buộc sản xuất của bạn.

Chọn YOLOv6-3.0 nếu bạn có một quy trình sẵn có trong sản xuất công nghiệp, phụ thuộc nhiều vào lượng tử hóa và sử dụng các bộ tăng tốc suy luận chuyên dụng nơi bạn cần độ trễ phần cứng thấp nhất dưới một mili giây.

Chọn YOLOv9 nếu bạn đang giải quyết các vấn đề phức tạp trong chẩn đoán chăm sóc sức khỏe hoặc giám sát tầm xa nơi việc bỏ lỡ các đặc trưng tinh tế ở cấp độ pixel không phải là một lựa chọn.

Tuy nhiên, đối với một cách tiếp cận cân bằng hoàn hảo cung cấp độ chính xác tiên tiến cùng với triển khai đơn giản, không cần NMS, Ultralytics YOLO26 là đề xuất cuối cùng cho kỹ thuật thị giác máy tính hiện đại. Chu kỳ phát triển tích cực, tài liệu toàn diện và sự hỗ trợ cộng đồng sôi nổi khiến nó trở thành công cụ không thể thiếu cho cả nhà nghiên cứu và lập trình viên.

Người đóng góp

Bình luận