Chuyển đến nội dung

YOLOv9 So với YOLO26: Phân tích chuyên sâu về công nghệ phát hiện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển đáng kể trong vài năm qua. Khi các chuyên gia máy học tìm cách triển khai các mô hình trên nhiều loại phần cứng khác nhau, việc lựa chọn kiến ​​trúc phù hợp là rất quan trọng. Trong hướng dẫn kỹ thuật toàn diện này, chúng tôi so sánh hai cột mốc quan trọng trong lĩnh vực thị giác máy tính: YOLOv9 , được giới thiệu vào đầu năm 2024 với trọng tâm là tối ưu hóa đường dẫn gradient, và Ultralytics YOLO26 , khung công nghệ tiên tiến nhất được phát hành vào đầu năm 2026, hoàn toàn định nghĩa lại suy luận biên và tính ổn định huấn luyện.

Tóm tắt: Nguồn gốc và tác giả của mô hình

Việc hiểu rõ nguồn gốc của các mô hình học sâu này cung cấp bối cảnh có giá trị liên quan đến các lựa chọn thiết kế kiến ​​trúc và đối tượng mục tiêu của chúng.

YOLOv9

Được biên soạn bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin tại Academia Sinica ở Đài Loan, YOLOv9 đã được phát hành vào ngày 21 tháng 2 năm 2024. Mô hình này tập trung mạnh vào các khái niệm học sâu lý thuyết, đặc biệt giải quyết vấn đề nút cổ chai thông tin trong các mạng nơ-ron tích chập sâu (CNNs).

Tìm hiểu thêm về YOLOv9

Ultralytics YOLO26

Được biên soạn bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO26 đã được phát hành vào ngày 14 tháng 1 năm 2026. Dựa trên thành công lớn của các phiên bản tiền nhiệm như YOLO11YOLOv8, YOLO26 được thiết kế từ đầu để ưu tiên sẵn sàng cho sản xuất, triển khai trên thiết bị biên và hiệu quả đầu cuối nguyên bản.

Tìm hiểu thêm về YOLO26

Hãy thử YOLO26 ngay hôm nay!

Bạn đã sẵn sàng nâng cấp quy trình xử lý hình ảnh máy tính của mình chưa? Bạn có thể dễ dàng huấn luyện và triển khai các mô hình YOLO26 trên đám mây mà không cần viết bất kỳ mã nào bằng cách sử dụng Nền tảng Ultralytics .

Đổi mới Kiến trúc

Cả hai mô hình đều mang đến những thay đổi đột phá trong cách mạng nơ-ron xử lý dữ liệu hình ảnh, nhưng chúng tiếp cận vấn đề từ các góc độ khác nhau.

Thông tin về độ dốc có thể lập trình trong YOLOv9

YOLOv9 Đóng góp chính của ông cho lĩnh vực này là việc giới thiệu Thông tin Gradient Lập trình được (Programmable Gradient Information - PGI)Mạng Tổng hợp Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation Network - GELAN) . Khi mạng nơ-ron trở nên sâu hơn, chúng thường bị mất thông tin trong quá trình truyền tiến. PGI đảm bảo rằng các gradient được sử dụng để cập nhật trọng số trong quá trình lan truyền ngược vẫn chính xác và đáng tin cậy, cho phép kiến ​​trúc GELAN đạt được độ chính xác cao với ít tham số hơn.

Tuy nhiên, YOLOv9 dựa nhiều vào phương pháp ức chế không tối đa truyền thống (Non-Maximum Suppression) NMS ) cho quá trình xử lý hậu kỳ, điều này có thể trở thành nút thắt cổ chai gây ra độ trễ trong quá trình suy luận thực tế.

Kiến trúc ưu tiên thiết bị biên của YOLO26

YOLO26 áp dụng một cách tiếp cận hoàn toàn khác bằng cách tối ưu hóa toàn bộ quy trình từ huấn luyện đến triển khai thời gian thực. Nó được xây dựng dựa trên thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối, lần đầu tiên được tiên phong trong YOLOv10 , loại bỏ hoàn toàn nhu cầu về... NMS Xử lý hậu kỳ. Điều này dẫn đến độ trễ cực thấp, giúp tối ưu hóa mạnh mẽ cho các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson .

Hơn nữa, YOLO26 loại bỏ hoàn toàn hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL). Sự thay đổi cấu trúc này giúp đơn giản hóa việc xuất mô hình sang ONNX và mang lại khả năng tương thích tốt hơn đáng kể với các vi điều khiển công suất thấp.

Trong giai đoạn huấn luyện, YOLO26 tích hợp thuật toán tối ưu hóa MuSGD tiên tiến, một sự kết hợp giữa thuật toán giảm độ dốc ngẫu nhiên ( Stochastic Gradient Descent) và Muon (lấy cảm hứng từ phương pháp huấn luyện LLM của Kimi K2 thuộc Moonshot AI). Điều này giúp thu hẹp khoảng cách giữa những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính, mang lại khả năng huấn luyện ổn định hơn đáng kể và thời gian hội tụ nhanh hơn.

So sánh hiệu năng và số liệu

Khi so sánh hiệu năng trên tập dữ liệu COCO được sử dụng rộng rãi, cả hai mô hình đều thể hiện khả năng vượt trội, nhưng... Ultralytics Hệ sinh thái này nổi bật nhờ tốc độ suy luận thực tế và hiệu quả tham số.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Phân tích kết quả

  • Tốc độ và hiệu quả: Vì YOLO26 sử dụng kiến trúc không NMS và các hàm mất mát đơn giản hóa, nó tự hào có tốc độ suy luận CPU nhanh hơn tới 43% so với các kiến trúc cũ. Mô hình YOLO26n chạy với tốc độ cực nhanh 1.7ms trên GPU NVIDIA T4 sử dụng TensorRT, biến nó thành lựa chọn tối ưu cho các luồng video thời gian thực.
  • Độ chính xác: Mô hình YOLO26x đạt 57.5 mAP vượt trội, vượt trội hơn mô hình YOLOv9e lớn nhất đồng thời duy trì độ trễ thấp hơn.
  • Yêu cầu bộ nhớ: Các mô hình Ultralytics nổi tiếng về hiệu quả của chúng. YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện mô hình và suy luận so với các mô hình thị giác dựa trên transformer phức tạp, cho phép các nhà phát triển sử dụng kích thước batch lớn hơn trên phần cứng phổ thông.

Hệ sinh thái, tính dễ sử dụng và tính linh hoạt

Sức mạnh thực sự của Ultralytics Hệ sinh thái nằm ở trải nghiệm người dùng. Trong khi các nhà nghiên cứu sử dụng YOLOv9 Mã nguồn GitHub phải xử lý các thiết lập môi trường phức tạp và việc lập trình thủ công, YOLO26 được tích hợp hoàn toàn vào giao diện trực quan. Ultralytics Python API.

Ví dụ API được đơn giản hóa

Việc huấn luyện một mô hình YOLO26 hiện đại chỉ cần một vài dòng mã Python :

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Khả năng thực hiện nhiệm vụ vượt trội

Không giống như YOLOv9 Được thiết kế chủ yếu cho việc phát hiện đối tượng tiêu chuẩn, YOLO26 hỗ trợ sẵn một loạt các tác vụ thị giác máy tính rộng lớn. Kiến trúc này bao gồm các cải tiến cụ thể cho nhiều ứng dụng khác nhau:

  • Phân đoạn thực thể: Có tính năng mất mát phân đoạn ngữ nghĩa chuyên biệt và proto đa tỷ lệ để tạo mặt nạ cấp độ pixel hoàn hảo.
  • Pose Estimation: Tích hợp Ước tính Log-Likelihood Dư (RLE) để track các điểm chính xương với độ chính xác cực cao.
  • Oriented Bounding Boxes (OBB): Bao gồm một hàm mất mát góc chuyên biệt được thiết kế đặc biệt để giải quyết các vấn đề ranh giới trong việc detect đối tượng xoay cho hình ảnh trên không.
  • Phân loại hình ảnh: Phân loại mạnh mẽ cho toàn bộ hình ảnh dựa trên tiêu chuẩn ImageNet.

Hệ sinh thái tích hợp

Tất cả các mô hình YOLO26 đều hưởng lợi từ việc tích hợp liền mạch với Nền tảng Ultralytics, cung cấp tính năng gán nhãn tập dữ liệu tích hợp, học chủ động và các quy trình triển khai tức thì.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường mà chúng sẽ được triển khai.

IoT và Robot biên

Đối với robot, máy bay không người lái tự hành và thiết bị IoT nhà thông minh, YOLO26 là nhà vô địch không thể tranh cãi . Việc tích hợp ProgLoss + STAL mang lại những cải tiến đáng kể cho khả năng nhận dạng vật thể nhỏ, điều rất quan trọng đối với việc giám sát nông nghiệp từ máy bay không người lái ở độ cao lớn. Kết hợp với tốc độ nhanh hơn 43%, CPU suy luận và NMS - Với thiết kế tự do, YOLO26 có thể chạy mượt mà trên phần cứng không cần GPU chuyên dụng.

Nghiên Cứu Học Thuật và Phân Tích Gradient

YOLOv9 vẫn là một mô hình được đánh giá cao trong giới học thuật. Các nhà nghiên cứu điều tra các giới hạn lý thuyết của dòng gradient, hoặc những người tìm cách xây dựng các lớp PyTorch tùy chỉnh dựa trên khái niệm PGI, sẽ thấy codebase của YOLOv9 là một nền tảng tuyệt vời để khám phá lý thuyết học sâu.

Dây chuyền sản xuất tốc độ cao

Trong môi trường công nghiệp, ví dụ như hệ thống phát hiện lỗi tự động trên băng tải tốc độ cao, tốc độ cực nhanh là yếu tố then chốt. TensorRT Tốc độ của các mẫu YOLO26 đảm bảo không có khung hình nào bị mất, tối đa hóa hiệu suất của hệ thống kiểm soát chất lượng.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv9 và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

  • Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
  • Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
  • Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
  • Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Kết luận

Cả hai mô hình đều đại diện cho những bước tiến vượt bậc đối với cộng đồng mã nguồn mở. YOLOv9 đã giới thiệu những cải tiến lý thuyết quan trọng về luồng gradient, điều sẽ truyền cảm hứng cho các kiến trúc trong nhiều năm tới. Tuy nhiên, đối với các nhà phát triển hiện đại, các công ty khởi nghiệp và các đội ngũ doanh nghiệp đang tìm kiếm sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và khả năng triển khai dễ dàng, Ultralytics YOLO26 là khuyến nghị rõ ràng.

Bằng cách loại bỏ NMS, giới thiệu trình tối ưu hóa MuSGD mạnh mẽ và cung cấp bộ công cụ vượt trội cho các tác vụ detect, segmentation và pose, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên framework đáng tin cậy và có khả năng chống chịu trong tương lai nhất hiện có.


Bình luận