Chuyển đến nội dung

YOLOv9 So với YOLO26: Phân tích chuyên sâu về công nghệ phát hiện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển đáng kể trong vài năm qua. Khi các chuyên gia máy học tìm cách triển khai các mô hình trên nhiều loại phần cứng khác nhau, việc lựa chọn kiến ​​trúc phù hợp là rất quan trọng. Trong hướng dẫn kỹ thuật toàn diện này, chúng tôi so sánh hai cột mốc quan trọng trong lĩnh vực thị giác máy tính: YOLOv9 , được giới thiệu vào đầu năm 2024 với trọng tâm là tối ưu hóa đường dẫn gradient, và Ultralytics YOLO26 , khung công nghệ tiên tiến nhất được phát hành vào đầu năm 2026, hoàn toàn định nghĩa lại suy luận biên và tính ổn định huấn luyện.

Tóm tắt: Nguồn gốc và tác giả của mô hình

Việc hiểu rõ nguồn gốc của các mô hình học sâu này cung cấp bối cảnh có giá trị liên quan đến các lựa chọn thiết kế kiến ​​trúc và đối tượng mục tiêu của chúng.

YOLOv9

Bài viết được chấp bút bởi Chien-Yao Wang và Hong-Yuan Mark Liao đến từ Viện Khoa học Thông tin thuộc Viện Hàn lâm Khoa học Đài Loan. YOLOv9 Mô hình này được phát hành vào ngày 21 tháng 2 năm 2024. Nó tập trung mạnh vào các khái niệm lý thuyết về học sâu, đặc biệt là giải quyết vấn đề tắc nghẽn thông tin trong mạng nơ-ron tích chập sâu (CNN).

Tìm hiểu thêm về YOLOv9

Ultralytics YOLO26

Được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics , YOLO26 được phát hành vào ngày 14 tháng 1 năm 2026. Dựa trên thành công vang dội của các phiên bản tiền nhiệm như YOLO11YOLOv8 , YOLO26 được thiết kế lại từ đầu để ưu tiên khả năng sẵn sàng cho môi trường sản xuất, triển khai tại biên và hiệu quả đầu cuối tự nhiên.

Tìm hiểu thêm về YOLO26

Hãy thử YOLO26 ngay hôm nay!

Bạn đã sẵn sàng nâng cấp quy trình xử lý hình ảnh máy tính của mình chưa? Bạn có thể dễ dàng huấn luyện và triển khai các mô hình YOLO26 trên đám mây mà không cần viết bất kỳ mã nào bằng cách sử dụng Nền tảng Ultralytics .

Đổi mới Kiến trúc

Cả hai mô hình đều giới thiệu những thay đổi mang tính đột phá về cách mạng lưới thần kinh xử lý dữ liệu hình ảnh, nhưng chúng tiếp cận vấn đề từ những góc độ khác nhau.

Thông tin về độ dốc có thể lập trình trong YOLOv9

YOLOv9 Đóng góp chính của ông cho lĩnh vực này là việc giới thiệu Thông tin Gradient Lập trình được (Programmable Gradient Information - PGI)Mạng Tổng hợp Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation Network - GELAN) . Khi mạng nơ-ron trở nên sâu hơn, chúng thường bị mất thông tin trong quá trình truyền tiến. PGI đảm bảo rằng các gradient được sử dụng để cập nhật trọng số trong quá trình lan truyền ngược vẫn chính xác và đáng tin cậy, cho phép kiến ​​trúc GELAN đạt được độ chính xác cao với ít tham số hơn.

Tuy nhiên, YOLOv9 dựa nhiều vào phương pháp ức chế không tối đa truyền thống (Non-Maximum Suppression) NMS ) cho quá trình xử lý hậu kỳ, điều này có thể trở thành nút thắt cổ chai gây ra độ trễ trong quá trình suy luận thực tế.

Kiến trúc ưu tiên thiết bị biên của YOLO26

YOLO26 áp dụng một cách tiếp cận hoàn toàn khác bằng cách tối ưu hóa toàn bộ quy trình từ huấn luyện đến triển khai thời gian thực. Nó được xây dựng dựa trên thiết kế không cần hệ quản lý mạng NMS từ đầu đến cuối, lần đầu tiên được tiên phong trong YOLOv10 , loại bỏ hoàn toàn nhu cầu về... NMS Xử lý hậu kỳ. Điều này dẫn đến độ trễ cực thấp, giúp tối ưu hóa mạnh mẽ cho các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson .

Hơn nữa, YOLO26 loại bỏ hoàn toàn hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL). Sự thay đổi cấu trúc này giúp đơn giản hóa việc xuất mô hình sang ONNX và mang lại khả năng tương thích tốt hơn đáng kể với các vi điều khiển công suất thấp.

Trong giai đoạn huấn luyện, YOLO26 tích hợp thuật toán tối ưu hóa MuSGD tiên tiến, một sự kết hợp giữa thuật toán giảm độ dốc ngẫu nhiên ( Stochastic Gradient Descent) và Muon (lấy cảm hứng từ phương pháp huấn luyện LLM của Kimi K2 thuộc Moonshot AI). Điều này giúp thu hẹp khoảng cách giữa những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính, mang lại khả năng huấn luyện ổn định hơn đáng kể và thời gian hội tụ nhanh hơn.

So sánh hiệu năng và số liệu

Khi so sánh hiệu năng trên tập dữ liệu COCO được sử dụng rộng rãi, cả hai mô hình đều thể hiện khả năng vượt trội, nhưng... Ultralytics Hệ sinh thái này nổi bật nhờ tốc độ suy luận thực tế và hiệu quả tham số.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Phân tích kết quả

  • Tốc độ và hiệu quả: Vì YOLO26 sử dụng một NMS Với kiến ​​trúc không ràng buộc và các hàm mất mát được đơn giản hóa, nó tự hào có tốc độ suy luận CPU nhanh hơn tới 43% so với các kiến ​​trúc cũ. Mô hình YOLO26n chạy với tốc độ cực nhanh 1,7ms trên một... NVIDIA T4 GPU Sử dụng TensorRT , đây là lựa chọn tối ưu cho các luồng video thời gian thực.
  • Độ chính xác: Mẫu YOLO26x đạt được mAP vượt trội 57,5 , vượt xa cả mẫu YOLOv9e lớn nhất trong khi vẫn duy trì độ trễ thấp hơn.
  • Yêu cầu bộ nhớ: Ultralytics Các mô hình này nổi tiếng về hiệu quả. YOLO26 yêu cầu ít năng lượng hơn đáng kể. CUDA So với các mô hình thị giác dựa trên Transformer phức tạp, bộ nhớ được sử dụng trong quá trình huấn luyện và suy luận mô hình hiệu quả hơn, cho phép các nhà phát triển sử dụng kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng.

Hệ sinh thái, tính dễ sử dụng và tính linh hoạt

Sức mạnh thực sự của Ultralytics Hệ sinh thái nằm ở trải nghiệm người dùng. Trong khi các nhà nghiên cứu sử dụng YOLOv9 Mã nguồn GitHub phải xử lý các thiết lập môi trường phức tạp và việc lập trình thủ công, YOLO26 được tích hợp hoàn toàn vào giao diện trực quan. Ultralytics Python API.

Ví dụ API được đơn giản hóa

Việc huấn luyện một mô hình YOLO26 hiện đại chỉ cần một vài dòng mã Python :

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Khả năng thực hiện nhiệm vụ vượt trội

Không giống như YOLOv9 Được thiết kế chủ yếu cho việc phát hiện đối tượng tiêu chuẩn, YOLO26 hỗ trợ sẵn một loạt các tác vụ thị giác máy tính rộng lớn. Kiến trúc này bao gồm các cải tiến cụ thể cho nhiều ứng dụng khác nhau:

  • Phân đoạn đối tượng : Có tính năng tổn thất phân đoạn ngữ nghĩa chuyên biệt và nguyên mẫu đa tỷ lệ để tạo mặt nạ cấp độ pixel hoàn hảo.
  • Ước lượng tư thế : Tích hợp ước lượng logarit khả năng xảy ra còn lại (RLE) vào track Xác định các điểm mấu chốt của bộ xương với độ chính xác cực cao.
  • Hộp giới hạn định hướng (OBB) : Bao gồm một hàm mất góc chuyên dụng được thiết kế đặc biệt để giải quyết các vấn đề về ranh giới trong phát hiện đối tượng xoay trên ảnh chụp từ trên không.
  • Phân loại hình ảnh : Phân loại mạnh mẽ cho toàn bộ hình ảnh dựa trên tiêu chuẩn ImageNet .

Hệ sinh thái tích hợp

Tất cả các mô hình YOLO26 đều được hưởng lợi từ khả năng tích hợp liền mạch với Nền tảng Ultralytics , cung cấp tính năng gắn nhãn dữ liệu tích hợp sẵn, học tập chủ động và quy trình triển khai tức thì.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường mà chúng sẽ được triển khai.

IoT và Robot biên

Đối với robot, máy bay không người lái tự hành và thiết bị IoT nhà thông minh, YOLO26 là nhà vô địch không thể tranh cãi . Việc tích hợp ProgLoss + STAL mang lại những cải tiến đáng kể cho khả năng nhận dạng vật thể nhỏ, điều rất quan trọng đối với việc giám sát nông nghiệp từ máy bay không người lái ở độ cao lớn. Kết hợp với tốc độ nhanh hơn 43%, CPU suy luận và NMS - Với thiết kế tự do, YOLO26 có thể chạy mượt mà trên phần cứng không cần GPU chuyên dụng.

Nghiên cứu học thuật và phân tích độ dốc

YOLOv9 vẫn là một mô hình được đánh giá cao trong giới học thuật. Các nhà nghiên cứu điều tra ranh giới lý thuyết của dòng gradient, hoặc những người muốn xây dựng các lớp PyTorch tùy chỉnh dựa trên khái niệm PGI, sẽ thấy rằng YOLOv9 rất hữu ích. YOLOv9 Mã nguồn của dự án này là nền tảng tuyệt vời để khám phá lý thuyết học sâu.

Dây chuyền sản xuất tốc độ cao

Trong môi trường công nghiệp, ví dụ như hệ thống phát hiện lỗi tự động trên băng tải tốc độ cao, tốc độ cực nhanh là yếu tố then chốt. TensorRT Tốc độ của các mẫu YOLO26 đảm bảo không có khung hình nào bị mất, tối đa hóa hiệu suất của hệ thống kiểm soát chất lượng.

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv9 Việc lựa chọn YOLO26 phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

  • Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến ​​trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
  • Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến ​​trúc.

Khi nào nên chọn YOLO26

YOLO26 được khuyến nghị sử dụng cho:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Kết luận

Cả hai mô hình đều thể hiện những bước tiến vượt bậc đối với cộng đồng mã nguồn mở. YOLOv9 Nó đã giới thiệu những cải tiến lý thuyết quan trọng cho luồng gradient, điều sẽ truyền cảm hứng cho các kiến ​​trúc trong nhiều năm tới. Tuy nhiên, đối với các nhà phát triển hiện đại, các công ty khởi nghiệp và các nhóm doanh nghiệp đang tìm kiếm sự cân bằng hoàn hảo giữa tốc độ, độ chính xác và tính dễ triển khai, Ultralytics YOLO26 là sự lựa chọn được đề xuất rõ ràng nhất.

Bằng cách loại bỏ NMS Với việc giới thiệu trình tối ưu hóa MuSGD mạnh mẽ và cung cấp bộ công cụ vượt trội cho các tác vụ phát hiện, phân đoạn và nhận diện tư thế, YOLO26 đảm bảo rằng các dự án thị giác máy tính của bạn được xây dựng trên nền tảng đáng tin cậy và có khả năng đáp ứng nhu cầu trong tương lai nhất hiện nay.


Bình luận