Chuyển đến nội dung

YOLOv9 so với YOLOv6 -3.0: So sánh kỹ thuật toàn diện

Sự phát triển của việc phát hiện đối tượng theo thời gian thực được thúc đẩy bởi những đổi mới liên tục trong kiến ​​trúc mạng nơ-ron, tối ưu hóa sự cân bằng tinh tế giữa tốc độ suy luận, độ chính xác và hiệu quả tính toán. Khi các nhà phát triển và nhà nghiên cứu tìm hiểu về các khung phần mềm thị giác máy tính đa dạng, việc so sánh các kiến ​​trúc hàng đầu là điều cần thiết để lựa chọn công cụ phù hợp cho công việc.

Hướng dẫn kỹ thuật này cung cấp sự so sánh chuyên sâu giữa hai mô hình có khả năng cao: YOLOv9 , nổi tiếng với khả năng lưu giữ thông tin học sâu, và YOLOv6 , một mô hình được thiết kế đặc biệt cho các ứng dụng công nghiệp.

YOLOv9 Tổng quan: Tối đa hóa khả năng giữ lại tính năng

Được giới thiệu vào đầu năm 2024, YOLOv9 Phương pháp này giải quyết một trong những thách thức dai dẳng nhất trong mạng nơ-ron sâu: mất mát thông tin trong quá trình truyền tiến. Bằng cách đảm bảo độ tin cậy của gradient và bản đồ đặc trưng giữ lại dữ liệu quan trọng, nó đẩy giới hạn về độ chính xác lý thuyết lên cao hơn.

Kiến trúc và Phương pháp luận

YOLOv9 Bài báo giới thiệu khái niệm Thông tin Gradient Lập trình được (Programmable Gradient Information - PGI) cùng với Mạng Tổng hợp Lớp Hiệu quả Tổng quát (Generalized Efficient Layer Aggregation Network - GELAN). PGI giải quyết nút thắt cổ chai thông tin bằng cách cung cấp sự giám sát phụ trợ, đảm bảo mạng chính học được các đặc trưng mạnh mẽ, đáng tin cậy mà không làm tăng thêm chi phí suy luận. Trong khi đó, GELAN tối ưu hóa việc sử dụng tham số, cho phép mô hình đạt được Độ chính xác trung bình (mean Average Precision - mAP ) hàng đầu trong khi vẫn giữ chi phí tính toán ở mức hợp lý. Điều này làm cho nó trở thành lựa chọn đặc biệt cho việc phân tích hình ảnh y tế hoặc phát hiện các vật thể cực nhỏ, nơi độ chính xác của đặc trưng là rất quan trọng.

Tìm hiểu thêm về YOLOv9

YOLOv6 -3.0 Tổng quan: Được thiết kế cho quy mô công nghiệp

Được phát triển bởi Meituan, YOLOv6 -3.0 (còn được gọi là v3.0) được thiết kế từ đầu để phục vụ các ứng dụng công nghiệp nặng. Được phát hành vào đầu năm 2023, phiên bản này tập trung mạnh vào hiệu quả triển khai, cung cấp một bộ mô hình thân thiện với lượng tử hóa, hoạt động xuất sắc trên phần cứng biên.

  • Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
  • Tổ chức: Meituan
  • Ngày: 13 tháng 1, 2023
  • Liên kết: Bài báo trên Arxiv , Kho lưu trữ GitHub

Kiến trúc và Phương pháp luận

YOLOv6 -3.0 nổi bật nhờ các chiến lược RepOptimizer và Anchor-Aided Training (AAT). Mô hình sử dụng thiết kế mạng nơ-ron nhận biết phần cứng lấy cảm hứng từ RepVGG, cho phép nó chạy cực nhanh trên GPU trong quá trình suy luận bằng cách hợp nhất các lớp. Bản cập nhật 3.0 tiếp tục tinh chỉnh kiến ​​trúc bằng cách giới thiệu mô-đun Bi-directional Concatenation (BiC) để cải thiện độ chính xác định vị. Vì nó được tối ưu hóa cao cho các định dạng triển khai như TensorRTOpenVINO , YOLOv6 - Chuẩn 3.0 thường được áp dụng trong lĩnh vực hậu cần, tự động hóa sản xuất và môi trường máy chủ có thông lượng cao.

Tìm hiểu thêm về YOLOv6-3.0

So sánh hiệu suất

Khi đánh giá các mô hình này trên tập dữ liệu COCO tiêu chuẩn, chúng ta có thể nhận thấy sự đánh đổi rõ rệt giữa độ chính xác và tốc độ suy luận thô.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Phân tích kỹ thuật

Trong khi YOLOv6 -3.0n giành vị trí dẫn đầu về tốc độ xử lý thô trên phần cứng T4 (1,17ms), YOLOv9t đạt được tốc độ cao hơn một chút. mAP (38,3%) trong khi sử dụng ít hơn một nửa số tham số (2,0 triệu so với 4,7 triệu) và số phép tính FLOP ít hơn đáng kể. Đối với các yêu cầu phức tạp, độ chính xác cao, YOLOv9e mạnh mẽ đẩy độ chính xác lên 55,6%. mAP Điều này minh họa sức mạnh của kiến ​​trúc PGI trong các mạng nơ-ron sâu.

Đảm bảo tính bền vững cho dự án của bạn với YOLO26

Nếu bạn đang bắt đầu một dự án thị giác máy tính mới, chúng tôi đặc biệt khuyên dùng YOLO26 . Được phát hành vào năm 2026, nó có thiết kế NMS -Free từ đầu đến cuối , loại bỏ hoàn toàn độ trễ xử lý hậu kỳ, giúp tăng tốc độ suy luận CPU lên đến 43% .

Lợi thế Hệ sinh thái Ultralytics

Bất kể triết lý kiến ​​trúc của mô hình nào hấp dẫn bạn, việc triển khai chúng trực tiếp thông qua API Python Ultralytics sẽ mang lại trải nghiệm phát triển vượt trội.

Dễ sử dụng và Hiệu quả huấn luyện

Việc huấn luyện các mô hình học sâu phức tạp theo truyền thống đòi hỏi lượng mã lập trình khổng lồ. Nền tảng Ultralytics đơn giản hóa những phức tạp này. Cho dù bạn đang tinh chỉnh... YOLOv9 để phát hiện lỗi hoặc xuất khẩu YOLOv6 Đối với các ứng dụng di động, quy trình làm việc vẫn duy trì sự nhất quán đáng kể.

Hơn nữa, Ultralytics Nhìn chung, các kiến ​​trúc này có yêu cầu bộ nhớ CUDA thấp hơn trong quá trình huấn luyện so với các mô hình dựa trên Transformer cồng kềnh. Điều này cho phép các nhà phát triển sử dụng kích thước batch lớn hơn trên GPU cấp người tiêu dùng, cải thiện đáng kể hiệu quả huấn luyện.

from ultralytics import YOLO

# Easily swap architectures by changing the weights file string
# model = YOLO("yolov6n.pt")
model = YOLO("yolov9c.pt")

# Train the model with built-in data augmentation and caching
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Export to ONNX or TensorRT seamlessly
model.export(format="engine", half=True)

Tính linh hoạt vượt trội trong mọi nhiệm vụ thị giác

Trong khi YOLOv6 - Phiên bản 3.0 được tối ưu hóa cao cho việc tạo hộp giới hạn nhanh chóng, các dự án thị giác máy tính hiện đại thường yêu cầu phương pháp tiếp cận đa nhiệm. Ultralytics Các mô hình này được đánh giá cao nhờ tính linh hoạt vượt trội. Với các công cụ như Ultralytics YOLOv8 và YOLO26 mới hơn, một khung phần mềm duy nhất có thể xử lý liền mạch việc phát hiện đối tượng, phân đoạn thể hiện , phân loại hình ảnh , ước tính tư thếhộp giới hạn định hướng (OBB) .

Giới thiệu YOLO26: Tiêu chuẩn mới

Đối với các tổ chức muốn tối đa hóa cả hiệu suất và sự dễ dàng triển khai, YOLO26 đại diện cho sự kết hợp hoàn hảo giữa tốc độ và độ chính xác.

Tiếp nối những thành công của YOLO11 , YOLO26 giới thiệu một số tính năng mang tính đột phá:

  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện Mô hình Ngôn ngữ Lớn (LLM) như Kimi K2 của Moonshot AI, bộ tối ưu hóa lai này đảm bảo quá trình huấn luyện cực kỳ ổn định và hội tụ nhanh chóng.
  • Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 đơn giản hóa đồ thị xuất, giúp nó tương thích hơn đáng kể với các chip điện toán biên công suất thấp.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, điều rất quan trọng đối với hoạt động của máy bay không người lái và các ứng dụng IoT.
  • Cải tiến dành riêng cho từng tác vụ: YOLO26 bao gồm tính năng tạo mẫu đa tỷ lệ gốc cho phân đoạn, ước lượng logarit khả năng dư (RLE) cho theo dõi khung xương và các thuật toán mất góc chuyên biệt để giải quyết các trường hợp ngoại lệ trong phát hiện OBB.

Các kịch bản triển khai lý tưởng

Việc lựa chọn kiến ​​trúc phù hợp cuối cùng phụ thuộc vào các ràng buộc trong quy trình sản xuất của bạn.

Hãy chọn YOLOv6 -3.0 nếu bạn đã có quy trình sản xuất công nghiệp ổn định, phụ thuộc nhiều vào lượng tử hóa và sử dụng các bộ tăng tốc suy luận chuyên dụng, nơi bạn cần độ trễ phần cứng dưới mili giây thấp nhất tuyệt đối.

Hãy chọn YOLOv9 nếu bạn đang thực hiện các công việc chẩn đoán y tế phức tạp hoặc giám sát tầm xa, nơi việc bỏ sót các chi tiết nhỏ ở cấp độ pixel là điều không thể chấp nhận được.

Tuy nhiên, để có một phương pháp cân bằng hoàn hảo, vừa đảm bảo độ chính xác tiên tiến vừa đơn giản hóa quy trình, NMS Với khả năng triển khai miễn phí, Ultralytics YOLO26 là sự lựa chọn hàng đầu cho ngành kỹ thuật thị giác máy tính hiện đại. Chu kỳ phát triển liên tục, tài liệu toàn diện và sự hỗ trợ mạnh mẽ từ cộng đồng khiến nó trở thành công cụ không thể thiếu đối với cả nhà nghiên cứu và nhà phát triển.


Bình luận