Chuyển đến nội dung

YOLOv9 so với YOLOv6 -3.0: So sánh kỹ thuật chi tiết

Việc lựa chọn kiến trúc phát hiện đối tượng lý tưởng là một bước then chốt trong việc phát triển các giải pháp thị giác máy tính mạnh mẽ. Quyết định này thường liên quan đến việc cân nhắc giữa độ chính xác , tốc độ suy luận và mức tiêu thụ tài nguyên tính toán. Hướng dẫn này cung cấp so sánh kỹ thuật toàn diện giữa YOLOv9 , một mô hình tiên tiến được đánh giá cao về hiệu quả kiến trúc, và YOLOv6 -3.0 , một mô hình được tối ưu hóa đặc biệt cho tốc độ triển khai công nghiệp. Chúng tôi sẽ phân tích những cải tiến về kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra lựa chọn sáng suốt.

YOLOv9 : Xác định lại độ chính xác và hiệu quả

YOLOv9 , được giới thiệu vào đầu năm 2024, đại diện cho một bước chuyển đổi mô hình trong phát hiện đối tượng theo thời gian thực. Nó giải quyết vấn đề cơ bản về mất mát thông tin trong mạng nơ-ron sâu, đạt được độ chính xác vượt trội trong khi vẫn duy trì hiệu suất tính toán vượt trội.

Tác giả: Vương Chien-Yao và Liêu Hồng Nguyên
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
Tài liệu: https://docs. ultralytics .com/models/yolov9/

Đổi mới kiến trúc

Sức mạnh cốt lõi của YOLOv9 nằm ở hai khái niệm đột phá: Thông tin Gradient Lập trình (PGI)Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN) . Khi mạng lưới trở nên sâu hơn, thông tin đặc trưng thiết yếu thường bị mất trong quá trình truyền thẳng. PGI giải quyết tình trạng tắc nghẽn thông tin này bằng cách đảm bảo thông tin gradient đáng tin cậy được lưu giữ để cập nhật trọng số mạng. Đồng thời, GELAN tối ưu hóa kiến trúc để tối đa hóa việc sử dụng tham số, cho phép mô hình đạt được độ chính xác cao hơn với ít tham số và FLOP hơn so với thiết kế truyền thống.

Khi được sử dụng trong Ultralytics hệ sinh thái, YOLOv9 mang đến trải nghiệm phát triển liền mạch. Nền tảng này được hưởng lợi từ API Python thân thiện với người dùng, tài liệu hướng dẫn toàn diện và hỗ trợ mạnh mẽ, giúp cả nhà nghiên cứu và nhà phát triển doanh nghiệp đều dễ dàng tiếp cận.

Điểm mạnh

  • Độ chính xác vượt trội: YOLOv9 đạt được điểm mAP tiên tiến nhất trên các chuẩn mực như tập dữ liệu COCO , luôn vượt trội hơn các thế hệ trước về độ chính xác phát hiện.
  • Hiệu quả tính toán: Kiến trúc GELAN đảm bảo rằng mô hình mang lại hiệu suất hàng đầu mà không cần chi phí tính toán lớn thường đi kèm với các mô hình có độ chính xác cao, khiến nó phù hợp với các ứng dụng AI biên .
  • Bảo tồn thông tin: Bằng cách giảm thiểu tình trạng tắc nghẽn thông tin, PGI cho phép mô hình học các tính năng hiệu quả hơn, mang lại khả năng phát hiện đáng tin cậy hơn trong các cảnh phức tạp.
  • Tích hợp hệ sinh thái: Người dùng được hưởng lợi từ bộ sản phẩm đầy đủ Ultralytics Các công cụ, bao gồm quy trình đào tạo, xác thực và triển khai hợp lý. Các mô hình cũng được tối ưu hóa để sử dụng ít bộ nhớ hơn trong quá trình đào tạo so với nhiều kiến trúc dựa trên bộ chuyển đổi .
  • Tính linh hoạt: Ngoài khả năng phát hiện, kiến trúc này còn hỗ trợ mở rộng sang các tác vụ khác như phân đoạn trường hợp và phân đoạn toàn cảnh.

Điểm yếu

  • Tính mới: Là một công ty mới tham gia thị trường, số lượng hướng dẫn do cộng đồng tạo ra và các ví dụ triển khai của bên thứ ba vẫn đang tăng lên, mặc dù hỗ trợ chính thức rất rộng rãi.

Các trường hợp sử dụng lý tưởng

YOLOv9 vượt trội trong các tình huống đòi hỏi độ chính xác cao:

  • Chụp ảnh y tế: Phân tích độ phân giải cao cho các nhiệm vụ như phát hiện khối u , trong đó việc bảo quản các chi tiết nhỏ là điều cần thiết.
  • Lái xe tự động: Các chức năng ADAS quan trọng yêu cầu xác định chính xác người đi bộ, phương tiện và chướng ngại vật.
  • Kiểm tra công nghiệp: Xác định những lỗi nhỏ trong quy trình sản xuất, nếu phát hiện sai có thể dẫn đến hư hỏng tốn kém.

Tìm hiểu thêm về YOLOv9

YOLOv6 -3.0: Được xây dựng cho tốc độ công nghiệp

YOLOv6 -3.0 là lần lặp thứ ba của YOLOv6 Dòng sản phẩm này, được phát triển bởi đội ngũ tầm nhìn tại Meituan. Ra mắt vào đầu năm 2023, sản phẩm được thiết kế với trọng tâm chính là tối đa hóa tốc độ suy luận cho các ứng dụng công nghiệp, đặc biệt là trên GPU phần cứng.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/ YOLOv6
Tài liệu: https://docs. ultralytics .com/models/yolov6/

Đặc điểm kiến trúc

YOLOv6 -3.0 sử dụng thiết kế mạng nơ-ron nhân tạo nhận biết phần cứng. Nó sử dụng xương sống tham số hóa hiệu quả (RepBackbone) và một vòng cổ (neck) gồm các khối lai. Cấu trúc này được tinh chỉnh đặc biệt để khai thác khả năng tính toán song song của GPU, nhằm mang lại độ trễ thấp nhất có thể trong quá trình suy luận đồng thời vẫn duy trì độ chính xác cạnh tranh.

Điểm mạnh

  • Tốc độ suy luận cao: Kiến trúc được tối ưu hóa mạnh mẽ cho thông lượng, khiến nó trở thành một trong những lựa chọn nhanh nhất cho GPU triển khai dựa trên.
  • Sự cân bằng giữa tốc độ và độ chính xác: Giải pháp này mang lại sự cân bằng hấp dẫn cho các hệ thống thời gian thực, nơi mà từng mili giây đều có giá trị, chẳng hạn như các dây chuyền phân loại tốc độ cao.
  • Tập trung vào công nghiệp: Mô hình được thiết kế để giải quyết những thách thức thực tế trong môi trường sản xuất và tự động hóa.

Điểm yếu

  • Độ chính xác đỉnh thấp hơn: Mặc dù nhanh, nhưng mô hình thường chậm hơn YOLOv9 ở độ chính xác cao nhất, đặc biệt là ở các biến thể mô hình lớn hơn.
  • Hệ sinh thái hạn chế: Hệ sinh thái cộng đồng và công cụ nhỏ hơn so với hệ sinh thái được áp dụng rộng rãi Ultralytics khung.
  • Tính đặc thù của nhiệm vụ: Chủ yếu tập trung vào phát hiện đối tượng và thiếu tính linh hoạt đa nhiệm vụ gốc (như ước tính tư thế hoặc OBB) có trong các phiên bản mới hơn Ultralytics các mô hình.

Các trường hợp sử dụng lý tưởng

YOLOv6 -3.0 rất phù hợp với môi trường có thông lượng cao:

  • Giám sát thời gian thực: Xử lý nhiều luồng video cùng lúc cho hệ thống báo động an ninh .
  • Phân loại dây chuyền sản xuất: Phân loại và định vị vật thể nhanh chóng trên băng chuyền chuyển động nhanh.

Tìm hiểu thêm về YOLOv6 -3.0

Phân tích hiệu suất

Sự so sánh dưới đây làm nổi bật các số liệu hiệu suất của cả hai mô hình. Trong khi YOLOv6 -3.0 cung cấp tốc độ ấn tượng cho các biến thể nhỏ nhất của nó, YOLOv9 thể hiện hiệu quả vượt trội, mang lại độ chính xác cao hơn với ít thông số hơn trong các khung tương đương.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7

Những điểm chính cần ghi nhớ:

  1. Vua hiệu quả: YOLOv9 -C đạt 53,0% mAP chỉ với 25,3 triệu tham số. Ngược lại, YOLOv6 -3.0l cần 59,6M thông số để đạt mức thấp hơn mAP của 52,8%. Điều này minh họa YOLOv9 thiết kế kiến trúc vượt trội, "làm được nhiều hơn với ít hơn".
  2. Hiệu suất đỉnh cao: Mô hình YOLOv9 -E đặt ra tiêu chuẩn cao với 55,6% mAP , cung cấp mức độ chính xác mà YOLOv6 loạt phim không đạt được trong sự so sánh này.
  3. Tốc độ so với Độ chính xác: YOLOv6 -3.0n cực kỳ nhanh (1,17ms), khiến nó trở thành lựa chọn khả thi cho các yêu cầu độ trễ cực thấp, trong đó độ chính xác giảm (37,5% mAP ) là chấp nhận được. Tuy nhiên, đối với các ứng dụng mục đích chung, YOLOv9 -T cung cấp sự cân bằng tốt hơn (38,3% mAP ở mức 2,3ms) với số lượng tham số ít hơn đáng kể (2,0M so với 4,7M).

Hiệu quả bộ nhớ

Ultralytics YOLO các mô hình, bao gồm YOLOv9 , nổi tiếng với việc sử dụng bộ nhớ được tối ưu hóa trong quá trình đào tạo. Không giống như một số mô hình dựa trên máy biến áp nặng đòi hỏi GPU VRAM, những mô hình này thường có thể được đào tạo trên phần cứng dành cho người tiêu dùng, giúp tiếp cận dễ dàng hơn với công nghệ phát triển AI tiên tiến.

Đào tạo và Khả năng sử dụng

Trải nghiệm của người dùng có sự khác biệt đáng kể giữa hai mô hình. YOLOv9 , được tích hợp hoàn toàn vào Ultralytics hệ sinh thái, cung cấp một quy trình làm việc hợp lý. Các nhà phát triển có thể tận dụng một Python giao diện để đào tạo, xác thực và triển khai các mô hình chỉ với một vài dòng mã.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("image.jpg")

Sự tích hợp này cung cấp quyền truy cập vào các tính năng nâng cao như điều chỉnh siêu tham số tự động, ghi nhật ký thời gian thực với TensorBoard hoặc Weights & Biases và xuất liền mạch sang các định dạng như ONNXTensorRT .

Ngược lại, đào tạo YOLOv6 -3.0 thường bao gồm việc điều hướng kho lưu trữ GitHub cụ thể và các tập lệnh đào tạo, điều này có thể tạo ra đường cong học tập dốc hơn đối với những người đã quen với bản chất cắm và chạy của Ultralytics thư viện.

Kết luận

Trong khi YOLOv6 -3.0 vẫn là một ứng cử viên mạnh mẽ cho các phân khúc công nghiệp cụ thể đòi hỏi độ trễ thấp nhất tuyệt đối trên GPU phần cứng, YOLOv9 nổi lên như sự lựa chọn toàn diện vượt trội cho các tác vụ thị giác máy tính hiện đại.

YOLOv9 mang đến sự kết hợp hoàn hảo giữa độ chính xác tiên tiến, hiệu suất tham số vượt trội và những lợi ích to lớn của hệ sinh thái Ultralytics . Khả năng đạt được độ chính xác cao hơn với các mô hình nhẹ hơn đồng nghĩa với việc giảm chi phí lưu trữ và truyền tải nhanh hơn trong các tình huống triển khai biên. Hơn nữa, tính dễ sử dụng, tài liệu hướng dẫn chi tiết và sự hỗ trợ tích cực từ cộng đồng liên quan đến Ultralytics các mô hình đẩy nhanh đáng kể vòng đời phát triển, cho phép các nhóm chuyển từ khái niệm sang triển khai một cách tự tin.

Đối với các nhà phát triển đang tìm kiếm thế hệ hiệu suất tiếp theo, chúng tôi cũng khuyên bạn nên khám phá Ultralytics YOLO11 , mô hình mới nhất của chúng tôi, giúp tinh chỉnh hơn nữa các khả năng này cho phạm vi tác vụ rộng hơn, bao gồm ước tính tư thếphát hiện vật thể định hướng . Bạn cũng có thể so sánh các mô hình này với các phương pháp dựa trên bộ biến đổi như RT-DETR trong trung tâm so sánh mô hình của chúng tôi.


Bình luận