Chuyển đến nội dung

Ultralytics YOLOv8 so với YOLOv9 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, với mỗi phiên bản mới đều đẩy mạnh giới hạn của những gì có thể thực hiện được trên cả thiết bị biên và máy chủ đám mây. Ultralytics YOLOv8 , được phát hành vào đầu năm 2023, đã khẳng định vị thế là tiêu chuẩn ngành về tính linh hoạt và dễ sử dụng. Một năm sau, YOLOv9 giới thiệu các khái niệm kiến ​​trúc mới tập trung vào Thông tin Gradient có thể lập trình (PGI) để giải quyết các nút thắt cổ chai thông tin trong học sâu.

Hướng dẫn toàn diện này so sánh hai "ông lớn" này, phân tích những cải tiến về kiến ​​trúc, chỉ số hiệu năng và các kịch bản triển khai lý tưởng để giúp bạn chọn được mô hình phù hợp cho dự án thị giác máy tính của mình.

Tóm tắt: Bạn nên chọn mô hình nào?

Cả hai mô hình đều đại diện cho những cột mốc quan trọng trong lịch sử thị giác máy tính, nhưng chúng phục vụ những nhu cầu hơi khác nhau trong bối cảnh trí tuệ nhân tạo hiện đại.

  • Hãy chọn Ultralytics YOLOv8 nếu: Bạn ưu tiên một hệ sinh thái sẵn sàng cho môi trường sản xuất . YOLOv8 Được thiết kế cho các ứng dụng thực tế, hỗ trợ rất nhiều tác vụ (phát hiện, phân đoạn, tư thế, OBB, phân loại) ngay từ đầu. Khả năng tích hợp liền mạch với Nền tảng Ultralytics giúp việc đào tạo, theo dõi và triển khai trở nên dễ dàng hơn đáng kể đối với các nhóm kỹ thuật.
  • Hãy chọn YOLOv9 nếu: Bạn là nhà nghiên cứu hoặc nhà phát triển cao cấp tập trung hoàn toàn vào việc tối đa hóa mAP (Độ chính xác trung bình) trên các bộ dữ liệu chuẩn như... COCO . YOLOv9 Nó đẩy giới hạn lý thuyết về hiệu quả của kiến ​​trúc CNN, cung cấp tỷ lệ tham số trên độ chính xác tuyệt vời, mặc dù thường đi kèm với thiết lập huấn luyện phức tạp hơn.
  • Chọn YOLO26 (Khuyến nghị) nếu: Bạn muốn có được những ưu điểm tốt nhất của cả hai thế giới—độ chính xác hiện đại hiệu quả từ đầu đến cuối. Được phát hành vào năm 2026, YOLO26 loại bỏ nhu cầu về Non-Maximum Suppression (Ngăn chặn cực đại không cần thiết). NMS Hoàn toàn, mang lại khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước trong khi vẫn duy trì độ chính xác hàng đầu.

Đảm bảo tính bền vững cho dự án của bạn với YOLO26

Trong khi YOLOv8 Và YOLOv9 Những sản phẩm tuyệt vời đã có, YOLO26 mới ra mắt đánh dấu bước tiến tiếp theo. Nó sở hữu giao diện gốc. NMS - Thiết kế đơn giản, không cần cấu hình đặc biệt và trình tối ưu hóa MuSGD tiên tiến giúp huấn luyện ổn định. Đối với các dự án mới, YOLO26 là lựa chọn được khuyến nghị.

Thông số kỹ thuật và tác giả

Việc hiểu rõ nguồn gốc của những mẫu thiết kế này giúp chúng ta hiểu rõ hơn về các quyết định kiến ​​trúc của mình.

Ultralytics YOLOv8

Tác giả: Glenn Jocher, Ayush Chaurasia và Jing Qiu
Tổ chức: Ultralytics
Ngày phát hành: 10 tháng 1 năm 2023
Giấy phép: AGPL-3.0 (Phiên bản doanh nghiệp có sẵn)
Liên kết: GitHub , Tài liệu

Tìm hiểu thêm về YOLOv8

YOLOv9

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày phát hành: 21 tháng 2 năm 2024
Giấy phép: GPL-3.0
Liên kết: Arxiv , GitHub

Tìm hiểu thêm về YOLOv9

Điểm chuẩn hiệu suất

Khi đánh giá các mô hình phát hiện đối tượng, cần xem xét sự đánh đổi giữa tốc độ (độ trễ suy luận) và độ chính xác ( mAP (Điều này rất quan trọng). Bảng dưới đây so sánh các chỉ số chính về... COCO Bộ dữ liệu val2017.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Phân tích: YOLOv9 Thể hiện hiệu quả ấn tượng, thường đạt được kết quả cao hơn. mAP với ít tham số hơn (xem YOLOv9t so với...) YOLOv8n Tuy nhiên, Ultralytics YOLOv8 thường duy trì tốc độ suy luận vượt trội trên các cấu hình phần cứng tiêu chuẩn và được hưởng lợi từ quy trình xuất dữ liệu hoàn thiện giúp tối ưu hóa độ trễ trên nhiều nền tảng khác nhau như TensorRTOpenVINO .

Đổi mới Kiến trúc

YOLOv8 Khung thống nhất

YOLOv8 Giới thiệu kiến ​​trúc hiện đại, không cần neo. Các tính năng chính bao gồm:

  • Phát hiện không cần neo: Giảm số lượng dự đoán hộp, tăng tốc quá trình loại bỏ cực đại cục bộ (Non-Maximum Suppression) NMS ).
  • Tăng cường bằng kỹ thuật ghép ảnh (Mosaic Augmentation): Các kỹ thuật huấn luyện nâng cao giúp tăng cường khả năng chống lại hiện tượng che khuất.
  • Mô-đun C2f: Một nút thắt cổ chai một phần đa tầng với hai phép tích chập giúp cải thiện luồng gradient, thay thế cho mô-đun C3 cũ hơn.
  • Đầu xử lý tách rời: Tách biệt nhiệm vụ phân loại và hồi quy để cải thiện độ chính xác.

Sức mạnh thực sự của YOLOv8 Điểm mạnh nằm ở thiết kế toàn diện của nó. Nó không chỉ là một mô hình phát hiện mà còn là một khung phần mềm có khả năng phân đoạn đối tượng , ước lượng tư thế và phát hiện hộp giới hạn định hướng (OBB) bằng cách sử dụng một API thống nhất.

YOLOv9: Giải quyết nút thắt thông tin

YOLOv9 Tập trung vào việc giải quyết vấn đề mất mát thông tin khi dữ liệu truyền qua các mạng sâu.

  • Thông tin độ dốc có thể lập trình (PGI): Một khung giám sát phụ trợ đảm bảo thông tin độ dốc được bảo toàn cho các lớp sâu, tạo ra các độ dốc đáng tin cậy để cập nhật trọng số mạng.
  • GELAN (Generalized Efficient Layer Aggregation Network): Một kiến ​​trúc mới tối ưu hóa hiệu quả tham số và chi phí tính toán. Nó kết hợp những ưu điểm của CSPNet và ELAN để tối đa hóa luồng thông tin đồng thời giảm thiểu số phép tính FLOPs.

Mặc dù về mặt lý thuyết rất tiên tiến, việc triển khai PGI làm tăng thêm độ phức tạp cho chu trình huấn luyện, điều này có thể khiến việc tùy chỉnh trở nên khó khăn hơn so với phương pháp đơn giản hóa. yolo train lệnh được tìm thấy trong Ultralytics hệ sinh thái.

Hệ sinh thái và Dễ sử dụng

Đây là điểm mà sự khác biệt trở nên quan trọng nhất đối với các nhà phát triển.

Ultralytics YOLOv8 được hưởng lợi từ một hệ sinh thái năng động và quy mô lớn. ultralytics Python Gói phần mềm này cho phép bạn chuyển từ cài đặt sang huấn luyện chỉ trong vài phút. Nó bao gồm hỗ trợ gốc cho việc quản lý tập dữ liệu thông qua... Nền tảng Ultralytics, cho phép các nhóm hình dung các tập dữ liệu và track Thí nghiệm diễn ra dễ dàng.

from ultralytics import YOLO

# Load a model (YOLOv8 or the newer YOLO26)
model = YOLO("yolov8n.pt")

# Train on a custom dataset with one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

YOLOv9 , dù mạnh mẽ, thường yêu cầu cách tiếp cận kho lưu trữ nghiên cứu truyền thống hơn. Người dùng có thể cần sao chép các kho lưu trữ GitHub cụ thể và điều hướng các tệp cấu hình phức tạp. Trong khi tích hợp vào... Ultralytics Thư viện tồn tại, kinh nghiệm phát triển cốt lõi của YOLOv8 Được hoàn thiện kỹ lưỡng hơn để triển khai thương mại.

Hiệu quả huấn luyện và Bộ nhớ

Một ưu điểm đáng kể của các mẫu Ultralytics YOLO là hiệu quả sử dụng bộ nhớ. Các mẫu như YOLOv8 và YOLO26 mới được tối ưu hóa để yêu cầu ít hơn CUDA hiệu suất bộ nhớ trong quá trình huấn luyện so với các kiến ​​trúc nặng về Transformer hoặc các kiến ​​trúc cũ hơn. YOLO các triển khai.

  • Hội tụ nhanh hơn: Ultralytics Cung cấp các trọng số được huấn luyện trước chất lượng cao, cho phép học chuyển giao nhanh chóng, thường đạt được kết quả hữu ích trong ít epoch hơn.
  • Đào tạo với tài nguyên thấp: Các kiến ​​trúc hiệu quả cho phép đào tạo trên GPU cấp độ người tiêu dùng, dân chủ hóa việc tiếp cận AI tiên tiến cho sinh viên và các công ty khởi nghiệp.

Các ứng dụng thực tế

Quản lý giao thông thành phố thông minh

YOLOv8 nổi bật ở điểm này nhờ khả năng Theo dõi Đối tượng . Bằng cách kết hợp khả năng phát hiện với các công cụ theo dõi như BoT-SORT hoặc ByteTrack, các thành phố có thể giám sát lưu lượng xe cộ và detect Tình trạng tắc nghẽn trong thời gian thực. Độ trễ thấp của YOLOv8n Cho phép xử lý nhiều luồng video trên một máy chủ biên duy nhất.

Robot nông nghiệp

Để phát hiện cây trồng hoặc cỏ dại, khả năng phân đoạn của YOLOv8 Chúng vô cùng quý giá. Tuy nhiên, để xác định các loại sâu bệnh rất nhỏ hoặc các dấu hiệu ban đầu của bệnh, chức năng ProgLoss + STAL trong YOLO26 thế hệ mới mang lại khả năng nhận dạng vật thể nhỏ vượt trội, khiến nó trở thành lựa chọn ưu tiên cho công nghệ nông nghiệp hiện đại.

Kiểm soát chất lượng công nghiệp

Dây chuyền sản xuất đòi hỏi độ chính xác cực cao. Kiến trúc GELAN của YOLOv9 cung cấp khả năng lưu giữ đặc điểm tuyệt vời, điều này có thể có lợi trong việc phát hiện các khuyết tật nhỏ trong các kết cấu phức tạp. Ngược lại, đối với các dây chuyền lắp ráp tốc độ cao, thiết kế không cần NMS từ đầu đến cuối của YOLO26 đảm bảo rằng việc kiểm tra không trở thành nút thắt cổ chai, xử lý các sản phẩm nhanh hơn so với các phương pháp truyền thống.

Kết luận

Cả hai YOLOv8 Và YOLOv9 YOLOv9 là những công cụ xuất sắc. YOLOv9 đẩy giới hạn về hiệu quả lý thuyết, mang lại độ chính xác ấn tượng với ít tham số hơn. Đây là lựa chọn tuyệt vời cho nghiên cứu học thuật và các trường hợp mà mỗi phần trăm điểm đều quan trọng. mAP Điều này rất quan trọng.

Tuy nhiên, đối với phần lớn các nhà phát triển và doanh nghiệp, Ultralytics YOLOv8 (và phiên bản kế nhiệm YOLO26 ) vẫn là lựa chọn tối ưu. Tính dễ sử dụng vượt trội , tài liệu hướng dẫn đầy đủkhả năng hỗ trợ nhiều tác vụ giúp giảm thiểu khó khăn trong quá trình phát triển AI. Khả năng triển khai liền mạch trên nhiều phần cứng khác nhau bằng cách sử dụng quy trình xuất dữ liệu Ultralytics đảm bảo mô hình của bạn mang lại giá trị cho thế giới thực, chứ không chỉ là một bảng xếp hạng hiệu năng.

Đối với những ai sẵn sàng đón nhận tương lai, chúng tôi đặc biệt khuyên bạn nên khám phá YOLO26 . Với khả năng loại bỏ DFL, trình tối ưu hóa MuSGD và hỗ trợ native, YOLO26 mang đến trải nghiệm người dùng hoàn hảo. NMS Với kiến ​​trúc không phụ thuộc vào bộ nhớ, nó đại diện cho đỉnh cao về hiệu quả và hiệu suất vào năm 2026.

Tóm tắt so sánh

Tính năngUltralytics YOLOv8YOLOv9Ultralytics YOLO26 (Mới)
Trọng tâmTính khả dụng và tính linh hoạtHiệu quả tham sốTốc độ và độ chính xác từ đầu đến cuối
Kiến trúcKhông cần neo, C2fPGI + GELANNMS -Miễn phí, MuSGD
Nhiệm vụPhát hiện, Phân đoạn, Tư thế, OBB, Phân loạiPhát hiện (chính)Hỗ trợ tất cả các tác vụ
Dễ sử dụng⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
NMS Yêu cầuKhông (Hoàn toàn từ đầu đến cuối)

Đọc thêm


Bình luận