Chuyển đến nội dung

YOLO11 so với YOLOv6 -3.0: So sánh công nghệ phát hiện đối tượng tiên tiến

Việc lựa chọn mô hình thị giác máy tính tối ưu là một quyết định then chốt ảnh hưởng đến hiệu quả, độ chính xác và khả năng mở rộng của các ứng dụng AI. Hướng dẫn này cung cấp phân tích kỹ thuật toàn diện so sánh Ultralytics YOLO11 và YOLOv6 -3.0. Chúng tôi xem xét những đổi mới về kiến trúc, chuẩn mực hiệu suất, phương pháp đào tạo và tính phù hợp của chúng đối với nhiều tình huống triển khai thực tế. Mặc dù cả hai nền tảng đều có những đóng góp đáng kể cho lĩnh vực này, YOLO11 đại diện cho sự phát triển mới nhất về hiệu quả, tính linh hoạt và trải nghiệm của người dùng.

Ultralytics YOLO11

Tác giả : Glenn Jocher và Jing Qiu
Tổ chức : Ultralytics
Ngày : 27-09-2024
GitHub : https://github.com/ ultralytics / ultralytics
Tài liệu : https://docs. ultralytics .com/models/ yolo11 /

YOLO11 là sự tiến hóa tiên tiến của YOLO (Bạn chỉ nhìn một lần) loạt phim, ra mắt bởi Ultralytics vào cuối năm 2024. Dựa trên thành công của những phiên bản tiền nhiệm như YOLOv8 , nó giới thiệu một kiến trúc tinh tế được thiết kế để tối đa hóa hiệu suất đồng thời giảm thiểu chi phí tính toán. YOLO11 được thiết kế để xử lý nhiều tác vụ thị giác máy tính khác nhau, định vị nó là giải pháp đa năng cho các ngành công nghiệp từ ô tô đến chăm sóc sức khỏe.

Kiến trúc và các tính năng chính

Kiến trúc của YOLO11 tập trung vào việc nâng cao hiệu quả trích xuất và xử lý tính năng. Nó kết hợp thiết kế xương sống và cổ được cải tiến giúp giảm thiểu các phép tính dư thừa, cho phép tốc độ suy luận nhanh hơn trên cả thiết bị biên và máy chủ đám mây. Là một bộ phát hiện không cần neo , YOLO11 loại bỏ nhu cầu cấu hình hộp neo thủ công, đơn giản hóa quy trình đào tạo và cải thiện khả năng thích ứng với nhiều hình dạng vật thể khác nhau.

Điểm mạnh

Điểm yếu

  • Đường cong áp dụng : Là một mô hình mới phát hành, khối lượng hướng dẫn của bên thứ ba và tài nguyên bên ngoài đang tăng nhanh nhưng hiện tại có thể ít hơn so với các phiên bản cũ hơn như YOLOv5 .
  • Thách thức đối với vật thể nhỏ : Mặc dù đã được cải thiện đáng kể, việc phát hiện các vật thể cực nhỏ vẫn là một nhiệm vụ đầy thách thức đối với các máy dò vật thể một giai đoạn so với các phương pháp chuyên biệt, mặc dù chậm hơn.

Các trường hợp sử dụng lý tưởng

YOLO11 vượt trội trong các tình huống đòi hỏi thông lượng và độ chính xác cao:

  • Hệ thống tự động : Theo dõi đối tượng theo thời gian thực cho xe tự lái và máy bay không người lái.
  • Sản xuất thông minh : Nhiệm vụ đảm bảo chất lượng yêu cầu phát hiện và phân đoạn lỗi đồng thời.
  • Chăm sóc sức khỏe : Phân tích hình ảnh y tế thường cần triển khai trong điều kiện nguồn lực hạn chế.
  • Phân tích bán lẻ : Phân tích hành vi khách hàng và quản lý hàng tồn kho bằng cách ước tính và theo dõi tư thế.

Tìm hiểu thêm về YOLO11

YOLOv6 -3.0

Tác giả : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức : Meituan
Ngày : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/ YOLOv6
Tài liệu : https://docs. ultralytics .com/models/yolov6/

YOLOv6 -3.0 là một nền tảng phát hiện đối tượng do Meituan phát triển, đặc biệt nhắm đến các ứng dụng công nghiệp. Ra mắt vào đầu năm 2023, nền tảng này được thiết kế để mang lại sự cân bằng cạnh tranh giữa tốc độ suy luận và độ chính xác, đáp ứng nhu cầu của các hệ thống thời gian thực trong hậu cần và tự động hóa.

Kiến trúc và các tính năng chính

Các YOLOv6 Kiến trúc -3.0 giới thiệu cơ chế "Tải lại Toàn diện" của mạng. Nó sử dụng một xương sống có thể tham số hóa lại hiệu quả (EfficientRep) và một cấu trúc đầu tách rời. Những cải tiến chính bao gồm việc sử dụng các kỹ thuật tự chưng cất trong quá trình huấn luyện để tăng độ chính xác mà không làm tăng chi phí suy luận và các tối ưu hóa cụ thể cho việc triển khai TensorRT .

Điểm mạnh

  • Tiêu điểm công nghiệp : Kiến trúc mô hình được thiết kế riêng cho phần cứng công nghiệp, đặc biệt là tối ưu hóa độ trễ trên NVIDIA GPU.
  • Độ sẵn sàng lượng tử hóa : YOLOv6 cung cấp hỗ trợ cụ thể cho lượng tử hóa mô hình , tạo điều kiện triển khai trên phần cứng có độ chính xác tính toán hạn chế.
  • Các biến thể di động : Khung bao gồm YOLOv6 - Phiên bản rút gọn được tối ưu hóa cho kiến trúc CPU và DSP di động.

Điểm yếu

  • Cường độ tài nguyên : Như minh họa trong dữ liệu hiệu suất, YOLOv6 -3.0 thường yêu cầu nhiều tham số và FLOP hơn đáng kể để đạt được độ chính xác tương đương với các mô hình mới hơn như YOLO11 .
  • Phạm vi tác vụ hạn chế : Trọng tâm chính là phát hiện đối tượng. Nó thiếu khả năng hỗ trợ đa tác vụ liền mạch, nguyên bản (phân đoạn, tư thế, phân loại, OBB) có trong mô hình hợp nhất. Ultralytics khung.
  • Phân mảnh hệ sinh thái : Mặc dù là mã nguồn mở, hệ sinh thái ít được tích hợp hơn Ultralytics ', có khả năng đòi hỏi nhiều nỗ lực thủ công hơn cho các nhiệm vụ như quản lý tập dữ liệu, theo dõi và đào tạo đám mây.

Các trường hợp sử dụng lý tưởng

YOLOv6 -3.0 phù hợp với:

  • Hệ thống công nghiệp cũ : Môi trường được điều chỉnh đặc biệt cho YOLOv6 ngành kiến trúc.
  • Nhiệm vụ phát hiện chuyên dụng : Các ứng dụng chỉ yêu cầu phát hiện hộp giới hạn và không cần khả năng đa nhiệm.
  • Triển khai phần cứng cụ thể : Các tình huống tận dụng các đường ống lượng tử hóa cụ thể được hỗ trợ bởi khuôn khổ Meituan.

Tìm hiểu thêm về YOLOv6

Chỉ số hiệu suất: Tốc độ, Độ chính xác và Hiệu quả

Bảng sau đây trình bày một so sánh chi tiết của YOLO11 Và YOLOv6 -3.0 trên tập dữ liệu COCO . Các số liệu này làm nổi bật những tiến bộ về hiệu quả đạt được bởi YOLO11 ngành kiến trúc.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7

Phân tích dữ liệu

Sự so sánh cho thấy một xu hướng rõ ràng: YOLO11 luôn đạt được độ chính xác cao hơn ( mAP ) với chi phí tính toán giảm đáng kể.

  • Hiệu quả tham số : Mô hình YOLO11m đạt được 51,5 mAP vượt trội so với YOLOv6 -3.0m của 50.0 mAP Tuy nhiên, nó chỉ sử dụng 20,1 triệu tham số so với 34,9 triệu. Điều này cho thấy kích thước mô hình đã giảm gần 42% để có hiệu suất tốt hơn.
  • Chi phí tính toán : Tương tự như vậy, YOLO11l cần 86,9 tỷ FLOP để đạt 53,4 mAP , trong khi YOLOv6 -3.0l yêu cầu 150,7B FLOPs cho mức thấp hơn 52,8 mAP . FLOP thấp hơn có nghĩa là mức tiêu thụ điện năng thấp hơn và lượng nhiệt tỏa ra ít hơn, đây là những yếu tố quan trọng đối với hệ thống nhúng .
  • Tốc độ suy luận : Trong khi YOLOv6 -3.0n cho thấy tốc độ nhanh hơn một chút TensorRT tốc độ, khoảng cách độ chính xác đáng kể (2.0 mAP ) và kích thước mô hình lớn hơn khiến YOLO11n trở thành lựa chọn cân bằng hơn cho các ứng dụng hiện đại đòi hỏi độ chính xác tối quan trọng.

Lợi thế triển khai

Số lượng tham số giảm của YOLO11 không chỉ tăng tốc suy luận mà còn giảm yêu cầu về băng thông bộ nhớ. Điều này làm cho YOLO11 đặc biệt hiệu quả trên các thiết bị biên như Raspberry Pi hoặc NVIDIA Jetson , nơi tài nguyên bộ nhớ thường là điểm nghẽn.

Đào tạo và Khả năng sử dụng

Dễ sử dụng và hệ sinh thái

Một trong những yếu tố khác biệt quan trọng nhất là hệ sinh thái xung quanh các mô hình. Ultralytics YOLO11 được tích hợp vào một nền tảng toàn diện giúp đơn giản hóa toàn bộ vòng đời hoạt động học máy (MLOps) .

  • API đơn giản : Các nhà phát triển có thể tải, đào tạo và dự đoán bằng YOLO11 chỉ trong một vài dòng Python mã số.
  • Tài liệu : Tài liệu mở rộng và được duy trì tích cực đảm bảo rằng người dùng có thể dễ dàng tìm thấy hướng dẫn về mọi thứ, từ chú thích dữ liệu đến xuất mô hình .
  • Cộng đồng : Cộng đồng sôi động trên GitHubDiscord cung cấp hỗ trợ nhanh chóng và cải tiến liên tục.

Ngược lại, trong khi YOLOv6 cung cấp một cơ sở mã vững chắc, nhưng lại thiếu cùng mức độ công cụ tích hợp và nguồn lực sẵn có do cộng đồng thúc đẩy, điều này có thể làm tăng thời gian triển khai cho các dự án mới.

Hiệu quả đào tạo

YOLO11 được thiết kế để đạt hiệu suất cao trong quá trình đào tạo. Kiến trúc của nó cho phép hội tụ nhanh hơn, nghĩa là người dùng thường có thể đạt được độ chính xác mục tiêu trong thời gian ngắn hơn so với các kiến trúc cũ. Hơn nữa, yêu cầu bộ nhớ trong quá trình đào tạo được tối ưu hóa, cho phép xử lý khối lượng dữ liệu lớn hơn trên GPU cấp độ người dùng.

Đây là một ví dụ về cách dễ dàng để bắt đầu đào tạo một YOLO11 người mẫu:

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Kết luận

Trong khi YOLOv6 -3.0 vẫn là một mô hình có khả năng thực hiện các nhiệm vụ phát hiện công nghiệp cụ thể, Ultralytics YOLO11 nổi bật là lựa chọn vượt trội cho phần lớn các dự án thị giác máy tính mới.

YOLO11 mang đến sự kết hợp hấp dẫn giữa độ chính xác cao hơn , mức tiêu thụ tài nguyên thấp hơntính linh hoạt vượt trội . Khả năng xử lý phát hiện, phân đoạn, ước tính tư thế và phân loại trong một khuôn khổ duy nhất, dễ sử dụng giúp hợp lý hóa quy trình phát triển. Được hỗ trợ bởi hệ thống quản lý tích cực Ultralytics hệ sinh thái và các công cụ như Ultralytics HUB , YOLO11 cung cấp nền tảng vững chắc cho việc xây dựng các giải pháp AI có khả năng mở rộng và hiệu suất cao.

Đối với các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa hiệu suất, hiệu quả và tính dễ sử dụng, YOLO11 là con đường được khuyến nghị tiến về phía trước.

Khám phá các Mô hình Khác

Nếu bạn quan tâm đến những so sánh sâu hơn, hãy khám phá những trang liên quan sau trong tài liệu:


Bình luận