Chuyển đến nội dung

YOLOv6 -3.0 so với YOLO11 : Đi sâu vào việc lựa chọn mô hình

Việc lựa chọn kiến trúc thị giác máy tính tối ưu là một quyết định then chốt đối với các nhà phát triển và nhà nghiên cứu nhằm cân bằng giữa độ chính xác, tốc độ và hiệu quả sử dụng tài nguyên. Phân tích này cung cấp một so sánh kỹ thuật toàn diện giữa YOLOv6 -3.0 và Ultralytics YOLO11 , kiểm tra các cải tiến về kiến trúc, số liệu hiệu suất và tính phù hợp của chúng để triển khai trong thế giới thực. Trong khi YOLOv6 -3.0 đã có những bước tiến đáng kể trong các ứng dụng công nghiệp sau khi phát hành, YOLO11 đại diện cho sự phát triển mới nhất trong công nghệ AI tầm nhìn tiên tiến (SOTA), mang lại tính linh hoạt nâng cao và hệ sinh thái mạnh mẽ.

YOLOv6 -3.0

Tác giả : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức : Meituan
Ngày : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/ YOLOv6
Tài liệu : https://docs. ultralytics .com/models/yolov6/

YOLOv6 Phiên bản -3.0 được Meituan thiết kế tập trung cụ thể vào các ứng dụng công nghiệp. Ra mắt vào đầu năm 2023, phiên bản này được thiết kế để tối ưu hóa sự cân bằng giữa tốc độ suy luận và độ chính xác phát hiện, đặc biệt nhắm đến các tình huống thời gian thực trên phần cứng tiêu chuẩn.

Kiến trúc và các tính năng chính

Kiến trúc của YOLOv6 -3.0 giới thiệu triết lý thiết kế "nhận thức phần cứng". Nó sử dụng cấu trúc xương sống và cổ hiệu quả nhằm tối đa hóa thông lượng trên GPU. Những cải tiến chính bao gồm việc sử dụng các kỹ thuật tự chưng cất trong quá trình huấn luyện, giúp các mô hình nhỏ hơn học hỏi từ các mô hình lớn hơn để tăng độ chính xác mà không làm tăng chi phí suy luận. Ngoài ra, khuôn khổ này nhấn mạnh vào lượng tử hóa mô hình , cung cấp hỗ trợ cụ thể cho việc triển khai các mô hình trên phần cứng có tài nguyên tính toán hạn chế.

Điểm mạnh

  • Tối ưu hóa công nghiệp: Được thiết kế riêng cho các nhiệm vụ phát hiện đối tượng công nghiệp trong đó các ràng buộc phần cứng cụ thể được xác định.
  • Hỗ trợ lượng tử hóa: Cung cấp quy trình làm việc đã thiết lập cho lượng tử hóa sau đào tạo, có lợi cho các quy trình triển khai biên cụ thể.
  • Các biến thể di động: Bao gồm các cấu hình YOLOv6Lite được tối ưu hóa cho CPU di động.

Điểm yếu

  • Tính linh hoạt hạn chế: Chủ yếu bị giới hạn trong việc phát hiện đối tượng, thiếu hỗ trợ gốc cho các tác vụ phức tạp như phân đoạn thể hiện , ước tính tư thế hoặc hộp giới hạn định hướng (OBB).
  • Hiệu quả sử dụng tài nguyên: Như minh họa trong phần hiệu suất, YOLOv6 các mô hình thường yêu cầu FLOP và số lượng tham số cao hơn để đạt được mức độ chính xác tương đương với các kiến trúc mới hơn.
  • Phạm vi hệ sinh thái: Mặc dù là mã nguồn mở, hệ sinh thái này không rộng bằng Ultralytics nền tảng, có khả năng cung cấp ít tích hợp hơn cho MLOps, quản lý dữ liệu và triển khai liền mạch.

Tìm hiểu thêm về YOLOv6

Ultralytics YOLO11

Tác giả : Glenn Jocher và Jing Qiu
Tổ chức : Ultralytics
Ngày : 27-09-2024
GitHub : https://github.com/ ultralytics / ultralytics
Tài liệu : https://docs. ultralytics .com/models/ yolo11 /

Ultralytics YOLO11 đứng như là phiên bản mới nhất trong YOLO Dòng sản phẩm này định nghĩa lại kỳ vọng về hiệu suất và tính dễ sử dụng. Được phát hành vào cuối năm 2024, sản phẩm này dựa trên di sản đổi mới để mang đến một mô hình không chỉ nhanh hơn và chính xác hơn mà còn cực kỳ linh hoạt trên nhiều tác vụ thị giác máy tính.

Kiến trúc và các tính năng chính

YOLO11 sở hữu kiến trúc tinh tế, không có điểm neo , giúp cải thiện đáng kể khả năng trích xuất đặc trưng đồng thời giảm thiểu chi phí tính toán. Thiết kế ưu tiên hiệu quả tham số, cho phép mô hình đạt điểm mAP cao hơn với ít tham số hơn so với các thế hệ trước và đối thủ cạnh tranh. Hiệu quả này đồng nghĩa với việc sử dụng bộ nhớ thấp hơn trong cả quá trình huấn luyện và suy luận, một lợi thế quan trọng so với các mô hình dựa trên bộ biến đổi (transformer) thường đòi hỏi nhiều tài nguyên tính toán. GPU ký ức.

Tính linh hoạt trong hành động

Không giống như nhiều mô hình chuyên biệt, YOLO11 hỗ trợ phát hiện đối tượng , phân đoạn thực thể , phân loại hình ảnh , ước tính tư thế và phát hiện hộp giới hạn định hướng (OBB) trong một khuôn khổ thống nhất duy nhất.

Điểm mạnh

  • Cân bằng hiệu suất vô song: Mang lại độ chính xác tiên tiến với kích thước mô hình và FLOP giảm đáng kể, khiến sản phẩm trở nên lý tưởng cho cả AI biên trên các thiết bị như NVIDIA Jetson và triển khai đám mây có thể mở rộng.
  • Hệ sinh thái toàn diện: Được hỗ trợ bởi sự duy trì tích cực Ultralytics hệ sinh thái, người dùng được hưởng lợi từ các bản cập nhật thường xuyên, tài liệu mở rộng và tích hợp liền mạch với các công cụ như Ultralytics HUB để đào tạo và triển khai.
  • Dễ sử dụng: API Python được sắp xếp hợp lý và CLI cho phép các nhà phát triển chuyển từ cài đặt sang suy luận chỉ trong vài phút, dân chủ hóa quyền truy cập vào AI tiên tiến.
  • Hiệu quả đào tạo: Các chương trình đào tạo được tối ưu hóa và trọng số được đào tạo sẵn đảm bảo hội tụ nhanh hơn và giảm chi phí tính toán.

Điểm yếu

  • Áp dụng Kiến trúc mới: Là bản phát hành tiên tiến, các hướng dẫn của bên thứ ba và tài nguyên cộng đồng đang phát triển nhanh chóng nhưng có thể không phong phú bằng các mô hình cũ như YOLOv5 .

Tìm hiểu thêm về YOLO11

So sánh hiệu suất

Phân tích chuẩn sau đây làm nổi bật hiệu quả tăng lên của YOLO11 qua YOLOv6 -3.0. Được đánh giá trên tập dữ liệu COCO , dữ liệu chứng minh rằng Ultralytics các mô hình luôn đạt được độ chính xác cao hơn với khối lượng tính toán nhẹ hơn.

Ví dụ, mô hình YOLO11m vượt trội hơn YOLOv6 -3.0m về độ chính xác (51,5 so với 50,0 mAP ) trong khi sử dụng ít hơn khoảng 42% tham sốít hơn 20% FLOP . Hiệu quả này rất quan trọng để giảm độ trễ và mức tiêu thụ điện năng trong các ứng dụng thực tế.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Phương pháp luận đào tạo và Hệ sinh thái

Trải nghiệm đào tạo có sự khác biệt đáng kể giữa hai khuôn khổ. YOLOv6 dựa vào các tập lệnh học sâu tiêu chuẩn và nhấn mạnh vào khả năng tự chắt lọc để đạt được các số liệu hiệu suất cao nhất, điều này có thể làm tăng thêm độ phức tạp cho quy trình đào tạo.

Ngược lại, Ultralytics YOLO11 được thiết kế để tăng năng suất cho nhà phát triển. Nó tích hợp liền mạch với ngăn xếp MLOps hiện đại, hỗ trợ ghi nhật ký tự động với Weights & Biases , CometTensorBoard . Quy trình đào tạo rất tiết kiệm bộ nhớ, thường cho phép xử lý khối lượng dữ liệu lớn hơn trên cùng một phần cứng so với các bộ phát hiện khác.

Ví dụ về tính dễ sử dụng

YOLO11 cho phép bạn đào tạo một mô hình tùy chỉnh chỉ với một vài dòng Python mã, thể hiện sự đơn giản của Ultralytics API:

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Các trường hợp sử dụng lý tưởng

Khi lựa chọn giữa các mô hình này, hãy cân nhắc các yêu cầu cụ thể của dự án của bạn:

YOLOv6 -3.0 là ứng cử viên khả thi cho:

  • Hệ thống công nghiệp kế thừa: Môi trường nơi các tối ưu hóa nhận thức phần cứng cụ thể của YOLOv6 phù hợp với cơ sở hạ tầng hiện có.
  • Phát hiện đối tượng tĩnh: Các dự án có yêu cầu chỉ phát hiện hộp giới hạn mà không cần mở rộng trong tương lai thành phân đoạn hoặc ước tính tư thế.

Ultralytics YOLO11 là lựa chọn được khuyến nghị cho:

  • Ứng dụng đa nhiệm: Các tình huống yêu cầu phát hiện, ước tính tư thế và phân đoạn đồng thời, chẳng hạn như trong lĩnh vực robot hoặc phân tích thể thao nâng cao.
  • Triển khai Edge: Các ứng dụng chạy trên các thiết bị có tài nguyên hạn chế như Raspberry Pi , trong đó YOLO11 Số lượng tham số thấp và độ chính xác cao mang lại hiệu suất tốt nhất trên mỗi watt.
  • Phát triển nhanh chóng: Các nhóm cần lặp lại nhanh chóng, tận dụng tài liệu mở rộng và sự hỗ trợ tích cực của cộng đồng để giải quyết vấn đề nhanh hơn.
  • Giải pháp thương mại: Các ứng dụng cấp doanh nghiệp được hưởng lợi từ tính ổn định và các tùy chọn cấp phép do Ultralytics .

Kết luận

Trong khi YOLOv6 Phiên bản 3.0 vẫn là một mô hình đáng tin cậy cho các lĩnh vực công nghiệp cụ thể, Ultralytics YOLO11 thiết lập một tiêu chuẩn mới cho thị giác máy tính. Sự cân bằng vượt trội giữa độ chính xác và hiệu quả, kết hợp với khả năng xử lý các tác vụ thị giác đa dạng, khiến nó trở thành giải pháp linh hoạt và sẵn sàng cho tương lai. Yêu cầu bộ nhớ thấp hơn và hệ sinh thái mạnh mẽ, được bảo trì tốt xung quanh YOLO11 đảm bảo rằng các nhà phát triển có thể xây dựng, triển khai và mở rộng các giải pháp AI của họ một cách tự tin.

Đối với những người quan tâm đến việc khám phá sâu hơn, Ultralytics tài liệu cung cấp các so sánh với các mô hình khác như YOLOv8 , YOLOv10RT-DETR .


Bình luận