Chuyển đến nội dung

YOLOv6 -3.0 so với YOLOv10 : So sánh kỹ thuật chi tiết

Việc lựa chọn mô hình thị giác máy tính tối ưu đóng vai trò then chốt cho sự thành công của các sáng kiến AI, cân bằng các yếu tố như độ trễ suy luận, độ chính xác và hiệu quả tính toán. Bài so sánh kỹ thuật toàn diện này xem xét hai kiến trúc phát hiện đối tượng nổi bật: YOLOv6 , được thiết kế cho tốc độ công nghiệp, và YOLOv10 , nổi tiếng với hiệu quả toàn diện theo thời gian thực. Chúng tôi phân tích các cải tiến về kiến trúc, số liệu chuẩn và các trường hợp sử dụng lý tưởng của chúng để định hướng cho quá trình lựa chọn của bạn.

YOLOv6 -3.0: Tốc độ và độ chính xác cấp công nghiệp

YOLOv6 -3.0, được phát triển bởi bộ phận trí tuệ thị giác tại Meituan, là một nền tảng phát hiện đối tượng một giai đoạn được tối ưu hóa đặc biệt cho các ứng dụng công nghiệp. Ra mắt vào đầu năm 2023, nền tảng này ưu tiên các thiết kế thân thiện với phần cứng để tối đa hóa thông lượng trên GPU và các thiết bị biên, đáp ứng các yêu cầu khắt khe của suy luận thời gian thực trong sản xuất và hậu cần.

Kiến trúc và các tính năng chính

YOLOv6 -3.0 giới thiệu "Tải lại toàn diện" kiến trúc của nó, kết hợp một số kỹ thuật tiên tiến để tăng cường tốc độ trích xuất tính năng và hội tụ:

  • Xương sống tham số hóa hiệu quả: Sử dụng xương sống nhận biết phần cứng cho phép đơn giản hóa các cấu trúc đào tạo phức tạp thành các lớp suy luận nhanh hơn, tối ưu hóa FLOPS mà không ảnh hưởng đến độ chính xác.
  • Ghép nối hai chiều (BiC): Thiết kế cổ sử dụng BiC để cải thiện tín hiệu định vị, đảm bảo kết hợp tính năng tốt hơn trên các thang đo khác nhau.
  • Huấn luyện hỗ trợ neo (AAT): Mặc dù chủ yếu không có neo, YOLOv6 -3.0 giới thiệu lại các nhánh phụ dựa trên mỏ neo trong quá trình đào tạo để ổn định sự hội tụ và tăng cường hiệu suất.

Điểm mạnh và Điểm yếu

Điểm mạnh: YOLOv6 Phiên bản 3.0 vượt trội trong các tình huống đòi hỏi thông lượng cao. Hỗ trợ lượng tử hóa mô hình cho phép triển khai hiệu quả trên nền tảng di động và hệ thống nhúng. Các phiên bản "Lite" đặc biệt hữu ích cho CPU -môi trường hạn chế.

Điểm yếu: Là một mô hình tập trung hoàn toàn vào phát hiện đối tượng , nó thiếu hỗ trợ gốc cho các tác vụ rộng hơn như phân đoạn thực thể hoặc ước tính tư thế thường thấy trong các nền tảng thống nhất như YOLO11 . Ngoài ra, so với các mô hình mới hơn, hiệu suất tham số của nó thấp hơn, đòi hỏi nhiều bộ nhớ hơn cho mức độ chính xác tương tự.

Trường hợp sử dụng lý tưởng: Tự động hóa công nghiệp

YOLOv6 -3.0 là ứng cử viên sáng giá cho tự động hóa sản xuất , nơi các camera trên dây chuyền lắp ráp phải xử lý dữ liệu có độ phân giải cao một cách nhanh chóng để detect khuyết tật hoặc sắp xếp các mặt hàng.

Tìm hiểu thêm về YOLOv6

YOLOv10 : Biên giới của hiệu quả toàn diện

Được giới thiệu bởi các nhà nghiên cứu tại Đại học Thanh Hoa vào tháng 5 năm 2024, YOLOv10 đẩy ranh giới của YOLO bằng cách loại bỏ nhu cầu sử dụng NMS (Non-Maximum Suppression) trong quá trình hậu xử lý. Sự đổi mới này định vị nó như một mô hình thế hệ tiếp theo cho các ứng dụng quan trọng về độ trễ.

Kiến trúc và các tính năng chính

YOLOv10 áp dụng chiến lược thiết kế toàn diện hướng đến hiệu quả và độ chính xác:

  • NMS - Đào tạo miễn phí: Bằng cách sử dụng các phép gán kép nhất quán (một-nhiều để đào tạo, một-một để suy luận), YOLOv10 dự đoán một hộp tốt nhất duy nhất cho mỗi đối tượng. Điều này loại bỏ chi phí tính toán và độ trễ biến thiên liên quan đến NMS hậu xử lý.
  • Thiết kế mô hình toàn diện: Kiến trúc có các đầu phân loại nhẹ và lấy mẫu hạ tần tách biệt kênh không gian, giúp giảm đáng kể các tham số mô hình và chi phí tính toán.
  • Thiết kế khối theo thứ hạng: Để cải thiện hiệu quả, mô hình sử dụng thiết kế khối theo thứ hạng để giảm sự trùng lặp ở các giai đoạn mà quá trình xử lý tính năng ít quan trọng hơn.

Điểm mạnh và Điểm yếu

Điểm mạnh: YOLOv10 cung cấp sự đánh đổi tốc độ-độ chính xác vượt trội, thường đạt được mAP cao hơn với ít thông số hơn đáng kể so với các thế hệ trước. Việc tích hợp nó vào Ultralytics Python hệ sinh thái giúp việc đào tạo và triển khai cùng với các mô hình khác trở nên cực kỳ dễ dàng.

Điểm yếu: Là một thành viên mới, các nguồn lực cộng đồng và công cụ của bên thứ ba vẫn đang phát triển. Giống như YOLOv6 , nó chuyên dùng để phát hiện, trong khi người dùng cần khả năng thực hiện nhiều tác vụ có thể thích YOLO11 .

Lời khuyên: Đột phá về hiệu quả

Việc loại bỏ NMS cho phép YOLOv10 để đạt được độ trễ suy luận ổn định, một yếu tố quan trọng đối với các hệ thống quan trọng về an toàn như xe tự hành , nơi thời gian xử lý phải mang tính xác định.

Tìm hiểu thêm về YOLOv10

Phân tích hiệu suất: Số liệu và tiêu chuẩn

Bảng sau đây so sánh hiệu suất của YOLOv6 -3.0 và YOLOv10 trên COCO tập dữ liệu. Các số liệu chính bao gồm kích thước mô hình, độ chính xác trung bình ( mAP ), và tốc độ suy luận trên CPU Và GPU .

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6 -3.0n64037.5-1.174.711.4
YOLOv6 -3.0 giây64045.0-2.6618.545.3
YOLOv6 -3,0m64050.0-5.2834.985.8
YOLOv6 -3.0l64052.8-8.9559.6150.7
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Những hiểu biết chính

  1. Hiệu suất tham số: YOLOv10 thể hiện hiệu quả đáng chú ý. Ví dụ, YOLOv10s đạt được hiệu suất cao hơn mAP (46,7%) so với YOLOv6 -3.0s (45,0%) trong khi sử dụng ít hơn một nửa số tham số (7,2M so với 18,5M). Việc giảm thiểu dung lượng bộ nhớ này rất quan trọng đối với các thiết bị AI biên .
  2. Độ trễ: Trong khi YOLOv6 -3.0n cho thấy tốc độ xử lý thô nhanh hơn một chút TensorRT độ trễ (1,17ms so với 1,56ms), YOLOv10 loại bỏ NMS bước này thường tốn thêm thời gian trong các quy trình thực tế không được ghi lại trong thời gian suy luận mô hình thô.
  3. Độ chính xác: Trên hầu hết các thang đo, YOLOv10 cung cấp độ chính xác cao hơn, khiến nó trở thành lựa chọn mạnh mẽ hơn để phát hiện các vật thể khó trong môi trường phức tạp.

Sử dụng và triển khai

Ultralytics cung cấp trải nghiệm hợp lý khi sử dụng các mô hình này. YOLOv10 được hỗ trợ gốc trong ultralytics gói, cho phép liền mạch đào tạo và dự đoán.

Đang chạy YOLOv10 với Ultralytics

Bạn có thể chạy YOLOv10 sử dụng Python API chỉ với một vài dòng mã. Điều này làm nổi bật tính dễ sử dụng vốn có trong Ultralytics hệ sinh thái.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg", save=True)

# Train the model on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

Sử dụng YOLOv6 -3.0

YOLOv6 -3.0 thường yêu cầu sao chép kho lưu trữ Meituan chính thức để đào tạo và suy luận vì nó tuân theo cấu trúc cơ sở mã khác.

# Clone the YOLOv6 repository
git clone https://github.com/meituan/YOLOv6
cd YOLOv6
pip install -r requirements.txt

# Inference using the official script
python tools/infer.py --weights yolov6s.pt --source path/to/image.jpg

Kết luận: Lựa chọn mô hình phù hợp

Cả hai mô hình đều đại diện cho những thành tựu đáng kể trong lĩnh vực thị giác máy tính. YOLOv6 -3.0 vẫn là một lựa chọn đáng tin cậy cho các hệ thống công nghiệp cũ được tối ưu hóa đặc biệt cho kiến trúc của nó. Tuy nhiên, YOLOv10 nhìn chung mang lại lợi tức đầu tư tốt hơn cho các dự án mới nhờ... NMS - Kiến trúc tự do, hiệu quả tham số vượt trội và độ chính xác cao hơn.

Đối với các nhà phát triển đang tìm kiếm sự linh hoạt tối đa và hỗ trợ hệ sinh thái , Ultralytics YOLO11 được khuyến nghị mạnh mẽ. YOLO11 không chỉ cung cấp hiệu suất phát hiện tiên tiến mà còn hỗ trợ ước tính tư thế , OBBphân loại trong một gói duy nhất được bảo trì tốt. Ultralytics hệ sinh thái đảm bảo quy trình đào tạo hiệu quả, sử dụng ít bộ nhớ và dễ dàng xuất sang các định dạng như ONNXTensorRT , giúp bạn triển khai các giải pháp AI mạnh mẽ một cách tự tin.

Đọc thêm


Bình luận