Chuyển đến nội dung

YOLOv6 -3.0 so với YOLOv10 Sự tiến hóa của phát hiện đối tượng thời gian thực

Lĩnh vực phát hiện đối tượng được đặc trưng bởi sự đổi mới nhanh chóng, nơi các đột phá về kiến ​​trúc liên tục định nghĩa lại giới hạn về tốc độ và độ chính xác. Hai cột mốc quan trọng trong hành trình này là YOLOv6 , một mô hình được thiết kế cho các ứng dụng công nghiệp, và YOLOv10 , một đột phá học thuật tập trung vào hiệu quả từ đầu đến cuối.

Trong khi YOLOv6 -3.0 nhấn mạnh thông lượng trên phần cứng chuyên dụng thông qua lượng tử hóa và TensorRT tối ưu hóa, YOLOv10 đã giới thiệu một sự thay đổi mô hình bằng cách loại bỏ hiện tượng ức chế không tối đa (Non-Maximum Suppression) ( NMS (để có độ trễ thấp hơn). Bài so sánh này sẽ khám phá kiến ​​trúc kỹ thuật, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp các nhà phát triển lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của họ.

So sánh Các chỉ số Hiệu suất

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa hai kiến ​​trúc trên nhiều quy mô mô hình khác nhau. Trong khi đó, YOLOv6 -3.0 mang lại kết quả tốt, các tối ưu hóa kiến ​​trúc mới hơn trong YOLOv10 thường cung cấp tỷ lệ độ chính xác trên tham số vượt trội.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLOv6 -3.0: Con ngựa thồ công nghiệp

YOLOv6 -3.0 được thiết kế với một mục tiêu duy nhất: tối đa hóa hiệu suất trong môi trường công nghiệp. Được phát triển bởi Meituan, một nền tảng thương mại điện tử hàng đầu tại Trung Quốc, phần mềm này ưu tiên triển khai trên các hệ thống chuyên dụng. GPU phần cứng.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, et al.
Tổ chức: Meituan
Ngày: 13/01/2023
Arxiv: YOLOv6 v3.0: Tải lại toàn diện
GitHub: Kho lưu trữ Meituan YOLOv6

Kiến trúc và Điểm mạnh

YOLOv6 sử dụng kiến ​​trúc xương sống kiểu VGG có tên là EfficientRep, rất thân thiện với người dùng. GPU các mẫu truy cập bộ nhớ. Sự đổi mới quan trọng của nó nằm ở sự tích hợp sâu sắc với Huấn luyện nhận biết lượng tử hóa (Quantization-Aware Training - QAT) và chưng cất. Điều này cho phép mô hình duy trì độ chính xác cao ngay cả khi được lượng tử hóa thành INT8, một tính năng quan trọng để triển khai trên các thiết bị biên với bộ tăng tốc phần cứng như... NVIDIA TensorRT .

Bản cập nhật "v3.0" đã giới thiệu tính năng kết hợp hai chiều (BiFusion) ở phần cổ, tăng cường khả năng tích hợp các đặc điểm trên nhiều kích thước khác nhau. Điều này giúp thiết bị đặc biệt hiệu quả trong việc phát hiện các vật thể có kích thước khác nhau trong môi trường công nghiệp phức tạp, chẳng hạn như phân đoạn bao bì hoặc kiểm soát chất lượng tự động.

Tối ưu hóa Công nghiệp

YOLOv6 Mô hình này được tối ưu hóa mạnh mẽ cho mô hình "Rep" (tái tham số hóa). Trong quá trình huấn luyện, mô hình sử dụng các khối đa nhánh để có luồng gradient tốt hơn, nhưng trong quá trình suy luận, chúng được hợp nhất thành các phép tích chập 3x3 đơn nhánh. Điều này giúp suy luận nhanh hơn trên GPU nhưng có thể làm tăng mức sử dụng bộ nhớ trong giai đoạn huấn luyện.

Điểm yếu: Sự phụ thuộc vào các cơ chế dựa trên điểm neo và các phương pháp truyền thống. NMS xử lý hậu kỳ có nghĩa là YOLOv6 Các đường dẫn xử lý thường có độ trễ thay đổi tùy thuộc vào số lượng đối tượng được phát hiện. Ngoài ra, CPU Hiệu năng nhìn chung kém tối ưu hơn so với các kiến ​​trúc mới hơn được thiết kế cho CPU di động.

Tìm hiểu thêm về YOLOv6

YOLOv10: Tiên phong End-to-End

YOLOv10 đánh dấu một bước ngoặt đáng kể so với truyền thống. YOLO Công thức này giải quyết được nút thắt cổ chai trong quá trình xử lý hậu kỳ. Được tạo ra bởi các nhà nghiên cứu tại Đại học Thanh Hoa, nó giới thiệu một chiến lược phân công kép nhất quán để loại bỏ nhu cầu về loại bỏ cực đại không tương thích (Non-Maximum Suppression). NMS ).

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23/05/2024
Arxiv: YOLOv10 : Phát hiện đối tượng từ đầu đến cuối theo thời gian thực
GitHub: Kho lưu trữ Tsinghua YOLOv10

Kiến trúc và Điểm mạnh

YOLOv10 Đặc điểm nổi bật của nó là thiết kế không sử dụng NMS . Các bộ dò truyền thống tạo ra các dự đoán dư thừa cần phải được lọc bỏ, làm tiêu tốn thời gian suy luận quý giá. YOLOv10 Mô hình sử dụng phương pháp gán "một-nhiều" để giám sát chi tiết trong quá trình huấn luyện, nhưng chuyển sang phương pháp ghép "một-một" cho quá trình suy luận. Điều này đảm bảo mô hình xuất ra chính xác một hộp cho mỗi đối tượng, giảm đáng kể sự biến thiên về độ trễ.

Hơn nữa, YOLOv10 Nó sử dụng thiết kế toàn diện hướng đến hiệu quả và độ chính xác. Nó sử dụng các đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh để giảm chi phí tính toán (FLOPs) mà không làm giảm độ chính xác trung bình ( mAP ) . Điều này làm cho nó rất linh hoạt, phù hợp với các ứng dụng từ lái xe tự động đến giám sát thời gian thực.

Điểm yếu: Là một dự án nghiên cứu mang tính học thuật, YOLOv10 Có thể thiếu các công cụ mạnh mẽ, cấp doanh nghiệp như trong các framework được hỗ trợ thương mại. Mặc dù kiến ​​trúc này mang tính đột phá, người dùng có thể gặp khó khăn trong việc bảo trì lâu dài và tích hợp vào các quy trình CI/CD phức tạp so với các mô hình có đội ngũ hỗ trợ chuyên trách.

Tìm hiểu thêm về YOLOv10

Lợi thế của Ultralytics: Tại sao chọn YOLO26?

Trong khi YOLOv6 -3.0 và YOLOv10 Đại diện cho những bước tiến quan trọng trong lịch sử thị giác máy tính, mẫu Ultralytics YOLO26 là sự lựa chọn vượt trội dành cho các nhà phát triển tìm kiếm hiệu năng đỉnh cao, dễ sử dụng và hỗ trợ hệ sinh thái toàn diện.

Được phát hành vào tháng 1 năm 2026, YOLO26 tổng hợp những tính năng tốt nhất của các phiên bản tiền nhiệm đồng thời giới thiệu những tối ưu hóa đột phá cho việc triển khai hiện đại.

Ưu điểm chính của YOLO26

  1. Hệ NMS từ đầu đến cuối - Thiết kế miễn phí: Xây dựng dựa trên nền tảng của... YOLOv10 YOLO26 là hệ thống end-to-end hoàn chỉnh. Nó loại bỏ hoàn toàn các vấn đề phát sinh. NMS xử lý hậu kỳ, đảm bảo độ trễ xác định và logic triển khai đơn giản.
  2. Tối ưu hóa ưu tiên xử lý trên thiết bị biên: Bằng cách loại bỏ hàm mất mát tiêu điểm phân phối (DFL), YOLO26 đơn giản hóa đồ thị mô hình để xuất. Điều này giúp tăng tốc độ suy luận CPU lên tới 43% , biến nó trở thành "vua" không thể tranh cãi trong điện toán biên trên các thiết bị như Raspberry Pi hoặc điện thoại di động.
  3. Trình tối ưu hóa MuSGD: Lấy cảm hứng từ tính ổn định trong quá trình huấn luyện của Mô hình Ngôn ngữ Lớn (LLM), YOLO26 sử dụng trình tối ưu hóa MuSGD (một sự kết hợp của...) SGD và Muon). Điều này đảm bảo sự hội tụ nhanh hơn và các lần chạy huấn luyện ổn định hơn, giảm thời gian và chi phí tính toán cần thiết để đạt được độ chính xác tối ưu.
  4. Các chức năng giảm tổn thất nâng cao: Việc tích hợp ProgLossSTAL mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một khả năng quan trọng đối với hình ảnh máy bay không người lái và giám sát từ xa.

Hỗ trợ hệ sinh thái vô song

Lựa chọn Ultralytics Điều đó không chỉ đơn thuần là chọn một mô hình kiến ​​trúc; mà còn có nghĩa là tiếp cận được một nền tảng phát triển toàn diện.

  • Dễ sử dụng: Ultralytics API này là tiêu chuẩn ngành nhờ sự đơn giản của nó. Việc chuyển đổi giữa các mô hình hoặc tác vụ (như ước tính tư thế hoặc OBB ) chỉ yêu cầu thay đổi mã tối thiểu.
  • Hiệu quả đào tạo: Ultralytics Các mô hình này nổi tiếng về hiệu quả bộ nhớ. Không giống như các mô hình dựa trên máy biến áp nặng nề đòi hỏi dung lượng bộ nhớ khổng lồ. GPU VRAM, YOLO26 được tối ưu hóa để hoạt động hiệu quả trên phần cứng dành cho người tiêu dùng.
  • Tính linh hoạt: Không giống như các đối thủ cạnh tranh thường chỉ tập trung vào các hộp giới hạn, Ultralytics Hệ sinh thái hỗ trợ phân đoạn đối tượng , phân loại và hộp giới hạn định hướng ngay từ đầu.

Đảm bảo tính bền vững cho các dự án của bạn trong tương lai

Sử dụng Ultralytics Gói này đảm bảo dự án của bạn luôn tương thích với những tiến bộ trong tương lai. Khi một kiến ​​trúc mới như YOLO26 được phát hành, bạn có thể nâng cấp quy trình sản xuất của mình chỉ bằng cách thay đổi tên mô hình trong tập lệnh, mà không cần viết lại các vòng lặp huấn luyện hoặc trình tải dữ liệu.

Ví dụ mã: Đào tạo liền mạch

Cái Ultralytics Python Gói này hợp nhất các mô hình này dưới một giao diện duy nhất. Cho dù bạn đang thử nghiệm với... NMS - khả năng miễn phí của YOLOv10 Cho dù tốc độ xử lý thô của YOLO26 như thế nào, quy trình làm việc vẫn nhất quán.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a dataset (e.g., COCO8) with efficient settings
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Use GPU 0
)

# Run inference with NMS-free speed
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

Tìm hiểu thêm về YOLO26

Kết luận

Khi so sánh YOLOv6 -3.0YOLOv10 , sự lựa chọn thường phụ thuộc vào các hạn chế cụ thể của phần cứng. YOLOv6 -3.0 vẫn là một ứng cử viên sáng giá cho các hệ thống cũ được đầu tư mạnh vào. TensorRT và GPU chuyên dụng. YOLOv10 Nó cung cấp một phương pháp kiến ​​trúc hiện đại giúp đơn giản hóa quá trình xử lý hậu kỳ và giảm số lượng tham số mà vẫn đạt được độ chính xác tương tự.

Tuy nhiên, đối với các nhà phát triển yêu cầu sự kết hợp hoàn hảo giữa công nghệ tiên tiến và những ưu điểm vượt trội—công nghệ hiện đại nhất—thì đây là giải pháp tối ưu. NMS Với kiến ​​trúc không cần cấu hình đặc biệt kết hợp với hệ sinh thái mạnh mẽ và được hỗ trợ tốt, Ultralytics YOLO26 là giải pháp được khuyến nghị. Ưu điểm vượt trội của nó là khả năng xử lý dữ liệu vượt trội. CPU Hiệu năng vượt trội, trình tối ưu hóa MuSGD tiên tiến và khả năng tích hợp liền mạch với Nền tảng Ultralytics khiến nó trở thành lựa chọn linh hoạt và có khả năng đáp ứng nhu cầu trong tương lai nhất cho các ứng dụng AI thực tế.

Đối với người dùng quan tâm đến việc khám phá các mô hình hiệu quả cao khác, chúng tôi cũng khuyên bạn nên xem xét YOLO11 cho các tác vụ thị giác tổng quát hoặc YOLO -World cho việc phát hiện từ vựng mở.


Bình luận