Chuyển đến nội dung

YOLOv10 so với YOLOv7 Khám phá sâu sắc sự tiến hóa kiến ​​trúc

Lĩnh vực phát hiện đối tượng đã thay đổi đáng kể trong vài năm qua, với YOLO Dòng sản phẩm (You Only Look Once) luôn dẫn đầu về hiệu năng thời gian thực. Hai cột mốc quan trọng trong dòng sản phẩm này là YOLOv10 , được phát hành vào tháng 5 năm 2024, và YOLOv7 , thiết lập tiêu chuẩn vào giữa năm 2022. Mặc dù cả hai mô hình đều hướng đến việc tối ưu hóa sự cân bằng giữa tốc độ và độ chính xác, nhưng chúng sử dụng các chiến lược khác nhau về cơ bản để đạt được mục tiêu này.

Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện để giúp các nhà phát triển, nhà nghiên cứu và kỹ sư lựa chọn kiến ​​trúc phù hợp cho các ứng dụng thị giác máy tính của họ. Chúng tôi phân tích kiến ​​trúc, số liệu hiệu năng và quy trình triển khai của chúng, nêu bật lý do tại sao các phiên bản hiện đại được hỗ trợ bởi hệ sinh thái Ultralytics —bao gồm YOLO11YOLO26 đột phá—cung cấp con đường mạnh mẽ nhất cho việc triển khai AI trong môi trường sản xuất.

YOLOv10: Cuộc cách mạng NMS-Free

YOLOv10 đại diện cho một bước chuyển đổi mang tính đột phá trong phát hiện thời gian thực bằng cách giới thiệu khả năng huấn luyện từ đầu đến cuối một cách tự nhiên. Không giống như các phiên bản trước đây dựa vào xử lý hậu kỳ theo kinh nghiệm, YOLOv10 Loại bỏ nhu cầu sử dụng Non-Maximum Suppression ( NMS ) , giúp giảm đáng kể độ trễ suy luận và đơn giản hóa quy trình triển khai.

Thông tin kỹ thuật chính

YOLOv10 Mô hình đạt được hiệu suất cao thông qua phương pháp Gán Nhãn Kép Nhất Quán (Consistent Dual Assignments ), một chiến lược kết hợp việc gán nhãn từ một đến nhiều để giám sát chi tiết trong quá trình huấn luyện với việc ghép cặp từ một đến một để suy luận hiệu quả. Điều này cho phép mô hình đạt được độ chính xác cao như các mô hình YOLO truyền thống mà không phải chịu gánh nặng tính toán. NMS trong quá trình dự đoán. Ngoài ra, nó sử dụng thiết kế toàn diện hướng đến hiệu quả và độ chính xác , tối ưu hóa các thành phần khác nhau như mạch chínhđầu phát hiện để giảm số lượng tham số và FLOPs (số phép toán dấu phẩy động mỗi giây).

Tìm hiểu thêm về YOLOv10

Các trường hợp sử dụng lý tưởng

  • Giao dịch tần suất cao và phân tích thể thao: Nơi mà từng mili giây độ trễ đều quan trọng, NMS Thiết kế không cần cổng logic mang lại lợi thế tốc độ vượt trội.
  • Hệ thống nhúng: Chi phí vận hành giảm thiểu khiến nó phù hợp với các thiết bị có ngân sách tính toán hạn chế, chẳng hạn như Raspberry Pi hoặc các mô-đun NVIDIA Jetson .
  • Cảnh đám đông phức tạp: Loại bỏ NMS Giúp tránh được vấn đề thường gặp là bỏ qua các phát hiện chồng chéo hợp lệ trong môi trường dày đặc.

Lời khuyên: Hiệu quả của NMS - Kiến trúc miễn phí

Loại bỏ hiện tượng không đạt mức triệt tiêu tối đa ( NMS (Phương pháp này không chỉ giúp tăng tốc quá trình suy luận mà còn làm cho mô hình có thể phân biệt được từ đầu đến cuối , từ đó có khả năng tối ưu hóa tốt hơn trong quá trình huấn luyện. Tuy nhiên, điều này cũng có nghĩa là mô hình phải học cách loại bỏ các hộp trùng lặp bên trong, điều này đòi hỏi các chiến lược gán phức tạp như những chiến lược được tìm thấy trong...) YOLOv10 và YOLO26 .

YOLOv7: Cỗ máy mạnh mẽ "Bag-of-Freebies"

Ra mắt vào tháng 7 năm 2022, YOLOv7 là một bước tiến vượt bậc, giới thiệu khái niệm "túi quà tặng miễn phí có thể huấn luyện". Cách tiếp cận này tập trung vào việc tối ưu hóa quy trình huấn luyện và kiến ​​trúc để tăng độ chính xác mà không làm tăng chi phí suy luận.

Thông tin kỹ thuật chính

YOLOv7 đã giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN) , cho phép mạng học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát độ dài đường dẫn gradient. Nó sử dụng hiệu quả các kỹ thuật như tái tham số hóa mô hình (RepConv) để hợp nhất các mô-đun phức tạp trong quá trình huấn luyện thành các cấu trúc đơn giản hơn trong quá trình suy luận. Mặc dù rất hiệu quả, YOLOv7 vẫn là một bộ dò dựa trên neo yêu cầu NMS Điều này có thể trở thành điểm nghẽn trong các kịch bản độ trễ cực thấp so với các mô hình không cần điểm neo hoặc mô hình đầu cuối mới hơn.

Tìm hiểu thêm về YOLOv7

Các trường hợp sử dụng lý tưởng

  • Phát hiện đa năng: Tuyệt vời cho các tác vụ tiêu chuẩn, nơi việc tối ưu hóa cực độ không quá quan trọng nhưng độ tin cậy lại là yếu tố then chốt.
  • Tiêu chuẩn nghiên cứu cơ bản: Vẫn là một tiêu chuẩn phổ biến cho các bài báo học thuật so sánh những cải tiến về kiến ​​trúc.
  • Các hệ thống triển khai cũ: Các hệ thống đã được xây dựng trên Darknet hoặc các hệ thống cũ hơn. PyTorch quy trình làm việc có thể thấy việc nâng cấp lên YOLOv7 Dễ hơn là chuyển sang một mô hình hoàn toàn mới.

So sánh hiệu suất

Khi so sánh hai gã khổng lồ này, những sự đánh đổi trở nên rõ ràng. YOLOv10 thường mang lại hiệu quả tham số vượt trội và độ trễ thấp hơn do loại bỏ NMS , trong khi YOLOv7 Cung cấp độ chính xác mạnh mẽ, định hình tiêu chuẩn công nghệ vào thời điểm đó.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

Phân tích các chỉ số

  • Độ chính xác so với kích thước: YOLOv10 Đạt được mAP (Độ chính xác trung bình) tương đương hoặc tốt hơn với số lượng tham số ít hơn đáng kể. Ví dụ, YOLOv10L vượt trội hơn YOLOv7L về độ chính xác trong khi chỉ có ít hơn khoảng 20% ​​số tham số.
  • Tốc độ suy luận: NMS - Thiết kế miễn phí của YOLOv10 Điều này cho phép xử lý hậu kỳ nhanh hơn, vốn thường là điểm nghẽn tiềm ẩn trong các quy trình thực tế.
  • Hiệu quả bộ nhớ: Ultralytics các mô hình, bao gồm YOLOv10 tích hợp, thường yêu cầu ít hơn CUDA bộ nhớ trong quá trình huấn luyện được cải thiện so với các phiên bản cũ hơn hoặc các kiến ​​trúc nặng về transformer như RT-DETR .

Lợi thế của Ultralytics

Một trong những lý do thuyết phục nhất để sử dụng các mô hình này thông qua hệ sinh thái Ultralytics là sự tích hợp liền mạch và hỗ trợ được cung cấp. Cho dù bạn đang sử dụng YOLOv7 , YOLOv10 Cho dù là phiên bản YOLO26 mới nhất, trải nghiệm đều được thống nhất.

  • Dễ sử dụng: Đơn giản Python API cho phép các nhà phát triển huấn luyện, xác thực và triển khai mô hình với lượng mã tối thiểu. Bạn có thể chuyển đổi giữa các chế độ. YOLOv10 Và YOLOv7 bằng cách thay đổi một chuỗi ký tự duy nhất trong kịch bản của bạn.
  • Nền tảng Ultralytics : Người dùng có thể tận dụng Nền tảng Ultralytics để quản lý tập dữ liệu, trực quan hóa các lần chạy huấn luyện và xuất mô hình chỉ bằng một cú nhấp chuột sang các định dạng như ONNXTensorRT .
  • Tính linh hoạt: Hệ sinh thái hỗ trợ nhiều tác vụ vượt xa khả năng phát hiện đơn giản, bao gồm phân đoạn đối tượng , ước lượng tư thếOBB (Oriented Bounding Box) , đảm bảo dự án của bạn có thể phát triển khi các yêu cầu thay đổi.
  • Hiệu quả đào tạo: Ultralytics Các tối ưu hóa đảm bảo mô hình hội tụ nhanh hơn, tiết kiệm được thời gian quý báu. GPU giờ và giảm chi phí năng lượng.
from ultralytics import YOLO

# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for deployment
model.export(format="onnx")

Tương lai: Vì sao YOLO26 là sự lựa chọn tối ưu

Trong khi YOLOv7 Và YOLOv10 Đây là những mô hình xuất sắc, lĩnh vực này phát triển rất nhanh. Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, lựa chọn được khuyến nghị là YOLO26 .

Ra mắt vào tháng 1 năm 2026, YOLO26 được xây dựng dựa trên nền tảng của... NMS - bước đột phá miễn phí của YOLOv10 nhưng được tinh chỉnh để đạt tốc độ và độ ổn định cao hơn nữa.

  • NMS từ đầu đến cuối - Thiết kế miễn phí: Giống như YOLOv10 YOLO26 vốn dĩ là một hệ thống end-to-end, nhưng với các hàm mất mát được cải tiến giúp ổn định quá trình huấn luyện.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) và tối ưu hóa kiến ​​trúc, YOLO26 được tinh chỉnh đặc biệt cho điện toán biên và các thiết bị không có GPU mạnh mẽ.
  • MuSGD Optimizer: Một sự kết hợp của... SGD Và với Muon, công cụ tối ưu hóa này mang đến những cải tiến từ quá trình huấn luyện LLM cho thị giác máy tính, đảm bảo sự hội tụ nhanh hơn.
  • ProgLoss + STAL: Các hàm mất mát nâng cao mang lại những cải tiến đáng kể trong nhận dạng vật thể nhỏ, một tính năng quan trọng đối với các ngành như nông nghiệpảnh chụp từ trên không .

Đối với những ai muốn đảm bảo tính tương thích trong tương lai cho các ứng dụng của mình, việc chuyển sang YOLO26 mang lại sự cân bằng tốt nhất giữa nghiên cứu tiên tiến và độ tin cậy thực tiễn, sẵn sàng cho môi trường sản xuất.

Kết luận

Cả YOLOv10YOLOv7 đều đã khẳng định vị trí của mình trong lịch sử thị giác máy tính. YOLOv7 vẫn là một lựa chọn vững chắc và đáng tin cậy cho việc phát hiện nói chung, trong khi YOLOv10 Nó mang đến cái nhìn thoáng qua về hiệu quả của các kiến ​​trúc đầu cuối. Tuy nhiên, để có hiệu suất tốt nhất tuyệt đối, dễ sử dụng và hỗ trợ lâu dài, Ultralytics YOLO26 là lựa chọn vượt trội cho việc phát triển AI hiện đại.

Đọc thêm


Bình luận