YOLOv10 so với YOLOv7 Sự tiến hóa của phát hiện đối tượng thời gian thực

Sự phát triển nhanh chóng của thị giác máy tính trong vài năm qua đã tạo ra các kiến trúc ngày càng hiệu quả hơn cho các ứng dụng thời gian thực. Việc so sánh YOLOv10 và YOLOv7 làm nổi bật một giai đoạn chuyển tiếp quan trọng trong quá trình tiến hóa này. Trong khi đó, YOLOv7 Đã giới thiệu các chiến lược đào tạo hiệu quả cao và mở rộng quy mô kiến trúc. YOLOv10 đã cách mạng hóa việc triển khai bằng cách loại bỏ sự phụ thuộc lâu nay vào phương pháp đàn áp không tối đa (Non-Maximum Suppression) ( NMS ).

Cả hai mô hình đều đã đẩy lùi giới hạn của phát hiện đối tượng tại thời điểm ra mắt, tuy nhiên, hệ sinh thái Ultralytics hiện đại và sự ra đời của các mô hình thế hệ tiếp theo như YOLO26 mang lại quy trình làm việc vượt trội hơn nhiều cho các chuyên gia AI ngày nay.

Hồ sơ và nguồn gốc của các mẫu sản phẩm

Việc hiểu rõ nguồn gốc của những mô hình này cung cấp bối cảnh quan trọng liên quan đến các lựa chọn thiết kế kiến trúc và nghiên cứu học thuật thúc đẩy chúng.

YOLOv10 Chi tiết

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
Arxiv: YOLOv10: Phát hiện đối tượng đầu cuối theo thời gian thực
GitHub: THU-MIG/yolov10
Tài liệu: Tài liệu Ultralytics YOLOv10

Tìm hiểu thêm về YOLOv10

YOLOv7 Chi tiết

Các tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
Đơn vị tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan
Ngày: 06/07/2022
Arxiv: YOLOv7: Túi các kỹ thuật miễn phí có thể huấn luyện thiết lập trạng thái nghệ thuật mới
GitHub: WongKinYiu/yolov7
Tài liệu: Tài liệu Ultralytics YOLOv7

Tìm hiểu thêm về YOLOv7

Đổi mới Kiến trúc

Cái YOLOv7 Tiếp cận

Ra mắt năm 2022, YOLOv7 Bài báo tập trung mạnh vào việc tối ưu hóa đường dẫn gradient. Nó giới thiệu Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), cho phép mô hình học được nhiều đặc trưng đa dạng hơn mà không làm hỏng đường dẫn gradient ban đầu. Hơn nữa, các tác giả đã triển khai phương pháp "túi quà tặng có thể huấn luyện", sử dụng các kỹ thuật tái tham số hóa trong quá trình huấn luyện có thể được loại bỏ trong quá trình suy luận để duy trì tốc độ thực thi nhanh. Mặc dù có những tối ưu hóa ấn tượng này, YOLOv7 vẫn phụ thuộc rất nhiều vào NMS Để xử lý hậu kỳ, tạo ra độ trễ thay đổi trong quá trình phân tích cảnh phức tạp.

Cái YOLOv10 Đột phá

YOLOv10 đã giải quyết NMS Điểm nghẽn được giải quyết trực tiếp. Bằng cách áp dụng các bài tập kép nhất quán trong quá trình đào tạo, nhóm nghiên cứu Đại học Thanh Hoa đã tạo điều kiện để... NMS - Phát hiện đầu cuối miễn phí. Phương pháp hai đầu này sử dụng một nhánh với các gán một-nhiều cho các tín hiệu giám sát phong phú trong quá trình huấn luyện, và một nhánh khác với các gán một-một cho NMS Suy luận không mất dữ liệu. Sự thay đổi kiến trúc này đảm bảo độ trễ suy luận cực thấp, nhất quán, phù hợp với phân tích video tốc độ cao. Hơn nữa, YOLOv10 Nó sử dụng thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác, loại bỏ sự dư thừa về mặt tính toán thường thấy ở các thế hệ trước.

Tác động của xử lý hậu kỳ

Loại bỏ NMS Xử lý hậu kỳ không chỉ giúp tăng tốc quá trình suy luận mà còn đơn giản hóa đáng kể việc triển khai trên phần cứng AI biên, chẳng hạn như bộ tăng tốc AI và NPU, nơi cần xử lý hậu kỳ tùy chỉnh. NMS Việc biên dịch các thao tác này nổi tiếng là khó khăn.

So sánh hiệu suất

Khi so sánh các chỉ số thô trên tập dữ liệu MS COCO , khoảng cách giữa các thế hệ trở nên rõ ràng. YOLOv10 Đạt được sự cân bằng tối ưu hơn nhiều giữa các tham số, yêu cầu tính toán và độ chính xác.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

Như đã thấy ở trên, YOLOv10x mang lại mAP vượt trội 54.4% so với 53.1% của YOLOv7x, trong khi sử dụng ít hơn khoảng 20% tham số. Hơn nữa, các mô hình YOLOv10 nhẹ (Nano và Small) cung cấp tốc độ triển khai TensorRT vượt trội, khiến chúng rất hấp dẫn cho việc triển khai trên thiết bị di động.

Lợi thế Hệ sinh thái Ultralytics

Mặc dù việc nghiên cứu các tài liệu kiến trúc rất hữu ích, nhưng sự phát triển thị giác máy tính hiện đại dựa trên các khung phần mềm mạnh mẽ và được bảo trì tốt. Việc lựa chọn một... Ultralytics Mô hình được hỗ trợ mang lại lợi thế rất lớn cho các nhà phát triển muốn nhanh chóng chuyển từ giai đoạn nguyên mẫu sang sản phẩm hoàn chỉnh.

Phát triển tinh gọn

Cả YOLOv10 và YOLOv7 đều có thể được truy cập thông qua gói python Ultralytics tiêu chuẩn. Điều này mang lại sự dễ sử dụng vô song, thay thế hàng nghìn dòng mã lặp lại bằng một API đơn giản, trực quan. Hơn nữa, các mô hình Ultralytics YOLO yêu cầu bộ nhớ CUDA thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc transformer nặng, cho phép sử dụng kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng.

Tính Đa Năng Vượt Trội

Trong khi các kho lưu trữ cũ thường chỉ tập trung vào việc phát hiện hộp giới hạn, thì sự tích hợp này Ultralytics Khung phần mềm hỗ trợ liền mạch rất nhiều tác vụ khác nhau. Cho dù bạn đang thực hiện Phân đoạn đối tượng , Ước tính tư thế hay Phát hiện hộp giới hạn định hướng (OBB) , quy trình làm việc vẫn giống nhau.

Ví dụ mã: Quy trình huấn luyện nhất quán

Đoạn mã sau đây minh họa quy trình huấn luyện liền mạch, tự động xử lý việc tăng cường dữ liệu và lập lịch tốc độ học:

from ultralytics import YOLO

# Load the desired model (YOLOv10, YOLOv7, or the recommended YOLO26)
model = YOLO("yolo26n.pt")

# Train the model effortlessly on your dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)

# Export to ONNX format for rapid deployment
model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và YOLOv7 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn YOLOv7

YOLOv7 được khuyến nghị cho:

Academic Benchmarking: Tái tạo các kết quả tiên tiến nhất từ kỷ nguyên 2022 hoặc nghiên cứu ảnh hưởng của E-ELAN và các kỹ thuật bag-of-freebies có thể huấn luyện.
Nghiên cứu tái tham số hóa: Nghiên cứu các phép tích chập được tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình phức hợp.
Các pipeline tùy chỉnh hiện có: Các dự án với các pipeline tùy chỉnh cao được xây dựng xung quanh kiến trúc cụ thể của YOLOv7 mà không thể dễ dàng tái cấu trúc.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Tiêu chuẩn mới: Giới thiệu YOLO26

Trong khi YOLOv10 Năm 2024 là một bước tiến vượt bậc, lĩnh vực thị giác máy tính phát triển cực kỳ nhanh chóng. Đối với tất cả các dự án phát triển mới, chúng tôi đặc biệt khuyên dùng mô hình thế hệ mới nhất: Ultralytics YOLO26 . Được phát hành vào tháng 1 năm 2026, nó đại diện cho đỉnh cao tuyệt đối của trí tuệ nhân tạo thị giác thời gian thực, vượt trội hơn hẳn so với cả hai thế hệ trước. YOLOv7 Và YOLOv10 .

Tìm hiểu thêm về YOLO26

YOLO26 mang đến những cải tiến chưa từng có, được thiết kế đặc biệt cho môi trường triển khai hiện đại:

Thiết kế đầu cuối không NMS: Dựa trên nền tảng do YOLOv10 đặt ra, YOLO26 loại bỏ tự nhiên hậu xử lý NMS để có các quy trình triển khai đơn giản hơn và suy luận tốc độ cao nhất quán.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho điện toán biên và các thiết bị không có GPU chuyên dụng, giúp tiết kiệm đáng kể chi phí phần cứng.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ hoàn toàn, điều này đơn giản hóa triệt để logic xuất và cải thiện đáng kể khả năng tương thích với các thiết bị biên công suất thấp và vi điều khiển.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang những đổi mới trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) trực tiếp vào thị giác máy tính, mang lại động lực huấn luyện cực kỳ ổn định và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, một lĩnh vực từng là thách thức lịch sử, rất quan trọng đối với drone, robot học và giám sát thành phố thông minh.
Cải tiến chuyên biệt theo tác vụ: YOLO26 không chỉ là một bộ detect. Nó bao gồm hàm mất mát segment ngữ nghĩa chuyên biệt, Ước tính Log-Likelihood Dư (RLE) để theo dõi tư thế siêu chính xác và các thuật toán hàm mất mát góc chuyên biệt để loại bỏ các vấn đề biên của OBB.

Quản lý tập dữ liệu và đào tạo

Để có trải nghiệm tốt nhất trong việc quản lý tập dữ liệu, huấn luyện YOLO26 và triển khai mô hình lên đám mây, hãy khám phá Nền tảng Ultralytics . Nền tảng này cung cấp giao diện không cần lập trình, hoàn toàn phù hợp với... Python Bộ công cụ phát triển phần mềm (SDK).

Các trường hợp sử dụng thực tế

Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào các ràng buộc về phần cứng và ứng dụng của bạn.

Khi nào nên sử dụng YOLOv7

YOLOv7 vẫn là một lựa chọn đáng tin cậy để duy trì các quy trình kế thừa đã được tích hợp sâu với các hệ thống chuyên dụng của nó. tensor hoặc khi sao chép các tiêu chuẩn đánh giá học thuật từ năm 2022 và 2023. Nó hoạt động rất tốt trên các GPU máy chủ cao cấp.

Khi nào nên sử dụng YOLOv10

YOLOv10 Nó tỏa sáng trong các tình huống yêu cầu độ trễ nghiêm ngặt và không thay đổi. Bởi vì nó là NMS -Miễn phí, nó rất tuyệt vời cho việc đếm đám đông mật độ cao hoặc phát hiện lỗi sản xuất, nơi số lượng đối tượng biến động mạnh nhưng thời gian xử lý mỗi khung hình phải không đổi.

Khi nào nên sử dụng YOLO26

YOLO26 là sự lựa chọn tối ưu cho mọi dự án mới. Từ việc triển khai các hệ thống báo động an ninh phức tạp trên một chiếc Raspberry Pi cơ bản đến việc vận hành hệ thống phân tích video dựa trên đám mây quy mô lớn, YOLO26 vượt trội hơn hẳn. CPU Tốc độ và khả năng phát hiện vật thể nhỏ tiên tiến giúp nó vượt trội hơn hẳn so với các thế hệ cũ.

Đối với các nhà phát triển quan tâm đến việc khám phá các kiến trúc hiện đại thay thế, chúng tôi cũng cung cấp hỗ trợ rộng rãi cho các bộ dò dựa trên transformer như RT-DETR và các sản phẩm chủ lực thế hệ trước như Ultralytics YOLO11 .