YOLOv10 so với YOLOv9 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Sự phát triển của thị giác máy tính thời gian thực được đánh dấu bằng những đột phá liên tục về tốc độ, độ chính xác và hiệu quả kiến trúc. Khi đánh giá các giải pháp hiện đại cho lần triển khai tiếp theo của bạn, việc so sánh YOLOv10 và YOLOv9 mang đến cái nhìn thú vị về hai cách tiếp cận khác nhau để giải quyết các nút thắt cổ chai trong học sâu. Trong khi đó, YOLOv9 Tập trung vào việc tối đa hóa luồng thông tin gradient trong quá trình huấn luyện. YOLOv10 Tiên phong trong thiết kế tích hợp từ đầu đến cuối, loại bỏ hoàn toàn các rào cản xử lý hậu kỳ truyền thống.

Hướng dẫn toàn diện này phân tích những cải tiến về kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp các nhà phát triển và nhà nghiên cứu lựa chọn mô hình tối ưu cho các nhiệm vụ thị giác máy tính cụ thể của họ.

YOLOv10 : Cái NMS - Miễn phí trọn gói Pioneer

Được phát triển để giải quyết các nút thắt cổ chai về độ trễ của các bộ phát hiện đối tượng truyền thống, YOLOv10 giới thiệu một kiến trúc đầu cuối mang tính cách mạng, loại bỏ hoàn toàn nhu cầu về Non-Maximum Suppression (NMS).

Thông tin kỹ thuật và nguồn gốc:

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23 tháng 5 năm 2024
Liên kết:Bài báo Arxiv, Kho lưu trữ GitHub, Tài liệu Ultralytics

Tìm hiểu thêm về YOLOv10

Kiến trúc và Điểm mạnh

YOLOv10 Đóng góp quan trọng nhất của lĩnh vực này là chiến lược phân công kép nhất quán cho NMS - Đào tạo miễn phí. Bằng cách loại bỏ NMS Mô hình này giúp giảm đáng kể độ trễ suy luận, đặc biệt là trên các thiết bị biên, nơi quá trình xử lý hậu kỳ có thể gây tắc nghẽn toàn bộ quy trình. Nó tối ưu hóa nhiều thành phần từ cả khía cạnh hiệu quả và độ chính xác, dẫn đến một mô hình có sự cân bằng đáng kể giữa tốc độ và số lượng tham số . Ví dụ, YOLOv10 - Phiên bản -S có tốc độ cực nhanh, rất phù hợp cho việc phân tích video tốc độ cao và điều hướng robot thời gian thực.

Điểm yếu

Trong khi NMS -Thiết kế miễn phí là một bước đột phá trong việc phát hiện khung bao quanh. YOLOv10 Nó chủ yếu được tối ưu hóa như một công cụ phát hiện đối tượng thuần túy. Nó thiếu tính linh hoạt sẵn có của các hệ sinh thái mới hơn hỗ trợ sẵn các tính năng này. Phân đoạn thực thể hoặc Ước tính tư thế. Hơn nữa, các triển khai ban đầu yêu cầu xử lý xuất cẩn thận để đảm bảo các hoạt động như cv2 đã được tối ưu hóa hoàn toàn từ đồ thị suy luận.

Xuất YOLOv10

Khi chuẩn bị YOLOv10 Để sử dụng trong sản xuất, hãy luôn đảm bảo xuất mô hình sang các định dạng được tối ưu hóa như TensorRT hoặc... ONNX Chạy ở dạng thô PyTorch Việc sử dụng trọng số trong quá trình triển khai có thể dẫn đến quá trình suy luận chậm hơn dự kiến do các thao tác trên đồ thị chưa được tối ưu hóa.

YOLOv9: Thông tin Gradient có thể lập trình

Trước đó YOLOv10 , YOLOv9 Đã giới thiệu các khái niệm kiến trúc mới để giải quyết vấn đề tắc nghẽn thông tin vốn có trong mạng nơ-ron sâu, cho phép sử dụng tham số hiệu quả cao.

Thông tin kỹ thuật và nguồn gốc:

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: 21 tháng 2, 2024
Liên kết:Bài báo Arxiv, Kho lưu trữ GitHub, Tài liệu Ultralytics

Tìm hiểu thêm về YOLOv9

Kiến trúc và Điểm mạnh

YOLOv9 Giới thiệu Thông tin Độ dốc Lập trình được (PGI) cùng với Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN). PGI đảm bảo rằng thông tin mục tiêu quan trọng không bị mất khi dữ liệu truyền qua các lớp sâu của mạng, tạo ra độ dốc đáng tin cậy để cập nhật trọng số. GELAN tối đa hóa hiệu quả của các tham số mạng. Cùng nhau, những cải tiến này cho phép YOLOv9 Mô hình này đạt được độ chính xác trung bình ( mAP ) cực cao trên tập dữ liệu MS COCO , thường vượt trội hơn các mô hình phức tạp hơn trong khi sử dụng ít phép tính FLOP hơn. Đây là một mô hình đặc biệt dành cho các nhà nghiên cứu tập trung vào việc tối đa hóa các chỉ số độ chính xác lý thuyết.

Điểm yếu

Mặc dù có độ chính xác cao, YOLOv9 vẫn dựa vào xử lý hậu kỳ NMS tiêu chuẩn. Điều này có nghĩa là trong khi các hoạt động của mạng nơ-ron nhanh chóng, việc lọc hộp giới hạn cuối cùng có thể gây ra độ trễ thay đổi tùy thuộc vào mật độ đối tượng trong cảnh. Ngoài ra, quá trình huấn luyện của nó có thể tiêu tốn nhiều bộ nhớ so với các mô hình sau này, đòi hỏi tài nguyên GPU mạnh mẽ hơn để tinh chỉnh tập dữ liệu tùy chỉnh.

So sánh hiệu suất

Bảng dưới đây minh họa các chỉ số cốt lõi cho cả hai mô hình. Hãy chú ý cách YOLOv10 thường đạt được độ trễ thấp hơn thông qua TensorRT , trong khi YOLOv9 Nó đẩy giới hạn độ chính xác lên mức cao nhất ở cấu hình lớn nhất của nó.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Thế hệ tiếp theo: Vì sao YOLO26 là ứng dụng đề xuất tối ưu nhất

Trong khi YOLOv9 Và YOLOv10 Với những cột mốc ấn tượng, lĩnh vực học máy đang phát triển rất nhanh. Đối với môi trường sản xuất hiện đại, các nhà phát triển ngày càng dựa vào hệ sinh thái tích hợp, được bảo trì tốt của Nền tảng Ultralytics . Tính đến năm 2026, khuyến nghị rõ ràng cho cả nghiên cứu và doanh nghiệp là YOLO26 mới được phát hành.

YOLO26 kế thừa các khái niệm nền tảng từ các phiên bản tiền nhiệm và nâng tầm chúng thông qua trải nghiệm người dùng tinh gọn, API đơn giản và yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các kiến trúc dựa trên transformer cồng kềnh.

Những cải tiến quan trọng trong YOLO26

Thiết kế đầu cuối không NMS: Dựa trên những đột phá của YOLOv10, YOLO26 có thiết kế đầu cuối nguyên bản, loại bỏ hoàn toàn hậu xử lý NMS để triển khai đơn giản hơn và các cấu hình độ trễ có tính xác định cao.
Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa sẵn sàng cho AI biên, làm cho nó trở thành lựa chọn hoàn hảo cho các hệ thống nhúng thiếu GPU chuyên dụng.
Trình tối ưu hóa MuSGD: Một sự kết hợp lai đột phá giữa SGD và Muon (lấy cảm hứng từ các tối ưu hóa mô hình ngôn ngữ lớn), đảm bảo các quy trình huấn luyện cực kỳ ổn định và thời gian hội tụ cực nhanh.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa quy trình xuất mô hình, nâng cao đáng kể khả năng tương thích với các thiết bị tiêu thụ ít điện năng và nhiều framework triển khai biên khác nhau.
Cải tiến chuyên biệt theo tác vụ: Không giống như các bộ detect đơn tác vụ chuyên biệt, YOLO26 là một cỗ máy đa năng mạnh mẽ. Nó sử dụng hàm mất mát segment ngữ nghĩa để đạt độ chính xác cấp độ pixel tinh tế, Ước tính Log-Likelihood Dư (RLE) để ước tính tư thế hoàn hảo và hàm mất mát góc chuyên biệt để giải quyết các vấn đề biên của OBB (Hộp giới hạn định hướng).

Lợi thế Hệ sinh thái Ultralytics

Việc lựa chọn một mô hình Ultralytics như YOLO11 hoặc YOLO26 mang lại sự dễ sử dụng vượt trội. Bạn có quyền truy cập vào quá trình phát triển tích cực, một cộng đồng sôi nổi và các bản cập nhật thường xuyên, đảm bảo mô hình của bạn vẫn tương thích với các công cụ suy luận mới nhất như OpenVINO và CoreML.

Triển khai thực tế

Việc huấn luyện và triển khai các mô hình này rất đơn giản khi sử dụng... Python SDK. Ví dụ sau đây minh họa cách tận dụng các quy trình đào tạo hiệu quả cao của SDK. Ultralytics Hệ sinh thái này tự động xử lý việc lập lịch siêu tham số và phân bổ bộ nhớ tối ưu.

from ultralytics import YOLO

# Load the recommended state-of-the-art model
model = YOLO("yolo26n.pt")  # Also compatible with 'yolov10n.pt' or 'yolov9c.pt'

# Train the model efficiently on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0, batch=16)

# Run ultra-fast inference
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và YOLOv9 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn YOLOv9

YOLOv9 được khuyến nghị cho:

Nghiên cứu nút cổ chai thông tin: Các dự án học thuật nghiên cứu kiến trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
Nghiên cứu tối ưu hóa luồng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
Đánh giá hiệu suất detect độ chính xác cao: Các kịch bản cần hiệu suất benchmark COCO mạnh mẽ của YOLOv9 làm điểm tham chiếu cho việc so sánh kiến trúc.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Kết luận

Cả YOLOv9 và YOLOv10 đều mang lại những lợi thế độc đáo. YOLOv9 là minh chứng cho việc tối đa hóa hiệu quả tham số mạng và luồng gradient lý thuyết, mang lại độ chính xác hàng đầu. Trong khi đó, YOLOv10 đóng vai trò là người tiên phong học thuật trong detect hộp giới hạn đầu cuối mà không phải chịu hình phạt độ trễ của NMS.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng hoàn hảo giữa hiệu năng, tính linh hoạt và dễ sử dụng, việc nâng cấp lên các mẫu mới nhất là vô cùng quan trọng. Với bộ tối ưu hóa MuSGD tiên tiến, chức năng ProgLoss + STAL cho khả năng phát hiện vật thể nhỏ vượt trội và hỗ trợ đa nhiệm toàn diện, YOLO26 đại diện cho giải pháp hiện đại nhất cho mọi thách thức thị giác máy tính thực tế.

YOLOv10 so với YOLOv9 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

YOLOv10 : Cái NMS - Miễn phí trọn gói Pioneer

Kiến trúc và Điểm mạnh

Điểm yếu

YOLOv9: Thông tin Gradient có thể lập trình

Kiến trúc và Điểm mạnh

Điểm yếu

So sánh hiệu suất

Thế hệ tiếp theo: Vì sao YOLO26 là ứng dụng đề xuất tối ưu nhất

Những cải tiến quan trọng trong YOLO26

Triển khai thực tế

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLOv10

Khi nào nên chọn YOLOv9

Khi nào nên lựa chọn Ultralytics (YOLO26)

Kết luận

Bình luận