YOLOv10 vs DAMO- YOLO So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực

Khi xây dựng các hệ thống xử lý hình ảnh máy tính hiện đại, việc lựa chọn kiến trúc phát hiện đối tượng thời gian thực phù hợp là vô cùng quan trọng. Trong phân tích kỹ thuật toàn diện này, chúng tôi sẽ khám phá các kiến trúc, chỉ số hiệu suất và các trường hợp sử dụng lý tưởng cho YOLOv10 và DAMO- YOLO . Cả hai mô hình đều thể hiện những bước tiến đáng kể trong khả năng phát hiện đối tượng, nhưng chúng lại đi theo những con đường kiến trúc khác nhau để đạt được mục tiêu của mình.

Cho dù dự án của bạn yêu cầu triển khai trên phần cứng AI biên có tài nguyên hạn chế hay đòi hỏi độ chính xác tối đa trên GPU đám mây, việc hiểu rõ những điểm khác biệt tinh tế của các kiến trúc này sẽ giúp bạn đưa ra quyết định sáng suốt.

Khám phá YOLOv10

Được giới thiệu bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã tạo nên một cuộc cách mạng trong lĩnh vực này. YOLO gia đình bằng cách giới thiệu một phương pháp tiếp cận từ đầu đến cuối tự nhiên, loại bỏ hiệu quả nhu cầu về Non-Maximum Suppression ( NMS ) trong quá trình xử lý hậu kỳ.

YOLOv10 Chi tiết:

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 23-05-2024
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
Tài liệu: https://docs.ultralytics.com/models/yolov10/

Các tính năng kiến trúc chính

YOLOv10 Điểm đổi mới chính của công ty là chiến lược Phân công kép nhất quán dành cho... NMS - Đào tạo miễn phí. Các thuật toán phát hiện vật thể truyền thống phụ thuộc rất nhiều vào... NMS Việc lọc các hộp giới hạn chồng chéo gây ra độ trễ không thể dự đoán được — một nút thắt cổ chai đáng kể đối với các ứng dụng thời gian thực như xe tự hành và robot tốc độ cao. Bằng cách dự đoán trực tiếp một hộp giới hạn tối ưu duy nhất cho mỗi đối tượng, YOLOv10 Đạt được khả năng suy luận có độ trễ cực thấp và dự đoán được.

Hơn nữa, mô hình này sử dụng thiết kế hướng đến hiệu quả và độ chính xác toàn diện . Kiến trúc tối ưu hóa nhiều thành phần khác nhau, bao gồm đầu phân loại nhẹ và lấy mẫu giảm không gian-kênh tách rời, giúp giảm đáng kể sự dư thừa tính toán. Điều này dẫn đến một kiến trúc có số lượng tham số thấp hơn và ít phép tính FLOP hơn trong khi vẫn duy trì độ chính xác trung bình ( mAP ) cạnh tranh.

Quy trình xuất khẩu được tối ưu hóa cho sản xuất

Vì YOLOv10 loại bỏ các hoạt động NMS khỏi đồ thị suy luận, việc xuất mô hình sang các định dạng như ONNX hoặc TensorRT được đơn giản hóa đáng kể, khiến nó cực kỳ phù hợp cho việc triển khai trên thiết bị biên.

Tìm hiểu thêm về YOLOv10

Ví dụ Sử dụng

YOLOv10 được tích hợp sâu sắc vào Ultralytics Hệ sinh thái này cực kỳ dễ sử dụng thông qua gói Python Ultralytics .

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Export the model to TensorRT format
model.export(format="engine", half=True)

Khám phá DAMO- YOLO

Được phát triển bởi Tập đoàn Alibaba, DAMO-YOLO tập trung vào việc khám phá các cấu trúc mạng hiệu quả cao thông qua Tìm kiếm Kiến trúc Mạng Nơ-ron tự động (NAS), nhằm đẩy ranh giới Pareto về tốc độ và độ chính xác.

Chi tiết DAMO-YOLO:

Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Tập đoàn Alibaba
Ngày: 23/11/2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO- YOLO

Các tính năng kiến trúc chính

DAMO-YOLO giới thiệu một số công nghệ mới được tùy chỉnh cho các ứng dụng công nghiệp. Nền tảng của mô hình là Backbone MAE-NAS của nó, được tạo ra thông qua tìm kiếm Tiến hóa Đa mục tiêu. Quá trình tự động này khám phá các cấu trúc backbone tuân thủ nghiêm ngặt các ngân sách tính toán được xác định trước, đạt được sự cân bằng tốt giữa độ chính xác và độ trễ suy luận.

Ngoài ra, kiến trúc còn sử dụng một phần cổ Efficient RepGFPN. Mạng kim tự tháp đặc trưng này được thiết kế để cải thiện việc hợp nhất đặc trưng trên các tỷ lệ khác nhau, điều này rất quan trọng đối với các tác vụ phức tạp như phân tích hình ảnh trên không nơi các đối tượng có kích thước khác nhau đáng kể. Để bổ sung cho điều này, DAMO-YOLO triển khai một ZeroHead, một đầu dò detect tối giản giúp giảm đáng kể độ phức tạp của các lớp dự đoán cuối cùng, tiết kiệm thời gian tính toán quý giá trong quá trình suy luận.

Tìm hiểu thêm về DAMO-YOLO

So sánh hiệu suất

Khi đánh giá các kiến trúc phát hiện đối tượng, việc tìm ra sự cân bằng phù hợp giữa tốc độ suy luận, hiệu quả tham số và độ chính xác phát hiện là vô cùng quan trọng. Bảng dưới đây so sánh hiệu suất của YOLOv10 và DAMO- YOLO trên các kích thước mô hình tương ứng của chúng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Như đã quan sát trong các điểm chuẩn, YOLOv10 luôn mang lại các cấu hình độ trễ đặc biệt trên TensorRT, đặc biệt là ở biến thể nano của nó, yêu cầu ít tham số và FLOPs hơn đáng kể so với các mô hình tương đương của DAMO-YOLO. Mặc dù DAMO-YOLO cung cấp mAP mạnh mẽ ở biến thể nhỏ của nó, hiệu quả tham số và độ trễ suy luận của dòng YOLOv10 mang lại lợi thế rõ rệt cho các môi trường triển khai bị hạn chế.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLOv10 và DAMO-YOLO phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLOv10

YOLOv10 là một lựa chọn tốt cho:

detect thời gian thực không NMS: Các ứng dụng hưởng lợi từ detect end-to-end mà không cần Non-Maximum Suppression, giảm độ phức tạp khi triển khai.
Đánh đổi cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác detect trên các quy mô mô hình khác nhau.
Ứng dụng có độ trễ nhất quán: Các kịch bản triển khai mà thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như trong robot học hoặc các hệ thống tự hành.

Khi nào nên chọn DAMO-YOLO

DAMO-YOLO được khuyến nghị cho:

Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Lợi thế của Ultralytics

Mặc dù cả hai mô hình đều rất ấn tượng về mặt kỹ thuật, việc lựa chọn kiến trúc cho môi trường sản xuất cần phải xem xét nhiều hơn là chỉ các số liệu thô. Xây dựng bằng các mô hình được hỗ trợ sẵn bởi hệ sinh thái Ultralytics mang lại những lợi thế vượt trội cho cả nhà phát triển và nhà nghiên cứu.

Dễ sử dụng và hệ sinh thái được duy trì tốt

Không giống như các kho lưu trữ học thuật độc lập thường bị bỏ rơi, Ultralytics cung cấp một hệ sinh thái mạnh mẽ, được duy trì tích cực. Việc thiết lập các môi trường phức tạp cho các mô hình phụ thuộc nhiều vào các đường dẫn NAS có thể rất khó khăn. Ngược lại, Ultralytics cung cấp một giải pháp tiêu chuẩn hóa, trực quan. Python API và mạnh mẽ CLI Được hỗ trợ bởi tài liệu đầy đủ. Điều này giúp giảm đáng kể thời gian đưa các giải pháp thị giác tùy chỉnh ra thị trường.

Hiệu quả đào tạo và yêu cầu về bộ nhớ

Việc huấn luyện các mô hình lớn có thể nhanh chóng trở nên tốn kém về mặt tính toán. Ultralytics YOLO Kiến trúc từ xưa đến nay nổi tiếng với chiều cao thấp. CUDA Mức tiêu thụ bộ nhớ trong quá trình huấn luyện và suy luận. Hiệu quả này cho phép các nhà phát triển huấn luyện mô hình trên phần cứng cấp người tiêu dùng hoặc các phiên bản đám mây tiết kiệm chi phí mà không gặp phải lỗi hết bộ nhớ thường gặp khi làm việc với các mô hình dựa trên Transformer như RT-DETR .

Theo dõi thí nghiệm

Ultralytics Tích hợp sẵn với các công cụ MLOps hàng đầu. Bạn có thể dễ dàng track Bạn có thể theo dõi tiến trình huấn luyện mô hình của mình bằng cách tích hợp với Weights & Biases , Comet hoặc ClearML mà không cần thêm bất kỳ đoạn mã bổ sung nào.

Tính linh hoạt trên nhiều tác vụ

Một hạn chế đáng kể của nhiều mô hình detect chuyên biệt là sự tập trung hẹp của chúng. Trong hệ sinh thái Ultralytics, bạn không chỉ giới hạn ở phát hiện đối tượng. Các công cụ mở rộng liền mạch sang nhiều tác vụ thị giác máy tính, bao gồm segmentation thể hiện, phân loại hình ảnh, ước tính tư thế và phát hiện oriented bounding box (OBB).

Hướng tới tương lai: Sự tiến hóa của YOLO26

Trong khi YOLOv10 tiên phong NMS -suy luận tự do và DAMO- YOLO Sức mạnh của NAS đã được chứng minh, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. Đối với các nhà phát triển đang tìm kiếm giải pháp tiên tiến nhất, chúng tôi khuyên bạn nên xem xét Ultralytics YOLO26 .

Được phát hành như phiên bản kế nhiệm hoàn chỉnh của YOLO11 , YOLO26 được xây dựng dựa trên nền tảng của YOLO11. NMS - Bộ kem nền miễn phí của YOLOv10 nhưng nó còn tiến xa hơn đáng kể.

Những cải tiến quan trọng trong YOLO26 bao gồm:

Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị công suất thấp.
Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ, đảm bảo việc xuất đơn giản hơn và khả năng tương thích nâng cao với các mục tiêu triển khai đa dạng.
Trình tối ưu hóa MuSGD: Một sự kết hợp lai giữa SGD và Muon, mang sự ổn định huấn luyện LLM tiên tiến và khả năng hội tụ nhanh hơn trực tiếp vào thị giác máy tính.
ProgLoss + STAL: Các hàm mất mát được cải thiện đáng kể mang lại những nâng cao đáng kể trong nhận diện vật thể nhỏ, điều này rất cần thiết cho các trường hợp sử dụng như nông nghiệp và viễn thám.

Bằng cách sử dụng Nền tảng Ultralytics mới được cải tiến, các nhà phát triển có thể dễ dàng chú thích, huấn luyện và triển khai các mô hình thế hệ tiếp theo như YOLO26 chỉ với vài cú nhấp chuột, đảm bảo pipeline thị giác máy tính của bạn vừa tiên tiến vừa có khả năng chống chịu trong tương lai.

YOLOv10 vs DAMO- YOLO So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực

Khám phá YOLOv10

Các tính năng kiến trúc chính

Ví dụ Sử dụng

Khám phá DAMO- YOLO

Các tính năng kiến trúc chính

So sánh hiệu suất

Các trường hợp sử dụng và Khuyến nghị

Khi nào nên chọn YOLOv10

Khi nào nên chọn DAMO-YOLO

Khi nào nên lựa chọn Ultralytics (YOLO26)

Lợi thế của Ultralytics

Dễ sử dụng và hệ sinh thái được duy trì tốt

Hiệu quả đào tạo và yêu cầu về bộ nhớ

Tính linh hoạt trên nhiều tác vụ

Hướng tới tương lai: Sự tiến hóa của YOLO26

Bình luận