Chuyển đến nội dung

YOLOX so với... YOLOv7 Khám phá sự tiến hóa của công nghệ phát hiện đối tượng thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến ​​sự phát triển nhanh chóng, với các kiến ​​trúc phát hiện đối tượng ngày càng trở nên tinh vi và hiệu quả. Hai cột mốc đáng chú ý trong hành trình này là YOLOX và YOLOv7 Cả hai mô hình đều đại diện cho những bước tiến đáng kể tại thời điểm ra mắt, mang đến cho các nhà phát triển những cách tiếp cận khác nhau để giải quyết các vấn đề phát hiện. Bài so sánh này đi sâu vào các thông số kỹ thuật, sự khác biệt về kiến ​​trúc và các chỉ số hiệu năng để giúp bạn đưa ra quyết định sáng suốt cho ứng dụng của mình.

Phân tích hiệu suất Benchmark

Khi đánh giá các mô hình phát hiện, sự cân bằng giữa tốc độ và độ chính xác là vô cùng quan trọng. Bảng sau minh họa hiệu suất của YOLOX tiêu chuẩn và YOLOv7 các mô hình trên COCO tập dữ liệu.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOX: Nhà tiên phong không cần neo giữ

Được các nhà nghiên cứu tại Megvii phát hành vào năm 2021, YOLOX đánh dấu một sự chuyển dịch khỏi các mô hình dựa trên điểm neo vốn thống trị các mô hình trước đó. YOLO các phiên bản. Bằng cách áp dụng cơ chế không cần neo và đầu tách rời, nó nhằm mục đích đơn giản hóa quá trình phát hiện và cải thiện khả năng khái quát hóa trên các tập dữ liệu đa dạng.

  • Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
  • Tổ chức:Megvii
  • Ngày: 2021-07-18
  • Liên kết:Arxiv, GitHub, Docs

Tìm hiểu thêm về YOLOX

Điểm nổi bật về kiến trúc

YOLOX tạo nên sự khác biệt với một số lựa chọn thiết kế quan trọng:

  1. Cơ chế không cần neo: Không giống như các phiên bản tiền nhiệm (như YOLOv4 hoặc YOLOv5 Trong khi các thư viện dựa vào các hộp neo được xác định trước, YOLOX dự đoán trực tiếp các hộp giới hạn. Điều này làm giảm số lượng tham số thiết kế và loại bỏ nhu cầu điều chỉnh neo phức tạp, giúp nó đặc biệt mạnh mẽ đối với các hình dạng đối tượng khác nhau.
  2. Phân tách đầu mạng: Nhiệm vụ phân loại và hồi quy được tách thành các nhánh khác nhau trong đầu mạng. Sự tách biệt này giúp giải quyết mâu thuẫn giữa độ tin cậy phân loại và độ chính xác định vị, dẫn đến sự hội tụ nhanh hơn trong quá trình huấn luyện.
  3. SimOTA: Một chiến lược gán nhãn nâng cao có tên là Gán Vận Chuyển Tối Ưu Đơn Giản (SimOTA) tự động gán các mẫu tích cực cho dữ liệu thực tế, tối ưu hóa quá trình huấn luyện trên toàn cục thay vì cục bộ.

Các trường hợp sử dụng lý tưởng

YOLOX vẫn là một ứng cử viên sáng giá trong một số trường hợp cụ thể:

  • Nghiên cứu học thuật: Kiến trúc gọn gàng của nó làm cho nó trở thành nền tảng nghiên cứu tuyệt vời để kiểm tra các lý thuyết mới trong phát hiện không cần neo.
  • Các thiết bị di động đời cũ: Các phiên bản Nano và Tiny cực kỳ nhẹ, phù hợp với các chipset di động đời cũ, nơi mà mỗi miliwatt điện năng tiêu thụ đều rất quan trọng.
  • Phát hiện đa năng: Đối với các tác vụ liên quan đến các đối tượng có tỷ lệ chiều dài/chiều rộng cực đoan, thiết kế không sử dụng neo thường có khả năng khái quát hóa tốt hơn so với các hệ thống dựa trên neo cứng nhắc.

YOLOv7: Nguồn sức mạnh từ các cải tiến miễn phí

Ra mắt một năm sau đó vào năm 2022, YOLOv7 Nó đã đẩy giới hạn về tốc độ và độ chính xác lên một tầm cao mới. Được phát triển bởi cùng các tác giả đứng sau YOLOv4 và Scaled-YOLOv4, nó tập trung vào việc tối ưu hóa quy trình huấn luyện và kiến ​​trúc mà không làm tăng chi phí suy luận.

  • Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
  • Tổ chức: Viện Khoa học Thông tin, Academia Sinica
  • Ngày: 2022-07-06
  • Liên kết:Arxiv, GitHub, Docs

Tìm hiểu thêm về YOLOv7

Các Đổi Mới Kiến Trúc Chính

YOLOv7 Đã giới thiệu một số kỹ thuật tiên tiến để tối đa hóa hiệu suất:

  1. E-ELAN (Extended Efficient Layer Aggregation Network): Kiến trúc này tăng cường khả năng học tập của mạng bằng cách kiểm soát đường dẫn gradient. Nó cho phép mô hình học được nhiều đặc trưng đa dạng hơn mà không phá hủy luồng gradient ban đầu, dẫn đến sự hội tụ tốt hơn.
  2. Điều chỉnh tỷ lệ mô hình: YOLOv7 Phương pháp này triển khai một phương pháp mở rộng phức hợp, điều chỉnh đồng thời độ sâu và độ rộng của mạng, đảm bảo hiệu quả tối ưu trên các kích thước mô hình khác nhau (từ Tiny đến E6E).
  3. Mô hình "túi quà tặng có thể huấn luyện": Mô hình kết hợp các kỹ thuật tái tham số hóa đã được lên kế hoạch và các chiến lược gán nhãn động giúp cải thiện độ chính xác trong quá trình huấn luyện nhưng được loại bỏ trong quá trình suy luận, không gây ra độ trễ.

Các trường hợp sử dụng lý tưởng

YOLOv7 Thường được ưa chuộng cho các ứng dụng công nghiệp hiệu suất cao:

  • Giám sát thời gian thực: Với tốc độ khung hình cao trên GPU Về phần cứng, nó đặc biệt xuất sắc trong các hệ thống báo động an ninh và giám sát giao thông, nơi độ trễ là yếu tố then chốt.
  • Robot học: Sự cân bằng giữa tốc độ và độ chính xác hỗ trợ các nhiệm vụ điều hướng tự động và thao tác robot .
  • Kiểm tra chi tiết: Các biến thể lớn hơn ( YOLOv7 -X, YOLOv7 -E6) mang lại độ chính xác vượt trội trong việc phát hiện các khuyết tật nhỏ trên dây chuyền sản xuất .

Lợi thế của Ultralytics

Trong khi YOLOX và YOLOv7 Với những kiến ​​trúc ấn tượng, lĩnh vực phát triển AI đã chuyển dịch sang các hệ sinh thái tích hợp, ưu tiên trải nghiệm của nhà phát triển bên cạnh các chỉ số thô. Đây là nơi mà... Ultralytics Các mẫu như YOLOv8 , YOLO11YOLO26 tiên tiến đều tỏa sáng.

Trải nghiệm Nhà phát triển Tối ưu hóa

Một trong những trở ngại lớn nhất đối với các kho lưu trữ định hướng nghiên cứu (như YOLOX gốc hoặc...) YOLOv7 Độ phức tạp (bao gồm cả các phương pháp triển khai) nằm ở khâu thiết lập và sử dụng. Ultralytics Giải quyết vấn đề này bằng cách thống nhất tất cả các mô hình dưới một mô hình duy nhất, mạch lạc. Python API.

Ví dụ về API thống nhất

Việc chuyển đổi giữa các kiến ​​trúc chỉ cần thay đổi một chuỗi ký tự duy nhất, đảm bảo quy trình của bạn có khả năng tương thích với tương lai.

from ultralytics import YOLO

# Load YOLOX, YOLOv7, or the new YOLO26
model_yolox = YOLO("yolox_s.pt")
model_v7 = YOLO("yolov7.pt")
model_26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train with a standard command
results = model_26.train(data="coco8.yaml", epochs=100)

Hiệu quả và quản lý nguồn lực

Hiện đại Ultralytics Các mô hình được thiết kế để đạt hiệu quả cao. Không giống như các mô hình dựa trên biến áp (như RT-DETR ) có thể tiêu tốn nhiều bộ nhớ, Ultralytics YOLO Các mô hình thường yêu cầu ít bộ nhớ GPU hơn đáng kể trong quá trình huấn luyện. Sự dân chủ hóa này cho phép các nhà phát triển huấn luyện các mô hình tiên tiến trên phần cứng cấp người tiêu dùng hoặc sử dụng kích thước lô lớn hơn để hội tụ ổn định hơn.

Vượt xa sự phát hiện: Tính linh hoạt đích thực

Mặc dù YOLOX chủ yếu là một ứng dụng phát hiện đối tượng, nhưng... Ultralytics Hệ sinh thái này hỗ trợ rất nhiều tác vụ thị giác máy tính trong cùng một khuôn khổ.

Hiệu suất thế hệ tiếp theo: YOLO26

Đối với các nhà phát triển bắt đầu các dự án mới vào năm 2026, YOLO26 đại diện cho đỉnh cao của sự tiến hóa này. Nó giải quyết những hạn chế của cả YOLOX và YOLOv7 thông qua những cải tiến kiến ​​trúc mang tính đột phá:

  • NMS - Thiết kế không cần thiết: YOLO26 là hệ thống end-to-end nguyên bản, loại bỏ nhu cầu về Non-Maximum Suppression (NMS) ( NMS Điều này giúp loại bỏ một nút thắt cổ chai lớn trong quá trình triển khai, giảm sự biến động về độ trễ và đơn giản hóa việc xuất dữ liệu sang các thiết bị biên.
  • Tốc độ và độ chính xác: Với khả năng suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, sản phẩm này được tối ưu hóa đặc biệt cho điện toán biên.
  • Huấn luyện nâng cao: Phương pháp này sử dụng bộ tối ưu hóa MuSGD , mang lại những cải tiến về tính ổn định từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn vào lĩnh vực thị giác máy tính.
  • Khả năng làm chủ vật thể nhỏ: Các hàm mất mát được cải tiến (ProgLoss + STAL) mang lại những cải tiến đáng kể trong việc phát hiện các vật thể nhỏ, một điểm yếu truyền thống của nhiều bộ dò tìm.

Tìm hiểu thêm về YOLO26

Kết luận

Lựa chọn giữa YOLOX và YOLOv7 Thường thì điều đó phụ thuộc vào những hạn chế cụ thể về hệ thống cũ hoặc mục tiêu nghiên cứu của bạn. YOLOX cung cấp thiết kế đơn giản hơn, không có liên kết, rất phù hợp cho các nghiên cứu cơ bản và các phân khúc di động cụ thể. YOLOv7 mang lại sức mạnh và tốc độ vượt trội cho các ứng dụng cao cấp. GPU triển khai trong môi trường công nghiệp.

Tuy nhiên, đối với phần lớn các ứng dụng hiện đại, việc tận dụng hệ sinh thái Ultralytics là con đường tốt nhất. Cho dù bạn chọn giải pháp đã được kiểm chứng qua thời gian hay chưa. YOLOv8 , đa năng YOLO11 Cho dù bạn sử dụng nền tảng nào, hay YOLO26 mang tính cách mạng, bạn đều được hưởng lợi từ một nền tảng được bảo trì tốt, các tùy chọn triển khai liền mạch và một cộng đồng đảm bảo các giải pháp AI của bạn luôn ở vị trí tiên tiến nhất.

Để tìm hiểu thêm về các mô hình tương tự, hãy xem các bài so sánh của chúng tôi về YOLOv6YOLOv9 , hoặc khám phá Nền tảng Ultralytics để bắt đầu huấn luyện mô hình của riêng bạn ngay hôm nay.


Bình luận