YOLOX so với YOLOv7 So sánh kỹ thuật toàn diện
Sự phát triển của việc phát hiện đối tượng theo thời gian thực được thúc đẩy bởi những đột phá liên tục về kiến trúc. Hai cột mốc quan trọng trong hành trình này là YOLOX và YOLOv7 . Được phát hành cách nhau chỉ một năm, cả hai mô hình đều giới thiệu những phương pháp tiếp cận mới cho mô hình phát hiện đối tượng tiêu chuẩn, cải thiện đáng kể sự cân bằng giữa tốc độ và độ chính xác .
Trang này cung cấp phân tích kỹ thuật chuyên sâu về YOLOX và YOLOv7 So sánh kiến trúc, chỉ số hiệu năng và trường hợp sử dụng lý tưởng của chúng để giúp các nhà phát triển lựa chọn công cụ phù hợp cho việc triển khai thị giác máy tính của họ.
YOLOX: Tiên phong trong công nghệ phát hiện không cần neo
Được các nhà nghiên cứu tại Megvii giới thiệu vào tháng 7 năm 2021, YOLOX đại diện cho một bước chuyển biến lớn bằng cách loại bỏ các thiết kế dựa trên neo truyền thống. Bằng cách thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, YOLOX đã đơn giản hóa đầu dò và cải thiện hiệu suất tổng thể.
Thông tin chi tiết quan trọng về mẫu sản phẩm:
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức:Megvii
- Ngày: 2021-07-18
- Bài nghiên cứu: arXiv:2107.08430
- Mã nguồn: Megvii YOLOX GitHub
- Tài liệu hướng dẫn: YOLOX ReadTheDocs
Đổi mới Kiến trúc
YOLOX đã giới thiệu phương pháp không cần neo (anchor-free) , giúp giảm đáng kể số lượng tham số thiết kế và tinh chỉnh thuật toán cần thiết cho các tập dữ liệu tùy chỉnh. Nó đã triển khai một đầu phân tách (decoupled head), tách biệt các tác vụ phân loại và hồi quy, giúp cải thiện tốc độ hội tụ và độ chính xác. Ngoài ra, YOLOX còn sử dụng các chiến lược tăng cường dữ liệu tiên tiến như... MixUp và Mosaic để tăng cường độ ổn định của mô hình.
Lợi thế không cần neo
Bằng cách loại bỏ các hộp neo, YOLOX giảm thiểu chi phí tính toán khi tính toán giao điểm trên hợp nhất ( IoU (Sự khác biệt giữa dự đoán và dữ liệu thực tế trong quá trình huấn luyện), dẫn đến yêu cầu bộ nhớ CUDA thấp hơn và thời gian huấn luyện nhanh hơn.)
YOLOv7: Trainable Bag-of-Freebies
Được các nhà nghiên cứu tại Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan công bố vào tháng 7 năm 2022. YOLOv7 Nó đã đẩy mạnh hơn nữa giới hạn của việc phát hiện đối tượng trong thời gian thực. Nó giới thiệu khái niệm "túi quà tặng có thể huấn luyện", thiết lập các chuẩn mực tiên tiến mới trên MS. COCO bộ dữ liệu khi được phát hành.
Thông tin chi tiết quan trọng về mẫu sản phẩm:
- Tác giả: Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
- Ngày: 2022-07-06
- Bài nghiên cứu: arXiv:2207.02696
- Mã nguồn: WongKinYiu YOLOv7 GitHub
- Tài liệu: Tài liệu hướng dẫn Ultralytics YOLOv7
Đổi mới Kiến trúc
YOLOv7 Kiến trúc của mô hình được xây dựng dựa trên Mạng tổng hợp lớp hiệu quả mở rộng (E-ELAN), cho phép mô hình liên tục học hỏi nhiều đặc điểm đa dạng hơn mà không làm suy giảm đường dẫn gradient. Hơn nữa, YOLOv7 Đã sử dụng các kỹ thuật tái tham số hóa mô hình, cho phép đơn giản hóa các mạng huấn luyện đa nhánh phức tạp thành các mạng một đường dẫn nhanh hơn trong quá trình suy luận.
So sánh hiệu suất
Khi đánh giá các mô hình này cho các ứng dụng thực tế, việc hiểu rõ hiệu suất của chúng ở các quy mô khác nhau là rất quan trọng. Bảng dưới đây so sánh các chỉ số tiêu chuẩn cho các kích thước khác nhau của YOLOX và YOLOv7 .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Phân tích
- Sự chính xác: YOLOv7 Nhìn chung, nó đạt được mAP cao hơn so với các mẫu YOLOX tương đương. Ví dụ, YOLOv7x đạt 53.1 mAP. mAP so với 51,1 của YOLOXx.
- Tốc độ: Mặc dù cả hai mẫu đều được tối ưu hóa cao về GPU quá trình thực thi sử dụng TensorRT , YOLOv7 Kiến trúc E-ELAN của YOLOX cung cấp thông lượng tốt hơn một chút cho các ứng dụng cao cấp, mặc dù YOLOX vẫn duy trì độ trễ tuyệt vời trên các thiết bị biên nhỏ hơn.
- Tính linh hoạt: YOLOv7 Nó đã mở rộng phạm vi hoạt động của mình vượt ra ngoài các hộp giới hạn bằng cách cung cấp sẵn các trọng số cho việc phân đoạn đối tượng và ước tính tư thế , làm cho nó linh hoạt hơn so với kho lưu trữ YOLOX cơ bản.
Các ứng dụng thực tế
Việc lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường triển khai cụ thể của bạn.
Điện toán biên và IoT
Đối với các thiết bị biên có tài nguyên hạn chế như Raspberry Pi hoặc các bộ xử lý di động đời cũ, YOLOX-Nano và YOLOX-Tiny là những lựa chọn rất hấp dẫn. Số lượng tham số tối thiểu và tính chất không cần neo giúp chúng dễ dàng triển khai trong môi trường tiêu thụ điện năng thấp cho các tác vụ như theo dõi chuyển động cơ bản hoặc ứng dụng chuông cửa thông minh.
Phân tích video độ phân giải cao
Đối với việc xử lý các nguồn cấp dữ liệu độ phân giải cao trong phát hiện lỗi công nghiệp hoặc giám sát giao thông mật độ cao, YOLOv7 vượt trội hơn. Khả năng tổng hợp đặc trưng mạnh mẽ của nó cho phép duy trì độ chính xác cao ngay cả khi các đối tượng bị che khuất một phần hoặc có kích thước thay đổi đáng kể.
Các trường hợp sử dụng và Khuyến nghị
Lựa chọn giữa YOLOX và YOLOv7 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOX
YOLOX là một lựa chọn tuyệt vời cho:
- Nghiên cứu phát hiện không cần neo: Nghiên cứu học thuật sử dụng kiến trúc sạch, không cần neo của YOLOX làm cơ sở để thử nghiệm các đầu phát hiện hoặc hàm mất mát mới.
- Các thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động thế hệ cũ, nơi mà kích thước cực nhỏ (0,91 triệu tham số) của biến thể YOLOX-Nano là rất quan trọng.
- Nghiên cứu phân bổ nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược phân bổ nhãn dựa trên phương tiện vận chuyển tối ưu và tác động của chúng đến sự hội tụ của quá trình huấn luyện.
Khi nào nên chọn YOLOv7
YOLOv7 được khuyến nghị cho:
- So sánh hiệu quả học tập: Tái tạo các kết quả tiên tiến nhất thời kỳ năm 2022 hoặc nghiên cứu tác động của E-ELAN và các kỹ thuật "túi quà tặng miễn phí" có thể huấn luyện được.
- Nghiên cứu về tái tham số hóa: Điều tra các phép tích chập tái tham số hóa theo kế hoạch và các chiến lược mở rộng mô hình phức hợp.
- Các quy trình tùy chỉnh hiện có: Các dự án với các quy trình được tùy chỉnh cao được xây dựng dựa trên... YOLOv7 Kiến trúc đặc thù của nó không dễ dàng để chỉnh sửa lại.
Khi nào nên lựa chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:
- NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
- Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.
Lợi thế của Ultralytics
Trong khi cả YOLOX và YOLOv7 Đối với các ứng dụng nghiên cứu mạnh mẽ, việc chuyển từ kho lưu trữ nghiên cứu sang môi trường sản xuất có khả năng mở rộng có thể là một thách thức. Đây chính là điểm mạnh của Nền tảng Ultralytics .
Ultralytics Các mô hình này cung cấp một API Python thống nhất , xử lý việc huấn luyện, xác thực và triển khai mô hình như những tác vụ được đơn giản hóa và chuẩn hóa. Bạn sẽ tránh được những rắc rối khi quản lý các phụ thuộc bên thứ ba phức tạp hoặc các toán tử C++ tùy chỉnh thường gặp trong các kiến trúc cũ hơn.
Hơn nữa, Ultralytics YOLO Các mô hình này yêu cầu lượng bộ nhớ CUDA ít hơn đáng kể trong quá trình huấn luyện so với các bộ phát hiện dựa trên Transformer như RT-DETR . Điều này cho phép người dùng sử dụng kích thước lô lớn hơn, ổn định quá trình huấn luyện và tăng tốc độ hội tụ trên các tập dữ liệu tùy chỉnh.
Các tích hợp được hỗ trợ
Ultralytics Hỗ trợ xuất mô hình sang các định dạng tiêu chuẩn ngành như ONNX , OpenVINO và CoreML bằng một cờ boolean đơn giản, giúp đơn giản hóa đáng kể quy trình triển khai mô hình .
Ví dụ mã: Huấn luyện với Ultralytics
Cái Ultralytics Hệ sinh thái cho phép bạn dễ dàng tải, huấn luyện và chạy suy luận bằng cách sử dụng YOLOv7 hoặc các kiến trúc mới hơn chỉ với vài dòng mã.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on a custom dataset (e.g., COCO8)
# The API handles data loading, augmentation, and memory management automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a test image
predictions = model("path/to/image.jpg")
predictions[0].show()
Tương lai: Ultralytics YOLO26
Trong khi YOLOv7 và YOLOX đại diện cho những bước tiến lịch sử quan trọng, công nghệ tiên tiến đang phát triển nhanh chóng. Được phát hành vào tháng 1 năm 2026, Ultralytics YOLO26 giới thiệu những mô hình đột phá vượt trội so với các mô hình trước đó.
- Thiết kế không cần NMS từ đầu đến cuối: YOLO26 loại bỏ hoàn toàn quá trình xử lý hậu kỳ Non-Maximum Suppression ( NMS ) . Điều này giúp giảm đáng kể các điểm nghẽn về độ trễ và đảm bảo thời gian thực thi ổn định trên nhiều cấu hình phần cứng khác nhau.
- Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ tổn hao tiêu điểm phân tán (DFL) và tối ưu hóa độ sâu mạng, YOLO26 được thiết kế đặc biệt cho các thiết bị biên thiếu bộ xử lý chuyên dụng. GPU phần cứng.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện LLM tiên tiến, bộ tối ưu hóa MuSGD (một sự kết hợp của...) SGD và Muon) mang lại sự ổn định huấn luyện vượt trội và tốc độ hội tụ nhanh hơn.
- Cải thiện khả năng phát hiện vật thể nhỏ: Việc tích hợp các hàm mất mát ProgLoss + STAL mang lại những cải tiến đáng kể trong việc nhận dạng các vật thể nhỏ, ở xa — điều cực kỳ quan trọng đối với việc lập bản đồ bằng máy bay không người lái và giám sát an ninh.
- Hỗ trợ tác vụ gốc: YOLO26 hỗ trợ toàn diện các hộp giới hạn định hướng (OBB) , phân đoạn đối tượng và ước tính tư thế một cách tự nhiên trong cùng một API được tối ưu hóa.
Đối với bất kỳ nhà phát triển hiện đại nào bắt đầu một dự án thị giác máy tính mới ngày nay, việc đánh giá Ultralytics YOLO26 trên Nền tảng là con đường được khuyến nghị để đạt được sự cân bằng tốt nhất giữa tốc độ, độ chính xác và tính đơn giản trong triển khai. Đối với những người nâng cấp từ các thế hệ trước như YOLO11 hoặc YOLOv8 , quá trình chuyển đổi chỉ cần thay đổi chuỗi mô hình, ngay lập tức mở khóa các khả năng vượt trội.