Preparación de datos
La preparación de datos es la base para modelos de visión artificial exitosos. La Plataforma Ultralytics ofrece herramientas completas para gestionar sus datos de entrenamiento, desde la carga y la anotación hasta el análisis.
Visión general
La sección de Datos de la Plataforma Ultralytics le ayuda a:
- Cargar imágenes, videos y archivos (ZIP, TAR, GZ)
- Anotar con herramientas de dibujo manual y etiquetado inteligente impulsado por SAM — elija entre SAM 2.1 o el nuevo SAM 3.
- Analice sus datos con estadísticas y visualizaciones
- Exportar en formato NDJSON para entrenamiento local

Flujo de Trabajo
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descripción |
|---|---|
| Cargar | Importar imágenes, vídeos o archivos con procesamiento automático |
| Anotar | Etiquete datos con herramientas manuales para los 5 tipos de tareas, o use la anotación SAM para detect, segment y obb |
| Analizar | Visualice distribuciones de clases, mapas de calor espaciales y estadísticas de dimensiones |
| Exportar | Descargar en formato NDJSON para uso sin conexión |
Tareas admitidas
La Plataforma Ultralytics es compatible con los 5 tipos de tareas de YOLO:
| Tarea | Descripción | Herramienta de Anotación |
|---|---|---|
| Detectar | Detección de objetos con cajas delimitadoras | Herramienta de rectángulo |
| Segmentar | Segmentación de instancias con máscaras de píxeles | Herramienta de polígono |
| Pose | Estimación de puntos clave (formato COCO de 17 puntos) | Herramienta de puntos clave |
| OBB | Cajas delimitadoras orientadas para objetos rotados | Herramienta de caja orientada |
| Clasificar | Clasificación a nivel de imagen | Selector de clase |
Selección del tipo de tarea
El tipo de tarea se establece al crear un conjunto de datos y determina qué herramientas de anotación están disponibles. Puede cambiarlo más tarde desde la configuración del conjunto de datos, pero las anotaciones incompatibles no se mostrarán después del cambio.
Características clave
Almacenamiento Inteligente
La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para una gestión eficiente de datos:
- Deduplicación: Imágenes idénticas almacenadas una sola vez mediante hash XXH3-128
- Integridad: El direccionamiento basado en hash garantiza la integridad de los datos.
- Eficiencia: Almacenamiento optimizado y procesamiento rápido
URIs de Conjuntos de Datos
Referenciar conjuntos de datos usando el ul:// Formato URI (ver Uso de Conjuntos de Datos de la Plataforma):
yolo train data=ul://username/datasets/my-dataset
Esto permite entrenar en los conjuntos de datos de la plataforma desde cualquier máquina con su clave API configurada.
Utilice Datos de Plataforma desde Python
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Control de Versiones del Conjunto de Datos
Cree instantáneas NDJSON inmutables de su conjunto de datos para un entrenamiento reproducible. Cada versión captura el recuento de imágenes, el recuento de clases y el recuento de anotaciones en el momento de su creación. Consulte la Pestaña de Versiones para más detalles.
Pestañas del Conjunto de Datos
Cada página de dataset proporciona seis pestañas:
| Pestaña | Descripción |
|---|---|
| Imágenes | Explorar imágenes en vista de cuadrícula, compacta o tabla con superposiciones de anotaciones |
| Clases | Ver y editar nombres de clases, colores y recuentos de etiquetas por clase |
| Gráficos | Estadísticas automáticas: distribución de divisiones, recuentos de clases, mapas de calor |
| Modelos | Modelos entrenados con este conjunto de datos con métricas y estado |
| Versiones | Cree y descargue instantáneas NDJSON inmutables para un entrenamiento reproducible |
| Errores | Imágenes que fallaron en el procesamiento con detalles de error y guía de solución |
Estadísticas y Visualización
El Charts pestaña proporciona análisis automático que incluye:
- Distribución de divisiones: Gráfico de anillo del recuento de imágenes de entrenamiento/validación/prueba
- Clases Principales: gráfico de anillo de las clases de anotación más frecuentes
- Anchuras de Imagen: Histograma de la distribución de anchuras de imagen
- Alturas de Imagen: Histograma de la distribución de alturas de imagen
- Puntos por Instancia: Distribución del recuento de vértices de polígono o puntos clave (conjuntos de datos de segmentación/pose)
- Ubicaciones de Anotación: Mapa de calor 2D de las posiciones centrales de las cajas delimitadoras.
- Dimensiones de la Imagen: Mapa de calor 2D de ancho vs alto con líneas guía de relación de aspecto
Enlaces rápidos
- Conjuntos de Datos: Suba y gestione sus datos de entrenamiento
- Anotación: Datos de etiquetas con herramientas manuales y asistidas por IA
Preguntas frecuentes
¿Qué formatos de archivo son compatibles para la carga?
La Plataforma Ultralytics soporta:
Imágenes: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (máx. 50MB cada una)
Vídeos: MP4, WebM, MOV, AVI, MKV, M4V (máx. 1GB, fotogramas extraídos a 1 FPS, máx. 100 fotogramas)
Archivos: ZIP, TAR, TAR.GZ, TGZ, GZ (máx. 10GB) que contienen imágenes con etiquetas opcionales en formato YOLO
¿Cuál es el tamaño máximo del conjunto de datos?
Los límites de almacenamiento dependen de su plan:
| Plan | Límite de Almacenamiento |
|---|---|
| Gratuito | 100 GB |
| Pro | 500 GB |
| Empresarial | Ilimitado |
Límites de archivo individuales: Imágenes 50MB, Vídeos 1GB, Archivos 10GB
¿Puedo utilizar mis conjuntos de datos de la Plataforma para el entrenamiento local?
¡Sí! Utilice el formato URI del conjunto de datos para entrenar localmente:
export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "your_key"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
O exporte su conjunto de datos en formato NDJSON para un entrenamiento completamente offline.