Conjuntos de datos
Los conjuntos de datos Ultralytics proporcionan una solución optimizada para gestionar sus datos de entrenamiento. Una vez cargados, los conjuntos de datos se pueden utilizar inmediatamente para el entrenamiento de modelos, con procesamiento automático y generación de estadísticas.
Ver: Cargar conjuntos de datos a Ultralytics
Subir conjunto de datos
Ultralytics acepta múltiples formatos de carga para mayor flexibilidad:
| Formato | Descripción |
|---|---|
| Imágenes | Archivos de imagen individuales (JPG, PNG, WebP, TIFF, RAW) |
| Archivo ZIP | Carpeta comprimida con imágenes y etiquetas opcionales |
| Vídeo | Archivos MP4, AVI: fotogramas extraídos a ~1 fps. |
| YOLO | Estructura YOLO estándar con etiquetas |
Extracción de fotogramas de vídeo
Al subir vídeos, los fotogramas se extraen automáticamente:
- Velocidad de fotogramas: ~1 fotograma por segundo
- Número máximo de fotogramas: 100 fotogramas por vídeo
- Procesamiento: extracción del lado del cliente antes de la carga
- Formato: Fotogramas convertidos a formato de imagen estándar.
Esto es ideal para crear conjuntos de datos de entrenamiento a partir de imágenes de vigilancia, grabaciones de acción o cualquier fuente de vídeo.
Preparación de su conjunto de datos
Para los conjuntos de datos etiquetados, utilice el YOLO estándar:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
El archivo YAML define la configuración de su conjunto de datos:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Proceso de carga
- Navega hasta Conjuntos de datos en la barra lateral.
- Haga clic en «Subir conjunto de datos » o arrastre los archivos a la zona de subida.
- Selecciona el tipo de tarea (detect, segment, pose, OBB, classify).
- Añadir un nombre y una descripción opcional.
- Haga clic en Subir
Después de la carga, la Plataforma procesa sus datos:
- Normalización: imágenes grandes redimensionadas (máximo 4096 píxeles)
- Miniaturas: vistas previas de 256 píxeles generadas.
- Análisis de etiquetas: etiquetas extraídas YOLO
- Estadísticas: Distribuciones de clases calculadas
Validar antes de cargar
Puede validar su conjunto de datos localmente antes de cargarlo:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Explorar imágenes
Visualice las imágenes de su conjunto de datos en múltiples diseños:
| Ver | Descripción |
|---|---|
| Cuadrícula | Cuadrícula de miniaturas con superposiciones de anotaciones |
| Compacto | Miniaturas más pequeñas para un escaneo rápido |
| Tabla | Lista con nombre de archivo, dimensiones y recuento de etiquetas |
Visor a pantalla completa
Haga clic en cualquier imagen para abrir el visor a pantalla completa con:
- Navegación: Teclas de flecha o haga clic para navegar
- Metadatos: nombre de archivo, dimensiones, división, recuento de etiquetas
- Anotaciones: Alternar la visibilidad de las anotaciones
- Desglose por clase: recuento de etiquetas por clase
Filtrar por división
Filtrar imágenes por su división de conjuntos de datos:
| División | Propósito |
|---|---|
| Entrenar | Utilizado para el entrenamiento de modelos. |
| Val | Se utiliza para la validación durante el entrenamiento. |
| Prueba | Utilizado para la evaluación final. |
| Desconocido | Sin división asignada |
Estadísticas del conjunto de datos
La pestaña Estadísticas proporciona un análisis automático de su conjunto de datos:
Distribución de clases
Gráfico de barras que muestra el número de anotaciones por clase:
Mapa de calor de ubicación
Visualización de dónde aparecen las anotaciones en las imágenes:
Análisis dimensional
Diagrama de dispersión de las dimensiones de la imagen (anchura frente a altura):
Almacenamiento en caché de estadísticas
Las estadísticas se almacenan en caché durante 5 minutos. Los cambios en las anotaciones se reflejarán una vez que expire la caché.
Exportar conjunto de datos
Exporta tu conjunto de datos en formato NDJSON para su uso sin conexión:
- Abrir el menú de acciones del conjunto de datos
- Haga clic en Exportar.
- Descargar el archivo NDJSON
El formato NDJSON almacena un objeto JSON por línea:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Consulte la documentación sobre el formatoUltralytics para obtener las especificaciones completas.
URI del conjunto de datos
Conjuntos de datos de la plataforma de referencia utilizando el ul:// Formato URI:
ul://username/datasets/dataset-slug
Utiliza este URI para entrenar modelos desde cualquier lugar:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100
Entrena en cualquier lugar con los datos de la plataforma
El ul:// URI funciona desde cualquier entorno:
- Máquina local: Entrena en tu hardware, los datos se descargan automáticamente.
- Google : Acceda a los conjuntos de datos de su plataforma en cuadernos.
- Servidores remotos: Entrene en máquinas virtuales en la nube con acceso completo al conjunto de datos.
Configuración de visibilidad
Controle quién puede ver su conjunto de datos:
| Configuración | Descripción |
|---|---|
| Privado | Solo tú puedes acceder |
| Público | Cualquiera puede ver la página Explorar. |
Para cambiar la visibilidad:
- Abrir el menú de acciones del conjunto de datos
- Haga clic en Editar.
- Alternar configuración de visibilidad
- Haga clic en Guardar.
Editar Dataset
Actualizar el nombre, la descripción o la visibilidad del conjunto de datos:
- Abrir el menú de acciones del conjunto de datos
- Haga clic en Editar.
- Realizar cambios
- Haga clic en Guardar.
Eliminar conjunto de datos
Elimine un conjunto de datos que ya no necesite:
- Abrir el menú de acciones del conjunto de datos
- Haga clic en Eliminar.
- Confirmar eliminación
Papelera y Restaurar
Los conjuntos de datos eliminados se mueven a la Papelera durante 30 días. Puedes restaurarlos desde la página Papelera en Configuración.
Entrenar con el conjunto de datos
Comience a entrenar directamente desde su conjunto de datos:
- Haga clic en «Modelo de tren » en la página del conjunto de datos.
- Selecciona un proyecto o crea uno nuevo.
- Configurar los parámetros de entrenamiento
- Comience el entrenamiento
Consulte Formación sobre la nube para obtener más información.
Preguntas frecuentes
¿Qué ocurre con mis datos después de subirlos?
Sus datos se procesan y almacenan en la región seleccionada (EE. UU., UE o AP). Las imágenes son:
- Validado en cuanto a formato y tamaño.
- Normalizado si es mayor que 4096 píxeles (conservando la relación de aspecto)
- Almacenado mediante almacenamiento direccionable por contenido (CAS) con hash SHA-256.
- Miniaturas generadas a 256 píxeles para una navegación rápida.
- Nunca se comparte sin su permiso.
¿Cómo funciona el almacenamiento?
Ultralytics utiliza almacenamiento direccionable por contenido (CAS) para un almacenamiento eficiente:
- Deduplicación: las imágenes idénticas subidas por diferentes usuarios se almacenan solo una vez.
- Integridad: el hash SHA-256 garantiza la integridad de los datos.
- Eficiencia: reduce los costes de almacenamiento y acelera el procesamiento.
- Regional: los datos permanecen en la región seleccionada (EE. UU., UE o AP).
¿Puedo añadir imágenes a un conjunto de datos existente?
Sí, utilice el botón «Añadir imágenes» en la página del conjunto de datos para cargar imágenes adicionales. Las nuevas estadísticas se calcularán automáticamente.
¿Cómo puedo mover imágenes entre conjuntos de datos?
Utilice la función de selección masiva:
- Seleccionar imágenes en la galería
- Haga clic en Mover o Copiar.
- Seleccionar conjunto de datos de destino
¿Qué formatos de etiquetas son compatibles?
Ultralytics admite etiquetas YOLO :
- Detectar:
class_id x_center y_center width height - Segmentar:
class_id x1 y1 x2 y2 ...(puntos poligonales) - Pose:
class_id x_center y_center width height kp1_x kp1_y kp1_v ... - OBB:
class_id x1 y1 x2 y2 x3 y3 x4 y4
Todas las coordenadas están normalizadas (rango 0-1).