Conjuntos de datos
Ultralytics Platform los conjuntos de datos ofrecen una solución optimizada para gestionar sus datos de entrenamiento. Una vez cargados, los conjuntos de datos pueden utilizarse inmediatamente para el entrenamiento de modelos, con procesamiento automático y generación de estadísticas.
Subir conjunto de datos
Ultralytics acepta múltiples formatos de carga para mayor flexibilidad.
Formatos compatibles
| Formato | Extensiones | Notas | Tamaño máximo |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Más común, recomendado | 50 MB |
| PNG | .png | Apoya la transparencia. | 50 MB |
| WebP | .webp | Moderno, buena compresión | 50 MB |
| BMP | .bmp | Sin comprimir | 50 MB |
| TIFF | .tiff, .tif | Alta calidad | 50 MB |
| HEIC | .heic | Fotos del iPhone | 50 MB |
| AVIF | .avif | Formato de última generación | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | Cámara sin procesar | 50 MB |
| MPO | .mpo | Objeto multipictura | 50 MB |
Los vídeos se extraen automáticamente a fotogramas en el lado del cliente a 1 FPS (máximo 100 fotogramas por vídeo).
| Formato | Extensiones | Extracción | Tamaño máximo |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS, máximo 100 fotogramas | 1 GB |
| WebM | .webm | 1 FPS, máximo 100 fotogramas | 1 GB |
| MOV | .mov | 1 FPS, máximo 100 fotogramas | 1 GB |
| AVI | .avi | 1 FPS, máximo 100 fotogramas | 1 GB |
| MKV | .mkv | 1 FPS, máximo 100 fotogramas | 1 GB |
| M4V | .m4v | 1 FPS, máximo 100 fotogramas | 1 GB |
Extracción de Fotogramas de Video
Los fotogramas de vídeo se extraen a una velocidad de 1 fotograma por segundo en el navegador antes de la carga. Un vídeo de 60 segundos produce 60 fotogramas. El máximo es de 100 fotogramas por vídeo, por lo que los vídeos de más de ~100 segundos se muestrearán.
Los archivos se extraen y procesan automáticamente.
| Formato | Extensiones | Notas | Tamaño máximo |
|---|---|---|---|
| CÓDIGO POSTAL | .zip | Más común | 10 GB |
| TAR | .tar | Archivo sin comprimir | 10 GB |
| TAR.GZ | .tar.gz, .tgz | Archivo comprimido | 10 GB |
| GZ | .gz | Comprimido con Gzip | 10 GB |
Preparación de su Conjunto de Datos
La plataforma admite dos formatos de anotación, además de cargas sin procesar: Ultralytics YOLO, COCOy sin procesar (imágenes sin anotaciones):
Utilice la estructura YOLO estándar YOLO con un data.yaml archivo:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
El archivo yaml define la configuración de su conjunto de datos:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Utilice archivos de anotación JSON con la COCO estándar:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
El archivo JSON contiene images, annotations, y categories matrices:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO se convierten automáticamente durante la carga. Detección (bbox), segmentación (segmentation polígonos) y pose (keypoints) son compatibles. Los ID de categoría se reasignan a una secuencia densa indexada en 0 en todos los archivos de anotación. Para convertir entre formatos, consulte herramientas de conversión de formatos.
Subidas sin procesar
Sin procesar: Sube imágenes sin anotaciones (sin etiquetas). Útil cuando planeas anotar directamente en la plataforma utilizando el editor de anotaciones.
Estructura de directorios plana
También puede cargar imágenes sin la estructura de carpetas train/val. Las imágenes cargadas sin carpetas divididas se asignan a la carpeta train divididos por defecto. Puedes reasignarlos más tarde utilizando la función de mover a dividir en bloque.
Detección automática de formato
El formato se detecta automáticamente: conjuntos de datos con un data.yaml que contiene names, train, o val Las claves se tratan como YOLO. Conjuntos de datos con archivos COCO (que contienen images, annotations, y categories Las matrices se tratan como COCO. Los conjuntos de datos que solo contienen imágenes y no tienen anotaciones se tratan como datos sin procesar.
Para obtener detalles sobre el formato específico de cada tarea, consulte las tareas compatibles y la descripción general de los conjuntos de datos.
Proceso de Carga
- Navegar a
Datasetsen la barra lateral - Haga clic
New Dataseto arrastre los archivos a la zona de carga - Seleccione el tipo de tarea (consulte las tareas compatibles).
- Añada un nombre y una descripción opcional
- Establecer la visibilidad (pública o privada) y la licencia opcional (ver licencias disponibles)
- Haga clic
Create

Después de la carga, la plataforma procesa sus datos a través de un proceso de varias etapas:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- Validación: Comprobaciones de formato y tamaño
- Normalización: imágenes grandes redimensionadas (máximo 4096 píxeles, dimensión mínima 28 píxeles)
- Miniaturas: vistas previas WebP de 256 píxeles generadas.
- Análisis de etiquetas: YOLO y etiquetas COCO extraídas
- Estadísticas: Distribuciones de clases y dimensiones de imagen calculadas.

Validar Antes de la Carga
Puede validar su conjunto de datos localmente antes de cargarlo:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Requisitos de tamaño de imagen
Las imágenes deben tener al menos 28 píxeles en su lado más corto. Las imágenes más pequeñas que esto se rechazan durante el procesamiento. Las imágenes más grandes que 4096 píxeles en su lado más largo se redimensionan automáticamente conservando la relación de aspecto.
Explorar Imágenes
Visualice las imágenes de su conjunto de datos en múltiples diseños:
| Ver | Descripción |
|---|---|
| Cuadrícula | Cuadrícula de miniaturas con superposiciones de anotaciones (predeterminado) |
| Compacto | Miniaturas más pequeñas para un escaneo rápido |
| Tabla | Lista con miniatura, nombre de archivo, dimensiones, tamaño, división, clases y recuento de etiquetas. |

Clasificación y filtrado
Las imágenes se pueden ordenar y filtrar para facilitar la navegación:
| Ordenar | Descripción |
|---|---|
| Más reciente | Últimas incorporaciones |
| El más antiguo | Añadido más recientemente |
| Nombre A-Z | Alfabético |
| Nombre Z-A | Orden alfabético inverso |
| Tamaño (más pequeño) | Los archivos más pequeños primero |
| Tamaño (más grande) | Los archivos más grandes primero |
| La mayoría de las etiquetas | La mayoría de las anotaciones |
| Menos etiquetas | Menos anotaciones |
| Filtrar | Opciones |
|---|---|
| Filtro dividido | Entrenar, Val, Probar o Todo |
| Filtro de etiquetas | Todas las imágenes, con anotaciones o sin anotaciones. |
| Buscar | Filtrar imágenes por nombre de archivo |
Búsqueda de imágenes sin etiquetar
Utilice el filtro de etiquetas configurado en Unannotated para encontrar rápidamente imágenes que aún necesitan anotación. Esto resulta especialmente útil para conjuntos de datos grandes en los que se desea track del progreso track .
Visor de Pantalla Completa
Haga clic en cualquier imagen para abrir el visor de pantalla completa con:
- Navegación: teclas de flecha o vistas previas en miniatura para navegar.
- Metadatos: nombre de archivo, dimensiones, insignia dividida, recuento de anotaciones
- Anotaciones: Alternar la visibilidad de la superposición de anotaciones
- Desglose por clase: recuento de etiquetas por clase con indicadores de color
- Editar: Entra en el modo de anotación para añadir o modificar etiquetas.
- Descargar: Descargar el archivo de imagen original
- Eliminar: Elimina la imagen del conjunto de datos.
- Zoom:
Cmd/Ctrl+Scrollpara acercar/alejar - Vista de píxeles: Activa o desactiva la representación pixelada para una inspección detallada.

Filtrar por División
Filtre imágenes por su división de conjunto de datos:
| División | Propósito |
|---|---|
| Entrenar | Utilizado para el entrenamiento del modelo |
| Val | Utilizado para validación durante el entrenamiento |
| Prueba | Utilizado para la evaluación final |
Pestañas del conjunto de datos
Cada página de conjunto de datos tiene cinco pestañas accesibles desde la barra de pestañas:
Pestaña Imágenes
La vista predeterminada muestra la galería de imágenes con anotaciones superpuestas. Admite los modos de vista en cuadrícula, compacta y tabla. Arrastra y suelta archivos aquí para añadir más imágenes.
Pestaña Clases
Gestiona las clases de anotación para tu conjunto de datos:
- Histograma de clases: gráfico de barras que muestra el recuento de anotaciones por clase con alternancia entre escala lineal y logarítmica.
- Tabla de clases: tabla ordenable y con función de búsqueda que incluye el nombre de la clase, el número de etiquetas y el número de imágenes.
- Editar nombres de clases: Haga clic en cualquier nombre de clase para cambiarlo en línea.
- Editar colores de clase: Haga clic en una muestra de color para cambiar el color de la clase.
- Añadir nueva clase: Utiliza el campo de entrada de la parte inferior para añadir clases.

Escala logarítmica para conjuntos de datos desequilibrados
Si su conjunto de datos presenta un desequilibrio de clases (por ejemplo, 10 000 anotaciones de «persona» pero solo 50 de «bicicleta»), utilice el Log Scale Activa el histograma de clases para visualizar todas las clases con claridad.
Pestaña Gráficos
Estadísticas automáticas calculadas a partir de su conjunto de datos:
| Gráfico | Descripción |
|---|---|
| Distribución dividida | Gráfico de donut con el recuento de imágenes de entrenamiento/validación/prueba y el porcentaje etiquetado. |
| Clases superiores | Gráfico circular de las 10 clases de anotaciones más frecuentes |
| Anchos de imagen | Histograma de la distribución del ancho de la imagen con media |
| Alturas de imagen | Histograma de la distribución de la altura de la imagen con media |
| Puntos por instancia | Recuento de vértices o puntos clave de polígonos por anotación (segment) |
| Ubicaciones de anotaciones | Mapa de calor 2D de las posiciones centrales de los cuadros delimitadores |
| Dimensiones de la imagen | Mapa de calor 2D de anchura frente a altura con líneas guía de relación de aspecto |

Caché de estadísticas
Las estadísticas se almacenan en caché durante 5 minutos. Los cambios en las anotaciones se reflejarán una vez que expire la caché.
Mapas de calor a pantalla completa
Haga clic en el botón de ampliar de cualquier mapa de calor para verlo en modo de pantalla completa. Esto proporciona una vista más grande y detallada, útil para comprender los patrones espaciales en grandes conjuntos de datos.
Pestaña Modelos
Ver todos los modelos entrenados con este conjunto de datos en una tabla con función de búsqueda:
| Columna | Descripción |
|---|---|
| Nombre | Nombre del modelo con enlace |
| Proyecto | Proyecto principal con icono |
| Estado | Insignia de estado de formación |
| Tarea | Tipo de YOLO |
| Épocas | Mejor época / épocas totales |
| mAP50-95 | Precisión media |
| mAP50 | mAP IoU ,50 |
| Creada | Fecha de creación |

Pestaña Errores
Las imágenes cuyo procesamiento ha fallado se enumeran aquí con:
- Banner de error: Recuento total de imágenes fallidas y orientación
- Tabla de errores: nombre de archivo, descripción del error fácil de entender, sugerencias para solucionarlo y miniatura de vista previa.
- Los errores más comunes incluyen archivos dañados, formatos no compatibles, imágenes demasiado pequeñas (mínimo 28 píxeles) y modos de color no compatibles.
Errores comunes en el procesamiento
| Error | Causa | Arreglar |
|---|---|---|
| No se puede leer el archivo de imagen. | Formato dañado o no compatible | Reexportar desde el editor de imágenes |
| Incompleto o dañado | El archivo se truncó durante la transferencia. | Vuelva a descargar el archivo original. |
| Imagen demasiado pequeña | Dimensión mínima inferior a 28 píxeles. | Utilice imágenes originales con mayor resolución. |
| Modo de color no compatible | CMYK o modo de color indexado | Convertir al modo RGB |
Exportar Conjunto de Datos
Exporta tu conjunto de datos en formato NDJSON para su uso sin conexión:
- Haga clic en el icono de descarga en el encabezado del conjunto de datos.
- El archivo NDJSON se descarga automáticamente.

El formato NDJSON almacena un objeto JSON por línea. La primera línea contiene los metadatos del conjunto de datos, seguidos de una línea por imagen:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
URL firmadas
Las URL de las imágenes en el NDJSON exportado están firmadas y son válidas durante 7 días. Si necesita URL nuevas, vuelva a exportar el conjunto de datos.
Consulte la documentación del formato NDJSON de Ultralytics para conocer la especificación completa.
Operaciones masivas
Gestiona imágenes de forma masiva utilizando el menú contextual de la vista de tabla:
Traslado a Split
Reasignar las imágenes seleccionadas a una división diferente dentro del mismo conjunto de datos:
- Cambiar a la vista de tabla
- Selecciona imágenes utilizando las casillas de verificación.
- Haga clic con el botón derecho para abrir el menú contextual.
- Elige
Move to split> Entrenar, Validación, o Prueba
También puede arrastrar y soltar imágenes en las pestañas del filtro dividido en la vista de cuadrícula.
Organización de trenes/divisiones Val
Cargue todas las imágenes en un conjunto de datos y, a continuación, utilice la función de mover y dividir por lotes para organizar los subconjuntos en divisiones de entrenamiento, validación y prueba.
Eliminación masiva
Eliminar varias imágenes a la vez:
- Seleccionar imágenes en la vista de tabla
- Haga clic con el botón derecho y seleccione
Delete - Confirma la eliminación
URI del Conjunto de Datos
Referencie los conjuntos de datos de la plataforma utilizando el ul:// Formato URI (véase Uso de Conjuntos de Datos de la Plataforma):
ul://username/datasets/dataset-slug
Utilice esta URI para entrenar modelos desde cualquier lugar:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Entrene en cualquier lugar con datos de la plataforma
El ul:// La URI funciona desde cualquier entorno:
- Máquina local: Entrene en su hardware, los datos se descargan automáticamente
- Google Colab: Acceda a sus conjuntos de datos de la plataforma en cuadernos
- Servidores remotos: Entrene en máquinas virtuales en la nube con acceso completo al conjunto de datos
Licencias disponibles
La Plataforma admite las siguientes licencias para conjuntos de datos:
| Licencia | Tipo |
|---|---|
| Ninguno | No se ha seleccionado ninguna licencia. |
| CC0-1.0 | Dominio público |
| CC-BY-2.5 | Permisivo |
| CC-BY-4.0 | Permisivo |
| CC-BY-SA-4.0 | Copyleft |
| CC-BY-NC-4.0 | No comercial |
| CC-BY-NC-SA-4.0 | Copyleft |
| CC-BY-ND-4.0 | Sin derivados |
| CC-BY-NC-ND-4.0 | No comercial |
| Apache 2.0 | Permisivo |
| MIT | Permisivo |
| AGPL-3.0 | Copyleft |
| GPL-3.0 | Copyleft |
| Solo para investigación | Restringido |
| Otros | Personalizado |
Licencias Copyleft
Al clonar un conjunto de datos con una licencia copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), el clon hereda la licencia y el selector de licencia se bloquea.
Configuración de Visibilidad
Controla quién puede ver tu conjunto de datos:
| Configuración | Descripción |
|---|---|
| Privado | Solo tú puedes acceder |
| Público | Cualquiera puede visualizarlo en la página Explorar |
La visibilidad se establece al crear un conjunto de datos en el New Dataset diálogo utilizando un interruptor de palanca. Los conjuntos de datos públicos son visibles en el Explorar página.
Editar Dataset
Los metadatos del conjunto de datos se editan directamente en la página del conjunto de datos, sin necesidad de dialogar:
- Nombre: Haga clic en el nombre del conjunto de datos para editarlo. Los cambios se guardan automáticamente al salir del campo.
Enter. - Descripción: Haga clic en la descripción (o en el marcador de posición «Añadir una descripción...») para editarla. Los cambios se guardan automáticamente.
- Tipo de tarea: Haga clic en la insignia de la tarea para seleccionar un tipo de tarea diferente.
- Licencia: Haga clic en el selector de licencia para cambiar la licencia del conjunto de datos.
Cambiar el tipo de tarea
Cambiar el tipo de tarea puede afectar a la forma en que se visualizan las anotaciones existentes. Las anotaciones incompatibles no se mostrarán.
Clonar Conjunto de Datos
Al visualizar un conjunto de datos público que no es de su propiedad, haga clic en Clone Dataset para crear una copia en tu espacio de trabajo. La copia incluye todas las imágenes, anotaciones y definiciones de clases. Si el conjunto de datos original tiene una licencia copyleft, la copia la hereda y el selector de licencia queda bloqueado.
Estrella y compartir
- Estrella: Haga clic en el botón con la estrella para marcar un conjunto de datos como favorito. El número de estrellas es visible para todos los usuarios.
- Compartir: Para conjuntos de datos públicos, haga clic en el botón «Compartir» para copiar un enlace o compartirlo en redes sociales.
Eliminar conjunto de datos
Elimina un conjunto de datos que ya no necesites:
- Abre el menú de acciones del conjunto de datos
- Haga clic
Delete - Confirma en el cuadro de diálogo: «Esto moverá [nombre] a la papelera. Puedes restaurarlo en un plazo de 30 días».
Papelera y Restaurar
Los conjuntos de datos eliminados se mueven a la Papelera, no se eliminan de forma permanente. Puede restaurarlos en un plazo de 30 días a partir de Settings > Trash.
Entrenar con el Conjunto de Datos
Inicia el entrenamiento directamente desde tu conjunto de datos:
- Haga clic
New Modelen la página del conjunto de datos - Selecciona un proyecto o crea uno nuevo
- Configura los parámetros de entrenamiento
- Inicia el entrenamiento
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
Consulta Entrenamiento en la Nube para más detalles.
Preguntas frecuentes
¿Qué sucede con mis datos después de la carga?
Sus datos se procesan y almacenan en la región seleccionada (EE. UU., UE o AP). Las imágenes son:
- Validado en cuanto a formato y tamaño
- Rechazado si la dimensión mínima es inferior a 28 píxeles.
- Normalizado si es mayor que 4096 píxeles (conservando la relación de aspecto; codificado para un almacenamiento optimizado).
- Almacenado utilizando almacenamiento direccionable por contenido (CAS) con hash XXH3-128.
- Miniaturas generadas a 256 píxeles en formato WebP para una navegación rápida.
¿Cómo funciona el almacenamiento?
La Plataforma Ultralytics utiliza Almacenamiento Direccionable por Contenido (CAS) para un almacenamiento eficiente:
- Deduplicación: Las imágenes idénticas subidas por diferentes usuarios se almacenan solo una vez
- Integridad: el hash XXH3-128 garantiza la integridad de los datos.
- Eficiencia: Reduce los costos de almacenamiento y acelera el procesamiento
- Regional: Los datos permanecen en la región seleccionada (EE. UU., UE o AP)
¿Puedo añadir imágenes a un conjunto de datos existente?
Sí, arrastre y suelte los archivos en la página del conjunto de datos o utilice el botón de carga para añadir imágenes adicionales. Las nuevas estadísticas se calcularán automáticamente.
¿Cómo puedo mover imágenes entre divisiones?
Utilice la función de mover y dividir en bloque:
- Seleccionar imágenes en la vista de tabla
- Haga clic con el botón derecho y seleccione
Move to split - Selecciona la división objetivo (Entrenamiento, Validación o Prueba).
¿Qué formatos de etiquetas son compatibles?
Ultralytics admite dos formatos de anotación para la carga:
Uno .txt archivo por imagen con coordenadas normalizadas (rango 0-1):
| Tarea | Formato | Ejemplo |
|---|---|---|
| Detectar | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentar | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Clasificar | Estructura del directorio | train/cats/, train/dogs/ |
Indicadores de visibilidad de la pose: 0 = sin etiquetar, 1 = etiquetada pero oculta, 2 = etiquetada y visible.
Archivos JSON con images, annotations, y categories matrices. Admite la detección (bbox), segmentación (polígono) y pose (keypoints). COCO coordenadas de píxeles absolutas que se convierten automáticamente a formato normalizado durante la carga.