Link to this sectionEstrategias de recopilación y anotación de datos para visión artificial#

La recopilación y el etiquetado de datos son los dos pasos fundamentales de cualquier proyecto de visión artificial: reúnes imágenes o vídeos representativos y luego los etiquetas para que un modelo pueda aprender de ellos. La calidad de estos datos determina directamente el rendimiento del modelo, por lo que la definición de clases, la obtención de datos sin sesgos y un etiquetado coherente son importantes antes de que comience cualquier entrenamiento.

Watch: How to Build Effective Data Collection and Annotation Strategies for Computer Vision 🚀

Esta guía cubre la configuración de clases y la recopilación de datos, qué es el etiquetado de datos junto con los tipos y formatos de etiquetado a elegir, y estrategias de etiquetado eficientes; cada decisión alineada con los objetivos de tu proyecto.

Link to this sectionConfiguración de clases y recopilación de datos#

La recopilación de imágenes y vídeos para un proyecto de visión artificial se reduce a tres decisiones: cuántas clases definir, de dónde obtener los datos y cómo mantener el conjunto de datos libre de sesgos.

Link to this sectionElegir las clases adecuadas para tu proyecto#

Una de las primeras preguntas al comenzar un proyecto de visión artificial es cuántas clases incluir. Debes determinar la pertenencia a las clases, lo que implica las diferentes categorías o etiquetas que quieres que tu modelo reconozca y diferencie. El número de clases debe determinarse según los objetivos específicos de tu proyecto.

Por ejemplo, si quieres monitorizar el tráfico, tus clases podrían incluir "coche", "camión", "autobús", "motocicleta" y "bicicleta". Por otro lado, para el seguimiento de artículos en una tienda, tus clases podrían ser "frutas", "verduras", "bebidas" y "aperitivos". Definir las clases basándote en los objetivos de tu proyecto ayuda a mantener tu conjunto de datos relevante y enfocado.

Cuando defines tus clases, otra distinción importante que debes hacer es si elegir conteos de clases generales o específicos. El 'conteo' se refiere al número de clases distintas que te interesan. Esta decisión influye en la granularidad de tus datos y en la complejidad de tu modelo. Aquí tienes las consideraciones para cada enfoque:

Conteo de clases general: Son categorías más amplias e inclusivas, como "vehículo" y "no vehículo". Simplifican la anotación y requieren menos recursos computacionales, pero proporcionan menos información detallada, lo que podría limitar la eficacia del modelo en escenarios complejos.
Conteo de clases específico: Más categorías con distinciones más precisas, como "sedán", "SUV", "camioneta" y "motocicleta". Capturan información más detallada, mejorando la precisión y el rendimiento del modelo. Sin embargo, su anotación requiere más tiempo y trabajo, además de más recursos computacionales.

Comenzar con clases más específicas puede ser muy útil, especialmente en proyectos complejos donde los detalles son importantes. Las clases más específicas te permiten recopilar datos más detallados, obtener perspectivas más profundas y establecer distinciones más claras entre categorías. No solo mejora la precisión del modelo, sino que también facilita el ajuste del modelo más adelante si es necesario, ahorrando tiempo y recursos.

Link to this sectionFuentes de datos#

Puedes utilizar conjuntos de datos públicos o recopilar tus propios datos personalizados. Los conjuntos de datos públicos como los de Kaggle y Google Dataset Search Engine ofrecen datos estandarizados y bien anotados, lo que los convierte en excelentes puntos de partida para entrenar y validar modelos.

Por otro lado, la recopilación de datos personalizados te permite adaptar tu conjunto de datos a tus necesidades específicas. Puedes capturar imágenes y vídeos con cámaras o drones, rastrear la web en busca de imágenes o utilizar datos internos existentes de tu organización. Los datos personalizados te dan más control sobre su calidad y relevancia. Combinar fuentes de datos tanto públicas como personalizadas ayuda a crear un conjunto de datos diverso y completo.

Link to this sectionEvitar el sesgo en la recopilación de datos#

El sesgo ocurre cuando ciertos grupos o escenarios están subrepresentados o sobrerrepresentados en tu conjunto de datos. Conduce a un modelo que funciona bien con algunos datos pero mal con otros. Es crucial evitar el sesgo en la IA para que tu modelo de visión artificial pueda funcionar bien en una variedad de escenarios.

Aquí tienes cómo puedes evitar el sesgo mientras recopilas datos:

Fuentes diversas: Recopila datos de muchas fuentes para capturar diferentes perspectivas y escenarios.
Representación equilibrada: Incluye una representación equilibrada de todos los grupos relevantes. Por ejemplo, considera diferentes edades, géneros y etnias.
Monitorización continua: Revisa y actualiza regularmente tu conjunto de datos para identificar y abordar cualquier sesgo emergente.
Técnicas de mitigación de sesgos: Utiliza métodos como el sobremuestreo de clases subrepresentadas, aumento de datos y algoritmos conscientes de la equidad.

Seguir estas prácticas ayuda a crear un modelo más robusto y justo que puede generalizarse bien en aplicaciones del mundo real.

Link to this section¿Qué es la anotación de datos?#

La anotación de datos es el proceso de etiquetar datos para hacerlos utilizables para el entrenamiento de modelos de aprendizaje automático. En visión artificial, esto significa etiquetar imágenes o vídeos con la información que un modelo necesita para aprender. Sin datos correctamente anotados, los modelos no pueden aprender con precisión las relaciones entre las entradas y las salidas.

Link to this sectionTipos de anotación de datos#

Dependiendo de los requisitos específicos de una tarea de visión artificial, existen diferentes tipos de anotación de datos. Aquí tienes algunos ejemplos:

Cuadros delimitadores (Bounding Boxes): Cajas rectangulares dibujadas alrededor de objetos en una imagen, utilizadas principalmente para tareas de detección de objetos. Estas cajas se definen por sus coordenadas superior izquierda e inferior derecha.
Polígonos: Contornos detallados para objetos, lo que permite una anotación más precisa que los cuadros delimitadores. Los polígonos se utilizan en tareas como la segmentación de instancias, donde la forma del objeto es importante.
Máscaras: Máscaras binarias donde cada píxel es parte de un objeto o del fondo. Las máscaras se utilizan en tareas de segmentación semántica para proporcionar detalles a nivel de píxel.
Puntos clave (Keypoints): Puntos específicos marcados dentro de una imagen para identificar ubicaciones de interés. Los puntos clave se utilizan en tareas como la estimación de pose y la detección de puntos de referencia faciales.

Data annotation types including bounding boxes, polygons, and masks

Link to this sectionFormatos de anotación comunes#

Después de seleccionar un tipo de etiquetado, es importante elegir el formato apropiado para almacenar y compartir las etiquetas. Los formatos más comunes son:

Formato	Estructura de archivos	Utilizado comúnmente para
COCO	Un solo archivo JSON	Detección de objetos, segmentación de instancias, detección de puntos clave, stuff y segmentación panóptica, subtitulado de imágenes
Pascal VOC	Un archivo XML por imagen	Detección de objetos
YOLO	Un archivo `.txt` por imagen	Detección de objetos, segmentación y pose

El formato YOLO almacena una fila por objeto con índices de clase que comienzan desde 0. Para detección de objetos, la fila es class x_center y_center width height con coordenadas normalizadas de 0 a 1, mientras que la segmentación añade puntos de polígono normalizados y la pose añade coordenadas de puntos clave más valores de visibilidad opcionales después de la caja.

Link to this sectionEstablecimiento de pautas de etiquetado#

Con un tipo de etiquetado y un formato elegidos, el siguiente paso es establecer reglas de etiquetado claras y objetivas. Estas reglas actúan como una hoja de ruta para la coherencia y la precisión a lo largo del proceso de etiquetado. Los aspectos clave de estas reglas incluyen:

Claridad y detalle: Asegúrate de que tus instrucciones sean claras. Usa ejemplos e ilustraciones para mostrar lo que se espera.
Consistencia: Mantén tus anotaciones uniformes. Establece criterios estándar para anotar diferentes tipos de datos, de modo que todas las anotaciones sigan las mismas reglas.
Reducción del sesgo: Mantente neutral. Entrénate para ser objetivo y minimizar los sesgos personales para garantizar anotaciones justas.
Eficiencia: Trabaja de forma más inteligente, no más dura. Utiliza herramientas y flujos de trabajo que automaticen tareas repetitivas, haciendo que el proceso de anotación sea más rápido y eficiente.

Revisar y actualizar regularmente tus reglas de etiquetado ayudará a mantener tus anotaciones precisas, consistentes y alineadas con los objetivos de tu proyecto.

Link to this sectionHerramientas de anotación#

Una buena herramienta de etiquetado te permite etiquetar cada tipo que necesite tu tarea, impone pautas coherentes y exporta etiquetas en un formato listo para el entrenamiento. Ultralytics Platform proporciona un editor de etiquetado integrado que cubre detección, segmentación de instancias, pose, OBB y clasificación, con etiquetado inteligente basado en SAM que convierte un solo clic en una máscara para tareas de detección, segmentación y OBB. Como cada etiqueta se guarda en formato YOLO, tu conjunto de datos etiquetado pasa directamente al entrenamiento sin necesidad de pasos de conversión.

Link to this sectionCalidad del etiquetado: exactitud, precisión y valores atípicos#

Antes de etiquetar a escala, ayuda comprender la exactitud, la precisión, los valores atípicos y el control de calidad, para que no etiquetes tus datos de una manera contraproducente.

Link to this sectionEntender la precisión y la exactitud#

Es importante entender la diferencia entre precisión y exactitud y cómo se relaciona con la anotación. La exactitud se refiere a qué tan cerca están los datos anotados de los valores verdaderos. Nos ayuda a medir qué tan fielmente reflejan las etiquetas los escenarios del mundo real. La precisión indica la consistencia de las anotaciones. Verifica si estás dando la misma etiqueta al mismo objeto o característica en todo el conjunto de datos. Una alta precisión y exactitud conducen a modelos mejor entrenados al reducir el ruido y mejorar la capacidad del modelo para generalizar a partir de los datos de entrenamiento.

Accuracy vs precision comparison for data annotation

Link to this sectionIdentificación de valores atípicos#

Los valores atípicos son puntos de datos que se desvían bastante de otras observaciones en el conjunto de datos. Con respecto a las anotaciones, un valor atípico podría ser una imagen etiquetada incorrectamente o una anotación que no encaja con el resto del conjunto de datos. Los valores atípicos son preocupantes porque pueden distorsionar el proceso de aprendizaje del modelo, lo que lleva a predicciones inexactas y una mala generalización.

Puedes usar varios métodos para detectar y corregir valores atípicos:

Técnicas estadísticas: Para detectar valores atípicos en características numéricas como valores de píxeles, coordenadas de cuadros delimitadores o tamaños de objetos, puedes usar métodos como diagramas de caja, histogramas o puntuaciones z.
Técnicas visuales: Para detectar anomalías en características categóricas como clases de objetos, colores o formas, usa métodos visuales como el trazado de imágenes, etiquetas o mapas de calor.
Métodos algorítmicos: Usa herramientas como la agrupación (p. ej., agrupación K-means, DBSCAN) y algoritmos de detección de anomalías para identificar valores atípicos basados en patrones de distribución de datos.

Link to this sectionControl de calidad de los datos anotados#

Al igual que otros proyectos técnicos, el control de calidad es imprescindible para los datos anotados. Es una buena práctica comprobar regularmente las anotaciones para asegurarse de que sean precisas y consistentes. Esto se puede hacer de varias maneras:

Revisar muestras de datos anotados
Usar herramientas automatizadas para detectar errores comunes
Hacer que otra persona verifique las anotaciones

Si trabajas con varias personas, la consistencia entre diferentes anotadores es importante. Un buen acuerdo entre anotadores significa que las pautas son claras y todos las siguen de la misma manera. Mantiene a todos en la misma página y las anotaciones consistentes.

Durante la revisión, si encuentras errores, corrígelos y actualiza las pautas para evitar futuros fallos. Proporciona retroalimentación a los anotadores y ofrece formación regular para ayudar a reducir los errores. Tener un proceso sólido para manejar los errores mantiene tu conjunto de datos preciso y fiable.

Link to this sectionEstrategias eficientes de etiquetado de datos#

Para hacer que el proceso de etiquetado de datos sea más fluido y eficaz, considera implementar estas estrategias:

Pautas de anotación claras: Proporciona instrucciones detalladas con ejemplos para garantizar que todos los anotadores interpreten las tareas de manera consistente. Por ejemplo, al etiquetar pájaros, especifica si incluir el pájaro completo o solo partes específicas.
Verificaciones de calidad regulares: Establece puntos de referencia y usa métricas específicas para revisar el trabajo, manteniendo estándares altos a través de retroalimentación continua.
Usa herramientas de pre-anotación: Muchas plataformas de anotación modernas ofrecen funciones de pre-anotación asistidas por IA que pueden acelerar significativamente el proceso al generar automáticamente anotaciones iniciales que los humanos pueden luego refinar.
Implementa aprendizaje activo: Este enfoque prioriza el etiquetado de las muestras más informativas primero, lo que puede reducir el número total de anotaciones necesarias mientras se mantiene el rendimiento del modelo.
Procesamiento por lotes: Agrupa imágenes similares para la anotación para mantener la consistencia y mejorar la eficiencia.

Estas estrategias pueden ayudar a mantener anotaciones de alta calidad mientras se reduce el tiempo y los recursos necesarios para el proceso de etiquetado.

Link to this sectionComparte tus opiniones con la comunidad#

Compartir tus ideas y consultas con otros entusiastas de la visión artificial puede ayudar a acelerar tus proyectos. Aquí tienes algunas formas excelentes de aprender, solucionar problemas y conectar:

Link to this sectionDónde encontrar ayuda y soporte#

GitHub Issues: Visita el repositorio de GitHub de YOLO26 y utiliza la pestaña Issues para plantear preguntas, informar de errores y sugerir funciones. La comunidad y los mantenedores están ahí para ayudarte con cualquier problema que encuentres.
Servidor de Discord de Ultralytics: Únete al servidor de Discord de Ultralytics para conectar con otros usuarios y desarrolladores, obtener soporte, compartir conocimientos e intercambiar ideas.

Link to this sectionDocumentación oficial#

Documentación de Ultralytics YOLO26: Consulta la documentación oficial de YOLO26 para obtener guías exhaustivas e ideas valiosas sobre numerosas tareas y proyectos de visión artificial.

Link to this sectionConclusión#

Recopilar datos diversos y sin sesgos y etiquetarlos de forma coherente con las herramientas adecuadas es la base de un modelo de visión artificial fiable. Una vez recopilado y etiquetado tu conjunto de datos, continúa con la guía de pasos de un proyecto de visión artificial para avanzar hacia el entrenamiento y la evaluación.

Link to this sectionFAQ#

Link to this section¿Cuál es la mejor manera de evitar el sesgo en la recopilación de datos para proyectos de visión artificial?#

Para minimizar el sesgo, recopila datos de diversas fuentes, asegúrate de que haya una representación equilibrada en todos los grupos relevantes (como diferentes edades, géneros y etnias), revisa y actualiza regularmente tu conjunto de datos para detectar sesgos emergentes y aplica técnicas de mitigación como el sobremuestreo de clases subrepresentadas, el aumento de datos y algoritmos conscientes de la equidad. Evitar el sesgo de esta manera mantiene el buen rendimiento de tu modelo de visión artificial en escenarios reales variados y mejora su capacidad de generalización.

Link to this section¿Cómo puedo garantizar una alta consistencia y precisión en la anotación de datos?#

Establece pautas de etiquetado claras y objetivas con instrucciones, ejemplos e ilustraciones detalladas, y luego aplícalas uniformemente en todos los tipos de datos para que cada etiqueta siga las mismas reglas. Forma a los etiquetadores para que mantengan la neutralidad con el fin de reducir el sesgo personal, revisa y actualiza las pautas regularmente y utiliza comprobaciones de coherencia automatizadas además de comentarios entre etiquetadores para mantener una alta exactitud y alineación con los objetivos de tu proyecto.

Link to this section¿Cuántas imágenes necesito para entrenar modelos Ultralytics YOLO?#

Unos pocos cientos de objetos etiquetados por clase son suficientes para empezar a experimentar con el aprendizaje por transferencia, pero para un rendimiento real fiable, Ultralytics recomienda al menos 1500 imágenes y 10 000 instancias etiquetadas por clase. Combina un conjunto de datos suficientemente grande con un calendario de entrenamiento razonable —alrededor de 300 épocas es un punto de partida común, reducido si el modelo se sobreajusta pronto— y mantén tus etiquetas rigurosas y alineadas con los objetivos específicos de tu proyecto. Explora estrategias de entrenamiento detalladas en la guía de entrenamiento de YOLO26.

Link to this section¿Proporciona Ultralytics una herramienta de etiquetado de datos?#

Sí. Ultralytics Platform incluye un editor de etiquetado integrado que admite cajas delimitadoras, polígonos, puntos clave, cajas orientadas y etiquetas de clasificación en un mismo espacio de trabajo. El etiquetado inteligente basado en SAM acelera el etiquetado para tareas de detección, segmentación y OBB al generar máscaras a partir de un solo clic, y cada etiqueta se almacena en formato YOLO, listo para el entrenamiento.

Link to this section¿Qué tipos de anotación de datos se utilizan habitualmente en visión artificial?#

Los tipos de etiquetado de datos más comunes en visión artificial son cajas delimitadoras, polígonos, máscaras y puntos clave, cada uno adecuado para una tarea diferente:

Cuadros delimitadores (Bounding Boxes): Utilizados principalmente para la detección de objetos, son cajas rectangulares alrededor de los objetos en una imagen.
Polígonos: Proporcionan contornos de objeto más precisos adecuados para tareas de segmentación de instancias.
Máscaras: Ofrecen detalles a nivel de píxel, utilizados en segmentación semántica para diferenciar objetos del fondo.
Puntos clave (Keypoints): Identifican puntos de interés específicos dentro de una imagen, útiles para tareas como la estimación de pose y la detección de puntos de referencia faciales.

La selección del tipo de anotación adecuado depende de los requisitos de tu proyecto. Aprende más sobre cómo implementar estas anotaciones y sus formatos en nuestra guía de anotación de datos.

Colaboradores

GLglenn-jocher¹¹ RAraimbekovm³ RIRizwanMunawar² ABabirami-vina¹

Creado 31 may 2024Actualizado hace 3 semanas