Datos de entrenamiento de inteligencia artificial: experto en aprendizaje automático y director ejecutivo de TechSpeed ​​revela cómo la calidad de los datos puede hacer o deshacer su producto de inteligencia artificial

Publicado: 2020-06-26
ai training data
Los datos de entrenamiento de IA son los que determinan el nivel de sofisticación y precisión de un sistema de IA

Para 2021, más del 80% de las tecnologías emergentes estarán basadas en IA.

Sin embargo, aunque esta tecnología es la base de casi todos los productos tecnológicos nuevos que llegan al mercado, sorprendentemente hay poca conversación sobre lo que da forma a nuestros sistemas artificialmente inteligentes: la calidad de los datos.

AI, o aprendizaje automático (ML), los datos de entrenamiento generalmente se comparan con los libros de texto; Estos educan a los sistemas artificialmente inteligentes, dándoles contexto y el prisma a través del cual entender conceptos.

Esto significa que la tecnología impulsada por la inteligencia artificial es tan sofisticada y precisa como los datos de los que aprende.

Nos sentamos con un experto en la materia y director ejecutivo de la agencia de servicios de datos TechSpeed, Vidya Plainfield, para discutir la importancia de los datos de entrenamiento de IA, las consecuencias de conjuntos de datos insuficientes o mal seleccionados y algunas de las tendencias que podemos esperar ver en el campo.

Profile image of Vidya Plainfield, CEO @TechSpeed
Vidya Plainfield, director ejecutivo de @TechSpeed

1. Hola Vidya, antes de entrar en los detalles técnicos, cuéntenos un poco sobre TechSpeed ​​y su experiencia en AI / ML y el negocio de los datos.

Vidya: TechSpeed ​​fue fundada en Portland, Oregon, en 2002 por un experto en datos (mi madre) y un inventor (mi padre).

Si bien ambos están jubilados ahora, su espíritu de invención, espíritu empresarial y familia todavía está muy vivo en nuestro creciente equipo de más de 100 técnicos, desarrolladores y gerentes.

A lo largo de nuestros 18 años de historia, hemos tenido la oportunidad de evolucionar y dar forma a la industria de los datos con nuestros socios clientes a medida que extraemos, clasificamos y recopilamos información a partir de los datos.

Lo que la mayoría de la gente no se da cuenta es que hay un enorme motor de datos detrás de la brillante interfaz de la IA y esos terabytes de datos funcionan con información cuidadosamente construida.

Si no tiene cuidado con los datos de su backend, puede enseñarle accidentalmente a una herramienta de inteligencia artificial algo que no tenía la intención de hacer.

TechSpeed ​​comprende fundamentalmente los datos y esa ha sido la base de cómo nos hemos asociado con los clientes para ayudar a capacitar y auditar su IA.

¡Las mejores empresas de desarrollo de software clasificadas!
Encuéntralos aquí

2. Definamos la calidad de los datos en el contexto de AI / ML: ¿Cómo califica TechSpeed ​​los datos?

Vidya: Por supuesto, la calidad es el rey; La basura que entra es basura que sale.

Sin duda, es tedioso limpiar los datos sin procesar, recodificar las variables que faltan y transformar las variables cualitativas en cuantitativas.

Hay un dicho: "Los científicos de datos pasan el 80% de su tiempo limpiando datos y el 20% construyendo un modelo".

El mayor escollo que vemos es que las empresas subestiman y subestiman los datos de calidad limpia.

Esta subestimación significa que cuando se trata de desarrollar su programa, se enfrentan a tener que elegir entre tener un conjunto de datos lo suficientemente grande o tener un conjunto de datos de calidad.

La clave es que necesita tanto calidad como cantidad.

TechSpeeds trabaja con los clientes para ayudarlos a escalar de manera asequible sus conjuntos de datos para que no tengan que hacer concesiones. Ofrecemos una amplia gama de servicios que incluyen procesamiento único, múltiple y DEQA para garantizar que los datos estén calificados de manera que satisfagan las necesidades del programa.

3. ¿Cómo evaluaría el enfoque de la industria hacia la calidad de los datos? En cuanto a sus compañeros y clientes, ¿cuáles son algunos de los errores o conceptos erróneos más comunes con respecto a la capacitación en IA / ML con los que se ha encontrado?

Vidya: Hay muchas empresas que ofrecen una amplia gama de promesas a empresas bien intencionadas.

Algunos proveedores comienzan las cosas, pero esperan que las empresas manejen el trabajo pesado en lo que respecta a la capacitación y la gestión continua de excepciones.

Los errores más grandes que vemos que las empresas cometen al administrar su plan de datos son:

1. Volumen insuficiente

Se requieren grandes conjuntos de datos en todas las categorías para garantizar que se disponga de una ponderación uniforme de los datos para los parámetros mayoritarios y minoritarios. Sin eso, los algoritmos sobreponderarán los datos de la mayoría cuando intenten responder a una situación de minorías.

Por ejemplo, suponga que busca categorizar imágenes de árboles. Digamos que tiene muchos datos buenos sobre todas las diferentes especies de árboles y todo tipo de iluminación y escenario de la vida. Sin embargo, no tiene mucho volumen de cómo se ven los árboles después de un huracán.

Por supuesto, estas serán las instancias minoritarias, pero si tiene recuentos de datos sólidos solo para la mayoría de los datos, cuando la herramienta mira una imagen de un árbol después de un huracán, se basará y sopesará los datos de la mayoría de los datos de árboles saludables. colocar. Esto puede provocar errores.

2. Variedad insuficiente

Se requiere una falta de datos sólidos en una amplia gama de categorías para garantizar que la herramienta pueda manejar los cambios continuos en el entorno del conjunto de datos.

Por ejemplo, supongamos que está creando una herramienta de análisis visual que analiza imágenes de contenedores de almacenamiento. Luego, de repente, se realizó una actualización del sistema de la cámara. Invariablemente, la salida de la herramienta se verá afectada.

El mundo es un lugar dinámico. Es necesario considerar los atributos actuales y futuros de los clientes, entornos, actitudes, etc. para garantizar que las herramientas puedan adaptarse a esos cambios.

3. Subestimar la dificultad de obtener datos

A menudo, las empresas tienen muchos de los datos de la mayoría que quieren clasificar y puede surgir un desafío cuando necesitan extraer datos de minorías.

Por ejemplo, supongamos que está creando una herramienta de análisis visual que analiza imágenes de teléfonos inteligentes. Puede tener un millón de imágenes provenientes de las redes sociales, en una amplia variedad de categorías, pero lo que no tiene son todas las imágenes que la gente no carga.

Lo que quiero decir es que las personas generalmente publican imágenes en las redes sociales que les gustan, con una calidad y claridad relativamente buenas.

Sin embargo, si su herramienta busca revisar imágenes de teléfonos celulares, hay muchas imágenes borrosas, sobreexpuestas, inclinadas, etc. Estas imágenes son difíciles de obtener porque ¿dónde encuentra imágenes de prueba minoritarias que la gente no publica?

Las empresas a menudo subestiman la cantidad de brechas en sus datos que requerirán recursos para llenar. De esa manera, un buen socio de aprendizaje automático no solo lo ayudará a organizar los datos que tiene, sino que también lo ayudará a obtener los datos que no tiene.

4. Finalmente, la falacia de “Ron Popeil”

En otras palabras: la falacia de “configúralo y olvídalo”.

Las empresas a menudo olvidan que el ojo humano sigue siendo necesario para la gestión y el mantenimiento continuos.

Ya se trate de resultados de baja confianza, manejo de excepciones, auditoría u optimización con datos de refuerzo, estos flujos de trabajo en curso son clave para mantener la herramienta actualizada y permitir el éxito continuo.

organization harvesting data for AI training
Algunos de los problemas comunes en el entrenamiento de IA son el volumen y la variedad insuficientes.

4. ¿Cuáles son las consecuencias de un entrenamiento de IA mal manejado?

Vidya: No tengo suficientes dedos de manos y pies para contar las veces que un cliente ha venido a nosotros porque subestimó la planificación, el costo y el alcance necesarios para desarrollar su herramienta de aprendizaje automático.

La peor parte es que debido a que la base de cualquier programa son los datos, los clientes pueden perder un tiempo y dinero valiosos, ya que tienen que eliminar sus conjuntos de datos originales y comenzar de nuevo.

Si le preguntas a un panel de directores ejecutivos, todos te dirán que creen que aprovechar la IA es clave para la competitividad en el futuro.

Dicho esto, un porcentaje muy pequeño de empresas en realidad hace un presupuesto para la IA o la incluye como parte del proceso de planificación estratégica.

Entonces, para aquellas empresas que han reservado dinero, generalmente solo tienen una oportunidad para que funcione.

El entrenamiento de IA mal manejado a veces puede significar que una empresa no tiene la capacidad de reinvertir después de un intento fallido. Esto puede significar que siempre están tratando de ponerse al día con su competencia.

5. En su opinión, ¿cuáles son algunos de los ejemplos más importantes de cómo los datos de entrenamiento de IA nos impactan a nivel social?

Vidya: Estamos en un momento de nuestra historia en el que existe una conciencia emergente del sesgo que se ha programado en nuestra sociedad.

La raza, el género, la edad y muchos más puntos de datos falsos se han utilizado durante demasiado tiempo para impulsar decisiones, y yo diría, elecciones sub-optimizadas que nos han impedido el logro colectivo.

Tomemos, por ejemplo, una empresa financiera que desea utilizar una herramienta de aprendizaje automático para ayudar a reducir el campo de los solicitantes.

Digamos que la empresa usó 20 años de sus datos históricos de empleados para identificar a aquellos empleados que fueron promovidos más, que tuvieron las evaluaciones de desempeño más altas y luego observaron dónde fueron a la escuela, qué experiencias tenían antes de unirse a la empresa, etc.

A primera vista, esto puede tener mucho sentido, “veamos quién ha tenido éxito en nuestra firma y contratemos a más personas así”.

Lo que su herramienta de RR.HH. es ciega es el sesgo institucional que puede haber afectado históricamente las decisiones de contratación y promoción.

  • Los hombres tienen más probabilidades de ser promovidos que las mujeres.
  • Es más probable que los caucásicos sean entrevistados y, en última instancia, contratados en comparación con las personas de color.
  • E históricamente, las minorías de bajos ingresos están subrepresentadas en la educación superior y están en desventaja en varios atributos cuando se trata de la admisión a la universidad en las escuelas de nivel 1.

En este ejemplo, el conjunto de datos estaba incompleto y los datos de rendimiento externos deben incluirse junto con otras variables de selección como el potencial.

La magia de la IA diseñada intencionalmente que se crea a partir de un equipo diverso a propósito puede ayudarnos a eliminar los prejuicios y los puntos ciegos.

Es algo poderoso y liberador darnos cuenta de que podemos hacer que las máquinas sean más inteligentes que nosotros si así lo deseamos.

6. ¿La diferencia entre sus competidores y el hecho de que sea una empresa dirigida por mujeres?

Vidya: TechSpeed ​​siempre ha sido una organización dirigida por mujeres minoritarias.

Las mujeres representan solo el 5% de todos los directores ejecutivos y las mujeres de minorías de nivel ejecutivo en tecnología son prácticamente inexistentes.

Ser una empresa propiedad de mujeres pertenecientes a minorías nos diferencia exactamente por esa razón. En una industria que está fuertemente dominada por los hombres, nos enorgullece ejemplificar cómo el liderazgo femenino puede aportar diferentes perspectivas y soluciones.

Estamos en el negocio de los datos; Estamos enseñando a las máquinas a ver el mundo tal como es con todos los colores y formas que tiene para ofrecer.

Nuestra organización refleja la diversidad de perspectivas que buscamos que se reflejen en nuestro trabajo.

Soy madre de tres niñas racialmente diversas en un hogar mixto.

La diversidad y el empoderamiento femenino no es algo de lo que hablemos, es de quiénes somos y cómo vivimos.

Poorly selected data can transfer human bias onto an artificially intelligent system
Los datos mal seleccionados pueden transferir el sesgo humano a un sistema artificialmente inteligente

7. Ahora, volviendo a los datos de entrenamiento y mirando el lado positivo, ¿cómo benefician los datos de entrenamiento de calidad al producto de IA, es decir, a las empresas que lo poseen?

Vidya: Fundamentalmente, los datos de entrenamiento bien pensados ​​significan menos excepciones y errores.

La razón principal para invertir en aprendizaje automático y herramientas de inteligencia artificial es poder resolver problemas de manera más rápida y confiable.

La gente nueva en la industria considera erróneamente que la IA es autopropulsada y puede ser completamente autónoma. Sin embargo, la verdad es que para la mayoría de las empresas existe un error del 10-20% y las excepciones seguirán existiendo.

Este cubo de registros de baja confianza o excepciones no es una maldición, es una oportunidad. Las excepciones se pueden procesar y analizar "manualmente" y luego se pueden convertir en reglas o lógica nuevas o mejores.

8. ¿Qué proceso recomendaría para el aseguramiento continuo de la calidad de los datos? ¿Cuándo, si es que alguna vez, recomendaría cambiar el aprendizaje automático a un funcionamiento completamente autónomo? ¿Alguna vez termina el entrenamiento para una IA?

Vidya: Ciertamente, el trabajo pesado que se necesita durante la configuración inicial de un programa de aprendizaje automático o de inteligencia artificial es muy diferente de lo que se necesita para el mantenimiento continuo.

Lo que vemos es que los programas continuos más efectivos incluyen algún tipo de auditoría continua y procesamiento de excepciones.

La revisión continua de las excepciones de procesamiento y la auditoría en curso identificarán oportunidades y debilidades en el programa.

Sin excepción, cada proyecto y cada conjunto de datos revelan matices que no se planearon originalmente y, a veces, esos matices necesitan tiempo para emerger.

De esta manera, la planificación lo es todo y, sin embargo, el plan no es nada. La incorporación de la auditoría permite que el plan siga siendo flexible y la herramienta ágil.

Si bien, por supuesto, hay excepciones para herramientas muy simples, en su mayor parte cuando se trata de IA, el trabajo nunca termina realmente, simplemente evoluciona.

¡Las principales empresas de Internet de las cosas (IoT) clasificadas!
Encuéntralos aquí

9. Finalmente, ¿cuáles pronostica que serán las próximas tendencias en la optimización de datos de entrenamiento de IA? ¿Qué deben buscar las empresas que dependen de la IA?

Vidya: Hay una oleada de herramientas de inteligencia artificial / aprendizaje automático listas para usar y más lanzamientos todos los días.

El acceso a las herramientas de autoservicio permite que todo tipo de empresas experimenten y comiencen a aprovechar sus datos.

Esto, por supuesto, es excelente para la industria y las empresas. Sin embargo, como comentamos antes, sin datos de calidad y apoyo continuo, puede ser problemático para los aficionados al bricolaje.

Las empresas quieren ejecutar su propio programa, pero rara vez tienen la potencia necesaria para organizarse y procesar los conjuntos de datos de aprendizaje.

Esto a veces puede resultar en conjuntos de datos pequeños o insuficientes y, en última instancia, en modelos malos.

Ahí es donde un buen socio de soporte de datos puede brindar tanto perspectiva como soporte escalable para ayudar a liderar desde atrás.

Hay un viejo dicho entre los investigadores: cuantas más preguntas hagas, más preguntas te darás cuenta de que también necesitas respuestas.

A medida que las empresas buscan construir programas de aprendizaje automático cada vez más complejos, continuarán descubriendo que los conjuntos de datos que tenían a mano y que solían comenzar, simplemente ya no son suficientes.

La necesidad de minería de datos para ayudar a completar la lógica de la IA seguirá expandiéndose. Cuanto más madura sea la industria, mayor será el conocimiento de los datos que no tenemos.

Si bien no es exclusivo de la inteligencia artificial o el aprendizaje automático, creo que estamos en un momento de la historia en el que las personas están reevaluando cómo piensan sobre su negocio, sus clientes y su comunidad.

Las suposiciones y expectativas que eran la columna vertebral de los productos, programas y estrategias existentes están siendo reevaluadas.

Ahora es el momento de que las empresas vean las herramientas de aprendizaje automático y de inteligencia artificial existentes y futuras con ojos nuevos e inclusivos.

Antes era opcional, pero ahora se espera y las empresas que no evolucionen serán dejadas atrás por consumidores que elevaron irreversiblemente sus expectativas.


¡Gracias, Vidya!

¿Quiere llevar su solución de IA / ML al siguiente nivel? Póngase en contacto con TechSpeed ​​a través de [email protected] o llame al 503-291-0027.