11 consejos para aprender ciencia de datos

Tomás Reneboldi
14 min readJul 1, 2021

Esta es una introducción no convencional sobre cómo es aprender y trabajar en ciencia de datos hoy. Está pensada para gente que quiere meterse en este mundo pero también para quienes ya son colegas y tienen una opinión al respecto. Bienvenidos los comentarios o discusiones.

El mejorpeor titular de la historia

Indudablemente, la ciencia de datos está en la cresta de la ola. Es un término que se puso de moda aunque muchas veces no queda claro a qué se lo asocia más que a números, programación y algo cool. En esta nota voy a brindar mi propia opinión sobre qué es la ciencia de datos y, más aún, qué hace falta para ser un científico o científica de datos en 11 consejos. Va:

Tendencia de “Ciencia de datos” en Google Trends

1) Perder el miedo a la programación

Eso que a menudo asociamos con pantallas negras y códigos inentendibles circulando a velocidades extremas es una caricatura que en nada puede estar más alejada de la realidad.

La “programación” según Google Imágenes

La programación es un lenguaje como cualquier otro. Tiene reglas propias que debemos aprender: por ejemplo, cómo combinar las unidades mínimas del lenguaje. Palabras, en el caso de un idioma hablado, o variables en la mayoría de los paradigmas de programación. Una vez aprendidas esas reglas básicas, el resto es cuestión de practicar.

Pero a su vez también es una forma de pensar. Así como el lenguaje define nuestra percepción sobre el mundo, aprender a programar implica incorporar el pensamiento lógico y computacional como una forma más de observar e interpretar la realidad. Programar te agrega otra forma de analizar lo que sucede alrededor tuyo.

Más allá de qué es la programación, el principal truco para aprender a hacerlo consiste en saber utilizar internet, una de las armas más potentes que tenemos a nuestra disposición.

18 millones de resultados para “curso de programación” en Google

No solo por la infinidad de recursos y materiales gratuitos, pagos, de todo tipo y color. Lo más importante que podemos sacar de internet es una compañía en el aprendizaje: en el 99% de los casos lo que estamos intentando hacer ya fue resuelto por alguien más antes que nosotros y podemos utilizar esa experiencia googleando. Preguntale a cualquier persona que sepa programar y seguramente te va a contar que una gran parte de su trabajo consiste en googlear, copiar y aprender.

2) Perder el miedo al error

Así como nuestra mejor herramienta externa es el googleo, la mejor herramienta interna para aprender a programar es la persistencia más allá del error. Aprender a programar, como casi cualquier otro aprendizaje, es un camino que está lleno de errores y frustraciones. La bicicleta es el mejor ejemplo (y el más trillado).

Muchas veces tenemos arraigada una visión en exceso negativa sobre el rol del error en el aprendizaje. Sin embargo, si ponemos al error como parte del proceso y aprendemos a disfrutarlo, no hay nada que pueda impedirnos programar.

Yo se lo que estás pensando: “Qué fácil decirlo”. Lo que te propongo es que pienses que el error es un momento necesario para desarmar las cosas y entender cómo funcionan. Igual que en la infancia. No se cómo funciona algo, lo desarmo, lo miro y trato de armarlo. Tenemos que volver al error como algo lúdico, como parte de la curiosidad.

3) Utilizar la motivación

Muchas veces se intenta enseñar la programación desde las funciones básicas y se va construyendo a partir de ahí hasta llegar a lo más grande (e interesante) que es lo que nos había interesado en un primer momento. Me parece un error.

Esa forma de enseñar subestima el rol de la motivación en el aprendizaje. Si nos anotamos a un curso de programación no fue para entender tipos de datos y cómo se almacenan, o las formas más eficientes de hacer un for. Probablemente haya sido porque alguna vez quisimos hacer algo con datos en la vida real y no sabíamos ni por dónde empezar, porque encontramos restricciones en las herramientas que teníamos a mano (perdonalos Excel, no es su culpa) o no supimos cómo atravesarlas.

Por eso, nada mejor que apalancarse en ese estímulo e impulso inicial para desarrollar el proceso de enseñanza en base a los problemas que van apareciendo en el camino como si fuera, nuevamente, un juego. Es mucho más fácil incorporar en nuestro cerebro qué es un loop o un array cuando esa información es clave para destrabar un problema que no podíamos resolver pero que nos quitaba el sueño (a veces literalmente).

Cuando el cerebro está enganchado con un problema que nos motiva, que nos interesa resolver, que nos hace pensar en ello, es cuando funciona mejor, más conocimiento incorpora y por más tiempo. ¿Por qué nos empecinamos en demorar esa sensación tan linda?

4) Perder el miedo a la estadística

¿Es verdad que hace falta saber estadística y matemática para trabajar con ciencia de datos? Sí. Decir lo contrario sería faltar a la verdad. Pero la visión que se tiene generalmente sobre estas disciplinas también es errónea o fruto de una mala praxis acumulada.

Creo que cualquier conocimiento es alcanzable para cualquier persona. Lo que se necesita (en línea con lo que veníamos diciendo) es motivación, tiempo y una buena guía. La historia de las ideas es mayormente la historia de buenas intuiciones llevadas a fondo y eso es algo que cualquier persona puede aprender.

Si la estadística está bien explicada es una disciplina completamente intuitiva, muy fácil de ser ejemplificada con cosas cotidianas ya que nuestro cerebro utiliza constantemente aproximaciones, cálculos de probabilidad y otras yerbas.

De hecho no solo eso sino que muchas veces trasladamos a la estadística nuestros propios sesgos, formas de razonar que pueden no ser tan rigurosas. Por eso aprender estadística no solo nos va ayudar a comprender la ciencia de datos sino también el propio funcionamiento de nuestro cerebro y decisiones.

Lo mismo pero con otro nombre

5) Perder el miedo a la matemática

La matemática, por su parte, es principalmente una forma de razonar pero sobre todo de expresar las cosas.

“Matemática” según Google

Esos miles de jeroglíficos inentendibles no son más que una forma de expresar pensamientos. Si nos encerramos en un cuarto a tratar de resolver un determinado problema de la vida real, cuando queramos expresar la solución probablemente encontremos formas del lenguaje matemático que nos permitan reducirlo a unos pocos símbolos y convenciones.

Obviamente que la matemática es más que solo símbolos y síntesis pero su rol en la ciencia de datos y el terror que genera muchas veces vienen de ahí. También hay muchos problemas o temas de los que se ocupa la matemática que, si en vez de centrarnos en el desarrollo puramente lógico y formal de los teoremas, los abordáramos desde un punto de vista un poco más filosófico (que es el origen de la matemática) serían probablemente mucho más interesantes y atractivos.

6) Aprender lo básico

Gran parte del aprendizaje de la ciencia de datos se basa en una dualidad: generalización o particularidad. Muchos de los cursos o materiales sobre ciencia de datos buscan enseñar los distintos pasos de la receta sobre cómo cocinar datos de la mejor manera. Y eso está bien. Efectivamente, hay ciertos pasos, reglas y procesos que hay que seguir celosamente para garantizar que lo que hacemos es correcto y para optimizar nuestro tiempo.

Pero la ciencia de datos no termina ahí; por el contrario, recién ahí empieza. Si fuera solo esa serie de pasos, sería muy fácilmente automatizable y en muy poco tiempo desaparecería como campo de estudio o práctica. El motivo por el que no pasa eso, justamente, es porque hay una gran dosis de interpretación, de dotar de significado y de creatividad que es, por el momento, muy difícil de replicar. Ahí está la esencia de la disciplina.

Aplicar lo que llamamos un modelo para resolver un problema es fácil. Cualquiera puede hacerlo y una vez que lo aprendés hasta diría que pierde la gracia. El verdadero desafío está en tratar con la información, en descubrir la manera de relacionarla con otra, en encontrar patrones, tendencias, relaciones, formas de interpretación que desafíen lo ya hecho o conocido. Es decir, jugar con los datos.

Entonces todo esto se trata de aprender las técnicas básicas, la estructura y metodología de trabajo y que eso funcione como soporte para dar rienda suelta a la creatividad, como en cualquier otro arte. Porque sí, la ciencia de datos es, además de un juego, también un arte.

7) Tener un pantallazo general

Decíamos que a la hora de aprender ciencia de datos existe esta tensión entre la generalidad y la especificidad. ¿Cuánto queremos aprender?

Hay una regla del aprendizaje un poco quemada (pero cierta), usualmente conocida como Ley de Pareto. El 80% del conocimiento nos suele llevar un 20% del tiempo de aprendizaje total de una determinada área o disciplina mientras que el 20% restante insume el 80% del tiempo.

Versión simplificada del aprendizaje

¿Qué quiere decir esto? Que con aprender un poco, ya vamos a ser funcionales. Si después nos interesa profundizar en algo, tenemos toda la vida. Para la ciencia de datos, con el 80% de lo que podemos aprender nos alcanza y sobra en la mayoría de los casos. Si queremos ser expertos o expertas en algún tema o área particular, ahí sí probablemente tengamos que obsesionarnos con perseguir ese 20% restante.

Idealmente queremos que nuestro conocimiento sea un océano: profundo y extenso. Sin embargo, en la realidad y dada nuestra presunta no inmortalidad (si sabés de algo que yo no, avisame) solo podemos conseguir una laguna o un hoyo: mucho conocimiento poco profundo o poco conocimiento muy profundo.

En relación a este dilema, la elección es muy personal. Si aceptás una recomendación: siempre es bueno poder tener un pantallazo general antes de meterse en las profundidades de un tema. Sobre todo porque hay cosas en ese pantallazo que seguramente no te sirvan en lo inmediato pero que el día de mañana te van a permitar tener nuevas ideas y no solo repetir lo hecho.

8) Optimizar nuestro tiempo

El dilema del tiempo aplica no solo a nuestra formación sino también al desarrollo de los proyectos. Al enfrentarnos a un problema o desafío, tenemos que determinar cuánto tiempo y recursos tenemos disponibles para resolverlo. y muchas veces la urgencia atenta contra otros factores. Pan para hoy, hambre para mañana. Tenemos que elegir sabiamente en qué casos nos orientamos solo al resultado y la efectividad, en cuáles priorizamos la eficiencia en el uso de los recursos y en cuáles es importante la prolijidad para que la solución sea reutilizable en un futuro.

Las cosas que queremos hacer en ciencia de datos tienen en general muchas soluciones posibles. A su vez, cada una de esas posibles soluciones se relaciona con muchos otros temas, que pueden tener múltiples aplicaciones, soluciones e implementaciones. El problema de entrar en esa espiral de “¿Como hacer esto mejor?” es que podemos terminar así, olvidando cuál fue la motivación inicial que nos llevó a googlear.

¿Quien no terminó alguna vez con mil pestañas abiertas?

Esto que llamamos la paradoja de la elección no solo suele hacernos perder el tiempo sino también generar decisiones que muchas veces no son óptimas.

Paradoja de la decisión con un marcador

Incluso nos enfrentamos a un riesgo grande que es la parálisis. Tengo tantas decisiones que tomar y procesos que mejorar, que termino no sabiendo por dónde arrancar y no hago nada.

La solución a esto en la vida real tiene muchos nombres “cancheros”: pruebas de concepto, modelos base, metodologías ágiles. En criollo sería: avanzá rápido, después lo mejorás y no reinventes la rueda porque probablemente ya haya una solución para lo que querés hacer. Avanzar rápido permite no solo no frustrarse sino también poder tener una perspectiva de la película entera que nos permita valorar cuán importante es mejorar ciertas partes o pedazos de lo que estamos haciendo.

9) Crear productos finales

Hay un aspecto generalmente muy subestimado en el campo que tiene que ver con el diseño de productos. Es decir, todo lo que hagamos en ciencia de datos (calcular, predecir, modelar) tiene un fin práctico y un caso de uso donde debería aplicarse. Pareciera que el trabajo en ciencia de datos termina el día en que logramos alcanzar un buen resultado en nuestra computadora. Por eso hacete siempre la pregunta: “Ok, ¿y esto cómo se usa?”.

Si estás empezando en este mundo, te recomiendo que todo lo que hagas trates de empaquetarlo y presentarlo. Además de dejarte un lindo portafolio para buscar trabajo (guiño guiño), esto te va a obligar a entrar en contacto con disciplinas adyacentes como la visualización de datos o la optimización de experiencias de usuarios (más conocida como UX). Siguiendo el dilema del tiempo del que hablamos antes, a veces es mejor perder algunos grados de rigurosidad en función de ganar usabilidad del producto.

Y esto tiene una explicación muy sencilla: lo que no se usa, no sirve. La comida entra primero por los ojos pero los datos también. Una buena presentación es fundamental. Pero además, en el caso de la ciencia de datos, en un 99% de los casos los productos o casos en los que vas a trabajar no tienen como destinatario final a una persona versada en datos sino más bien a gente que no está familiarizada con este tipo de herramientas, que probablemente tenga un prejuicio o que ni le interese aprenderlo. Esa reacción muchas veces tiene que ver con que de este lado del mostrador hacemos las cosas para que parezcan difíciles, lejanas, inalcanzables. Cortémosla.

Los y las científicas de datos somos, en esencia, también comunicadores y comunicadoras. Tenemos que poder trasladar y traducir lo que trabajamos con técnicas relativamente complejas a productos o conclusiones fáciles de llevar a la práctica. Tenemos que capturar la esencia de lo que estamos analizando y convertirla en un producto que sea fácil, intuitivo y que arroje conclusiones fundamentadas sin necesidad de atravesar todo el proceso que llevó a esas conclusiones. Nuestro humilde trabajo consiste en facilitar y extender el alcance de lo que se puede aprender con datos a un público más grande.

10) Enseñar lo que aprendés

Aunque suene paradójico, otro componente muy importante del aprendizaje de la ciencia de datos es la docencia. No hay forma más efectiva de aprender algo que teniendo que enseñarlo a otras personas. Aprender para enseñar, enseñar para aprender.

Esto tiene que ver, por un lado, con la motivación, exigencia, presión (ponele el nombre que quieras) que una instancia de docencia implica. Es decir, si tengo que enseñarlo a otros y otras es muy probable que sea más riguroso o rigurosa que si lo tengo que aprender para mí. Cuando aprendo algo solo sé que ese aprendizaje es provisorio, que ya tendré tiempo de mejorarlo, que si me equivoco lo puedo ir corrigiendo en el camino. En cambio, cuando enseño eso a otras personas, no puedo errar (o por lo menos tiene un costo emocional más elevado), tengo que dar mi mejor versión.

Pero además, enseñar nos obliga a realizar puentes mentales entre conceptos. Nos demanda explicitar conexiones que estaban implícitas en nuestro cerebro e hilar cosas que ni siquiera sabíamos que se conectaban. Enseñar también nos exige sistematizar, conceptualizar y organizar el conocimiento. Cumple el mismo rol que las visitas externas en una casa desordenada: hoy viene gente a comer así que tengo que limpiar y ordenar.

Otro argumento más a favor de la enseñanza de lo aprendido es que nos lleva a apropiarnos y ponerle nuestras palabras a lo que hicimos. Nuevamente, al aprender leemos, escuchamos, miramos pero en nuestro cerebro todo eso se reelabora. Tener que enseñar lo que aprendimos cierra ese círculo porque nos obliga a expresar y darle una interpretación propia a esos mismos conceptos, ideas o herramientas.

Por eso, siempre lo mejor es aprovechar el conocimiento mientras lo tenemos fresco y tratar de enseñarlo antes de que lo archivemos.

11) Practicar y no estancarse

Lo que no se ejercita, se olvida. En ciencia de datos hay conocimientos básicos de programación o estadística que seguramente no olvidemos nunca por lo esenciales que son. Los repetimos tantas veces que nuestro cerebro ya los automatizó. Sin embargo, la gran mayoría del conocimiento que vamos adquiriendo se pierde o atrofia si no lo ejercitamos.

¿Como practicar? Básicamente, proponiéndote proyectos aunque no sean laborales o no tengan una utilidad inmediata. Hoy en día, dada la disponibilidad de datos públicos, es muy fácil inventarse un caso de uso donde aplicar ciencia de datos. Yo te sugiero empezar por un problema que realmente te interese y después ir a ver qué datos existen para aproximar el problema ya que de otra manera puede que termines con un conjunto de datos que no te interesan, con un problema que tampoco querés resolver y vas a necesitar realmente mucha disciplina para que de eso salga algo interesante.

La sugerencia completa sería entonces: pensá 3 áreas o problemas generales que te interesen. Hacé una búsqueda rápida de los conjuntos de datos disponibles públicamente que existen para esos temas. Ahí empezá a hilar más fino en qué caso de uso propondrías para cada uno de ellos y elegí el que más te interese. No te tomes mucho tiempo para esta exploración inicial, meté mano en los datos rápidamente, eso te va a despertar la curiosidad y seguramente dar mejores ideas sobre qué hacer con los mismos. En algún punto, proponete un producto final, para que puedas darle un cierre al proyecto y tengas un resultado que mostrarte primero a vos mismo o misma y después compartir y enseñar a otros y otras.

Conclusiones

La ciencia de datos es un mundo hermoso. Te lo recomendaría, por sobre todas las cosas, si te gustan los numeritos. Es decir, si te gustan los Excels, si has pasado horas tratando de sacarles jugo, si te interesan los gráficos y la manera de justificar ideas con números, barras y líneas. Si además te gustan la matemática o la estadística, espectacular, pero si no es el caso date una oportunidad porque te aseguro que si están bien enseñadas no hay manera de que no te gusten.

Orientate a lo práctico. Tratá de tener un pantallazo general antes de meterte a fondo en algo pero siempre, siempre, perseguí las cosas que te motivan. Aunque parezca que no tiene nada que ver, todo eso al final del camino se va a terminar conectando.

No pierdas tiempo en planificar lo que te gustaría aprender: mandate a hacerlo. Arrancá por un curso cualquiera y eso solo te va a ir llevando por tu propio camino. Siempre tengo a mi lado a mi Google, dirían Los Redondos de la ciencia de datos.

Buscate buenas guías. Gente que explique con palabras comunes y que no complique demasiado las cosas. Si encontrás más gente que te acompañe en el camino y que quiera aprender con vos, genial. Te diría que seas constante pero la clave para eso es que encuentres cosas que te motiven, sino la constancia se vuelve más una carga que otra cosa y puede que el resultado final sea que odies este campo o sientas que no es para vos.

No te obsesiones de más con la rigurosidad matemática o formal, ya habrá tiempo para eso. Hoy en día marca más la diferencia la persona que se orienta a resultados prácticos, quien pueda tomar un problema del que nada conoce, investigarlo y entregar un producto que cualquier persona sin mayores conocimientos pueda utilizar.

Practicá, dedicale tiempo, apasionate y tratá de sistematizar lo que aprendiste. Primero, registrando como fue el proceso de aprender eso y luego intentando enseñarlo a otra gente.

Pero sobre todas las cosas, que nadie te haga creer que no podés, que no es para vos, que es demasiado complicado. Es solo gente egoísta que quiere guardarse para sí el secreto de que trabajar con datos es hermoso y que al final de cuentas lo que importa es lo que tenemos para decir.

Si te gustó, dejate algún comentario. Sino, más todavía, me interesa leerte. Y sino, la seguimos por Twitter con insultos de por medio.

--

--

Tomás Reneboldi

Head of Operations LATAM at Digodat - MightyHive // Economist and data scientist (UBA) // Twitter: @TReneboldi