Javier Jiménez

La sabiduría popular lo tiene claro, un científico de datos (undata scientist) es “un estadístico que trabaja en San Francisco”. Y es que, desde hace unos años, esta profesión está de moda gracias, en parte, al mundo startupil. Perola ciencia de datos va mucho más alláy está convirtiéndose en una de las profesiones más prometedoras de hoy en día.

La fiebre de los datos ha hecho que empecemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si esuna moda pasajerao los científicos de datoshan venido para quedarse. Repasamos qué es exactamente eso de ladata science, sus oportunidades laborales y las posibilidades que existen para formarse.

¿Qué es un científico de datos?

Otra forma de verlo es la deJosh Wills. Wills usaotra definiciónque me parece mucho más acertada e intuitiva: “Científico de datos (n): Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico”. Un poco más en serio, un científico de datos es sencillamente un profesional dedicado aanalizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.

¿Por qué se ha puesto de moda?

La respuesta nos la dabaJavi Pastor: la tecnología actual no solo necesita del mejor talento sino dedatos, mucho datos. Muchos. Es decir, que la moda por lo abierto y el giro hacia los datos no es más que la enésima máscara del mismo espíritu corporativo de siempre buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.

Lo curioso es que este gran valor de los datos contrasta con que precisamente los datos son el recurso más abundante del planeta. Se calcula quela cantidad de datosque había en el mundo a principios de este 2020 era de aproximadamente 44 zettabytes. Es decir, que el número de bytes en el universo digital era 40 veces mayor que el número de estrellas en el universo observable. No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es,lo complejo es procesarlos.

Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma, nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos antela primera gran ‘democratización’ de estas técnicas. Y, con ello, el boom de los científicos de datos: nadie quiere tener una mina de oro sin aprovechar.

En busca de un científico de datos

El problema es que todo esto ha conllevado que surgierauna gran demanda de un perfilque hasta hace no mucho prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.

La mayor parte de las veces se ha solucionado conformación autodidactaque completalas habilidades básicas que debería tener programa formativopero no tiene. Por eso, hoy por hoy, podemos encontrar una gran diversidad de perfiles profesionales en el mundo de la ciencia de datos.

Si analizamos losdatos del portal de empleo Indeed, los científicos de datos provienen de los campos de estudio más diversos (los ingenieros de software estarían justo en el extremo opuesto). La mayoría, eso sí,tienen una formación eminentemente técnica, aunque hay un 5% de ellos que provienen de las ciencias sociales. Además, llama la atención que ya hay un 9% de científicos de datos que provienen de estudios específicos en la materia. Algo que sorprende puesto que, hasta hace no mucho, no había programas universitarios de ciencia de datos.

Según estos mismos números, los científicos de datos son los profesionales que más estudios de doctorado suelen tener, aunque no sea algo necesario: uno de cada 5 científico de datos tiene una titulación de este rango.

Cómo formarse

A día de hoy, algunas unviersidades ofrecen ya grados de titulación para ser un científico de datos, comoGrado de Ciencia de Datos Aplicada/Applied Data Sciencede la Universitat Oberta de Catalunya,Grado en Ciencia de Datosde la Politécnica de Valencia,Grado en Ciencia de Datosde la Universidad de Valencia oGrado en Ciencia de Datosde la Universidad Europea.

Existenalgunos grados doblesen ingeniería informática y matemáticas (Autónoma de Madrid,Granada,Politécnica de Cataluña,Complutense,MurciaAutónoma de Barcelona) o en informática y estadística (Universidad de Valladolid).

El de los posgrados esun mundo muy diverso. Podemos encontrar posgrados, másteres o cursos de especialización en casi todas las universidades y una oferta privada realmente desmesurada. Por poner algunos ejemplos tenemos posgrados en laUAB, laUPMo laPompeu Fabra. De todas formas, en posgrados es más difícil recomendar un curso en concreto. La clave está en buscar complementar nuestra formación previa y, en ese sentido, la diversidad es una buena noticia.

Cabe recordar, además, que en la formación de posgrado se prima mucho el componente de ‘orientación de negocio’ que a veces escasea en las titulaciones universitarias. No debemos olvidar que la mayor parte del trabajo de los científicos de datos está en empresas que buscan rentabilizar sus bases de datos, porque lo que la orientación al mercado es algo muy recomendable. De hecho, muchos de los másteres en ‘big data’lo ofrecen escuelas de negocioscomoOEIoInstituto Empresa.

Uno de los recursos más interesantes que podréis encontrar sonlos moocs(ya sabéis, los cursos abiertos masivos online). De hecho hace poco, vimos que esta opción autoformativapodía tener mucho futuro. Empezando porel programa de especialización en big data de Coursera, podemos encontrar cursos online de las mejores universidades del mundo. Todo esto sin hablar de las numerosas herramientas para aprender lenguajescomo PythonoR.

También existen una serie decertificados o acreditacionesque permiten avalar nuestros conocimientos en ciencia de datos: elCertified Analytics Professional(CAP),Cloudera Certified Professional: Data Scientist(CCP:DS), el Open Certified Data Scientist (Open CDS) o los que ofrecen algunas empresas, comoEMC: Data Science Associate(EMCDSA),los de SAS, el de GoogleCertified Professional Data Engineer, el IBM Data Science Professional Certificate (disponible en Coursera) o el de MicrosoftCertified Azure Data Scientist Associate. Algunos de estos certificados tienen unos requisitos muy duros pero son una buena alternativa si hemos estado trabajando en este campo con anterioridad.

Otros recursos interesantes son las asociaciones (comoR HispanooPython España) y losgrupos informalestipoDatabeersque tanto éxito están teniendopor todoel país. Además, bastabuscar en MeetUppara darse cuenta de la diversidad de eventos y reuniones en data science que hay creados.

¿Qué lenguajes hay que aprender?

En realidad, como cualquier iniciado sabe, en programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales.Lo que sí está claro es que hay algunos lenguajesmás populares que otrosy que estos también van cambiando con el tiempo y según avanza esta ciencia de datos.

Unestudio de Kaggle de 2018reveló que Python, SQL y R son los lenguajes de programación más populares. El de más aceptación, con diferencia, fue Python (el 83% de los encuestados lo usaban). Además, 3 de cada 4profesionales de datos recomendaronque los aspirantes a científicos de datos aprendan Python primero.

Un insustituible

La gran división

Aunque el sentido común nos dice quecada uno de los lenguajes es mejor para determinadas cosas,en la práctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No sólo porque es más bonito, sino porque es multipropósito y eso siempre es una ventaja.

Un incombustible

El hermano corporativo y otros lenguajes y programas

Algunos lenguajes o entornos gozan de cierto éxito empujados por la inercia corporativa: es el caso del clásicoMatlabpero ha ido oscilando su uso y ahora está en el 14%.

Si examinamos las encuestas podemos encontrar muchos más lenguajes que obedecen a necesidades más particulares de la práctica de los científicos de datos (o de los programas que usan):Scala(17%),Slack(10%),Perl(12%), C# (6%), Mahout (3%), Apache Hadoop (13%) o Java (23%).

También, aunque es posible que debiéramos hablar de ellos por separado, haymuchos programas específicos(libres o privativos) que se usan en la ciencia de datos con distintos usos. Por poner algún ejemplo, podríamos hablar deTableau,RapidMinero deWeka.

El mercado laboral: sueldos y oportunidades

Los sueldos, como en general en el mundo del desarrollo de software, cambian mucho dependiendo dellugar, las funciones y el empleador. SegúnGlassdor, el sueldo base para un Data Scientist en España se sitúa, de media, en los 35.394 euros al año. Una cifra similar a la que también ofrecePayScale, que lo sitúa en so 35.925 euros.

En Estados Unidos la cifra es mucho más abultada: 124.251 dólares al año, segúnIndeed.

No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. Mientras elsalario medio en Estados Unidoses de 50.965 euros al año (4.247 euros al mes), el salario medio español se sitúa en 1.658 euros brutos mensuales,según Adecco Institute.

Puede que el mercado haya ido madurando y, por tanto, los salarios también se hayan ido reajustando a la oferta y la demanda. Pero también parece que en el futurose seguirán necesitando científicos de datosque sean capaces de extraer el valor de toda la información que estamos generando.

Imágenes |Jer Thorp,Alan Levine,Opensource,Tax Credits,yaph