Hola, esta semana vamos a dedicarnos a dar unos primeros pasos en la modelización en Big Data. Ya hemos visto a grandes rasgos cuáles son las principales características que debemos prestar atención, pero ahora vamos a empezar a hacer paso a paso cada uno de los objetivos de nuestro análisis. En concreto, en este vídeo vamos a centrarnos en el objetivo el cual queremos modelizar. A grandes rasgos, hemos comentado que el proceso de modelización consiste en resumir una gran información de datos de algún modo, con el objetivo de dar resultado a algún problema que tengamos que resolver. En este marco, ¿cómo lo vamos a tratar? Lo que tratamos es de describir estos datos o descubrir ciertos patrones, en base a querer poder resolver algún tipo de problema concreto, y esto lo hacemos utilizando algunas restricciones que tengamos o patrones que debamos tener en cuenta. Las características que diferencian estos datos que vamos a tratar con los datos que se conocen en la estadística habitual es que tenemos datos complejos, dinámicos, voluminosos y heterogéneos. Eso, esencialmente lo que quiere reflejar es que, cuando hablamos de Big Data, los datos pueden ser cambiantes a lo largo del tiempo, pueden presentar complejidad, pueden estar no estructurados, y esto podría ser una manera de describirlo como "datos heterogéneos". Cada uno de estos componentes va a hacer que el problema sea algo más complejo que utilizar la estadística habitual. A pesar de eso, es importante dar énfasis de que todas las técnicas que se hallan en desarrollo dentro del mundo de Big Data, se basan de algún modo en la estadística habitual, por lo cual vamos a centrar esta semana justamente en hacer una revisión de estos métodos, que son la base de las técnicas más avanzadas en Big Data. Como el objetivo es plenamente didáctico, presentamos un conjunto muy sencillo de datos. Para nada refleja la complejidad de Big Data, pero, sí esta sencillez de los primeros pasos que uno debe tener en cuenta cuando hace este tipo de modelización. Así que, empecemos por algo relativamente sencillo, muy sencillo. Aquí podemos ver, simplemente tenemos dos columnas "X", "Y", con valores numéricos, y nos están mostrando el resultado de ciertas observaciones. "Y", normalmente va a denotar la respuesta, aquello que queremos modelizar. Hay una tercera columna, que entraremos después en detalles, sólo hacer hincapié de que esta va a ser la mínima base de datos que uno tiene en mente cuando hace modelización. Fijémonos que, si prescindimos de las observaciones que tenemos en pantalla, y sólo nos centramos en la respuesta, en la variable "Y" en esta columna, un modelo, en función de cuál sea el objetivo, podría ser simplemente el valor 5,95. El valor 5,95 corresponde a la media de estas observaciones. Pues, esto es un primer modelo. Un modelo simplemente es dar un valor o dar una respuesta a una situación concreta que queremos analizar. En este caso, con este valor estamos utilizando como modelo un sólo valor, y estamos prescindiendo de toda la complejidad de información que puede haber a nuestro alcance. Así que, lo podríamos catalogar del modelo más sencillo. Pero, un modelo más sencillo no quede aquí, porque aún podríamos pensar en un modelo que fuera 9,1 o 0,6. Observamos que 9,1 corresponde al máximo que toma esta columna de valores y 0,6 corresponde al mínimo valor de esta columna de valores. Así que, ¿cuál sería la diferencia entre estos modelos tan sencillos? Pues, justamente el objeto, el objetivo de modelo, cuál es el diferente objetivo de modelo. Si observamos, cuando estamos haciendo el modelo con 5,95, este modelo tan sencillo, intenta predecir o se acerca a predecir el comportamiento promedio de mi variable o de mi respuesta. Si en cambio pongo el valor 9,1, lo que estoy intentando modelar de algún modo es el mayor caso que voy a observar, así que, fijémonos que, dependiendo del objetivo, incluso el modelo más sencillo ya tiene varias respuestas. Fijémonos, en el caso de 9,1 puede parecer como fuera del alcance o que no era relevante, pero, si pensamos en que esto pudieran ser perdidas, por ejemplo, estamos en el ámbito financiero y eso correspondiera a ciertas pérdidas de cierta línea de negocio, pues, centrarnos en el peor de los casos en este 9,1, en las máximas pérdidas, podría ser de relevante interés, más allá de saber ese valor promedio. Así que, este es el primer paso y debe ser esencial que, cuando tengamos unos datos, fijamos muy bien cuál es nuestro objetivo. En cualquier caso, sea cual sea el objetivo, nos vamos a encontrar con el escenario global de cómo afrontamos o qué rol juega el modelo dentro de nuestro problema, de esta resolución del problema. Un modelo, como podéis ver aquí, es simplemente la parte de una fórmula que corresponde a respuesta igual a modelo más incertidumbre. Ese debe ser el esquema que tengamos siempre en mente. Cuando hacemos un modelo, y todo lo que vamos a explicar va a ser tentativo a llenar la parte correspondiente al modelo, aún nos queda por determinar la incertidumbre. Es modelo más incertidumbre, estas dos piezas, las que nos van a dar una respuesta al modelo. Aquí tampoco termina la complejidad, puesto que la respuesta al modelo muchas veces requiere de una posinterpretación, para realmente llegar a nuestro objetivo. Así por ejemplo, en el que acabamos de ver con estos pequeños datos, el objetivo podría ser predecir el valor de "Y" que uno espera observar. El valor que uno espera observar se puede corresponder al promedio, al valor esperado. Tiene relevancia utilizar la palabra "esperado", si tiene una connotación desde el punto de vista matemático, correspondería a la esperanza matemática. En cualquiera de los casos, formalmente el objetivo sería predecir el valor que espero observar. En este caso, el modelo sería 5,95, y aquí no termina la respuesta, porque la respuesta observemos que será justamente el 5,95 más la incertidumbre, así que nuestra respuesta es el valor que uno espera observar es 5,95 más una incertidumbre que aporta el modelo. Esta incertidumbre siempre viene asociada al modelo, así que en cada caso vamos a tener que buscar diferentes metodologías que nos den información de esta incertidumbre. Eso es un paso que en Big Data hallar esa incertidumbre resulta realmente complejo, mucho más hallar el modelo. Finalmente, algo que tenemos que tener claro, habíamos comentado en vídeos anteriores que es muy importante cuando fijamos el objetivo, cuando fijamos cuál es nuestro problema, distinguir los problemas de clasificación y regresión. Esto va a ser esencial, así que algo más allá de decidir cuál es el objetivo va a ser clasificar qué tipo de modelos necesitamos. Así que fijémonos, ahora sí, en las tres columnas de nuestra tabla. Si nuestro objetivo fuera predecir el valor de "Y" o alguna propiedad sobre la variable "Y", estaríamos con un problema de regresión. En cambio, si nos centramos en una variable de tipo categórica, que sería la tercera columna, que sólo toma dos valores "0" y "1", nuestro problema sería de clasificación. Pero, hay que tener en mente que podemos tener problemas como un problema que tenga una variable cuantitativa, una variable aparentemente numérica y que podría dar lugar a un problema de regresión que, en función del objetivo, se puede transformar en un problema de clasificación. Por ejemplo, podríamos tener como objetivo no predecir cuál es el valor de "Y" o el valor esperado de "Y", podríamos pretender decir cuál es la probabilidad de que "Y" tome un valor mayor que, por ejemplo, tres o cuatro. En este caso, si pretendo predecir la probabilidad de que "Y" tome cierto conjunto de valores, debería categorizar la variable "Y", entonces, pasaría a tener una variable categórica como por ejemplo la tercera columna, mi problema se convertiría en un modelo de clasificación, a pesar de que mi variable respuesta tomara valores numéricos. Habiendo dado énfasis de estos dos puntos claves, que es clasificar o tener muy claro el objetivo, y en base a esto decidir qué tipo de modelo necesito, si regresión o clasificación, daremos paso a los próximos capítulos donde vamos a centrarnos en modelización.