Machine learning: caso Hashtag
Dado que hoy en día todos los dispositivos que usamos almacenan data; cargan data sobre nuestras preferencias y búsquedas; dicha data puede ser usada en diferentes ámbitos. Siendo entonces especialmente aplicado, en el mundo del maketing. Siendo este ultimo punto, el porque BigData, Datamining y MachineLearning, han ganado especial atención en los últimos años.
Un ejemplo claro del uso de Machine learning, lo encontramos en Netflix, Facebook, Twitter, Google, Steemit, etc.
Antes de irnos de lleno al tema de los HashTags, creo conveniente y respetuoso de mi parte, hacer una breve introducción a Machine Learning.
En 1950 se publicó el Paper "Computing Machinery and Intelligence", de Alan Turing, donde pregunto: "Can machines think?" "¿Pueden las maquinas pensar?", mientras describía el "Imitation game". The imitation game, es un juego que involucra 3 participantes. El 1ro, un jurado, el 2do, un humano y el 3ro, un computador. El jurado basicamente, no puede ver , ni oir a ninguno de los concursantes, pero debe determinar quien es el humano, en base a las respuestas. En la actulidad, este juego determina con su premio a los mejores algoritmos en el area de Artificial Intelligence. Para mayor información sobre este premio pueden visitar: "Loebner Prize".
Entre muchas definiciones de Machine learning, una de mis favoritas, viene de la mano de Arthur Samuel (1950), quien define:
o mi personal:
Ahora bien, al hablar de los ya conocidos Hashtags, hablamos de una técnica de Machine learning, conocida como "Supervised Learning"; Esta técnica, se refiere a aprender con un conjunto de etiquetas o Training data. Esto quiere decir, que para cualquier etiqueta de entrada, se tiene una clasificación de salida. Un ejemplo de ello, es la clasificación que usa Twitter o Instagram.
Asumamos que tenemos la siguiete información:
"Estamos procesando millones de datos en segundos gracias a Hadoop #data #hadoop".
Como se puede imaginar, para que esta clasificación funcione o tenga sentido, se debe ingresar la data de entrenamiento. Pero para ello, existen algoritmos, encargados del entrenamiento, temas que podría explicar, si es de vuestro agrado (Dejandome un comentario ;) ).
Existe diferentes algoritmos a la hora de usar los hashtags, que son provistos por los prestadores de servicios (Twitter, Facebook, Instagram, etc). Veamos a forma de ejemplo, que alguien posteo el siguiente mensaje:
Posteriormente, un usuario podrá buscar la cadena #OdioLosLunes y este mensaje estará presente en los resultados de la búsqueda junto con otros mensajes con la misma hashtag.
En este caso anterior, hablamos de un coincidencia o búsqueda de un Hashtag, donde queremos el 100% de las coincidencias, pero básicamente, podríamos querer todas las coincidencias que existen para un grupo en especifico, por ejemplo #pic #photo #fotos #photography, son todos hashtags que pertenecen a una misma area, por lo que podría un buscador proporcionarnos todas las coincidencias para esa determinada área. La pregunta es ¿como hace el computador para clasificar esta data?
Como ya se dijo anteriormente, para entrenar la data, se usan algoritmos supervisados y no supervisados. Estos pueden sin nuestra intervención, crear clasificaciones y nuevas regiones y subregiones.
Los hashtags son solo la punta del Iceberg en el área de Machine learning. Sus usos, pueden llegar a ser tanto positivos como negativos.
Un ejemplo famoso del mal uso de machine learning, ocurrió en la tienda en linea "Andrew Pole", el cual analizaba las búsquedas de sus usuarios y su carrito de compras, tomándose la libertad de enviar ofertas/cupones a sus usuarios. Su mala practica, comenzó, cuando enviaron cupones de descuento a chicas embarazadas, las cuales aun no habían comentado a sus padres sobre su embarazo y debido a los cupones, la noticia se hacia publica.
Pero no todas las noticias son malas. Existen diferentes áreas, donde la ayuda de machine learning, brinda y brindó información útil y positiva. Algunos ejemplos son:
Ya para finalizar, debemos saber que toda la información que usamos, esta siendo analizada y clasificada. Así que no me queda mas que decir, que debemos tener cuidado con la información que compartimos o subministramos.
Fuentes:
(1) Machine learning - Hands-on for developers and technical proffesionals. Jason Bell. ISBN-10: 1118889061
(2) Wiki - Hashtags (https://es.wikipedia.org/wiki/Hashtag)
(3) LIBSVM (https://www.csie.ntu.edu.tw/~cjlin/libsvm/)
(4) Weka SVM Lib (https://weka.wikispaces.com/LibSVM)
@originalworks
Instagram: https://www.instagram.com/diAvokato/
Flickr: https://www.flickr.com/photos/145856611@N05/
Un ejemplo claro del uso de Machine learning, lo encontramos en Netflix, Facebook, Twitter, Google, Steemit, etc.
Antes de irnos de lleno al tema de los HashTags, creo conveniente y respetuoso de mi parte, hacer una breve introducción a Machine Learning.
En 1950 se publicó el Paper "Computing Machinery and Intelligence", de Alan Turing, donde pregunto: "Can machines think?" "¿Pueden las maquinas pensar?", mientras describía el "Imitation game". The imitation game, es un juego que involucra 3 participantes. El 1ro, un jurado, el 2do, un humano y el 3ro, un computador. El jurado basicamente, no puede ver , ni oir a ninguno de los concursantes, pero debe determinar quien es el humano, en base a las respuestas. En la actulidad, este juego determina con su premio a los mejores algoritmos en el area de Artificial Intelligence. Para mayor información sobre este premio pueden visitar: "Loebner Prize".
Entre muchas definiciones de Machine learning, una de mis favoritas, viene de la mano de Arthur Samuel (1950), quien define:
Area, donde se le da a las computadoras la habilidad de aprender, sin tener que ser explicitamente programadas
o mi personal:
Parte de la inteligencía artificial, usada para diseñar sistemas que aprendan de la data, de forma que se puedan entrenar.
Ahora bien, al hablar de los ya conocidos Hashtags, hablamos de una técnica de Machine learning, conocida como "Supervised Learning"; Esta técnica, se refiere a aprender con un conjunto de etiquetas o Training data. Esto quiere decir, que para cualquier etiqueta de entrada, se tiene una clasificación de salida. Un ejemplo de ello, es la clasificación que usa Twitter o Instagram.
Asumamos que tenemos la siguiete información:
"Estamos procesando millones de datos en segundos gracias a Hadoop #data #hadoop".
Clasificación | Texto |
bigdata | #data |
bigdata | #hadoop |
Como se puede imaginar, para que esta clasificación funcione o tenga sentido, se debe ingresar la data de entrenamiento. Pero para ello, existen algoritmos, encargados del entrenamiento, temas que podría explicar, si es de vuestro agrado (Dejandome un comentario ;) ).
¿Como funciona entonces un hashtag?
Existe diferentes algoritmos a la hora de usar los hashtags, que son provistos por los prestadores de servicios (Twitter, Facebook, Instagram, etc). Veamos a forma de ejemplo, que alguien posteo el siguiente mensaje:
Apenas aproveché el fin de semana y hoy tengo que volver al trabajo. #OdioLosLunes
Posteriormente, un usuario podrá buscar la cadena #OdioLosLunes y este mensaje estará presente en los resultados de la búsqueda junto con otros mensajes con la misma hashtag.
En este caso anterior, hablamos de un coincidencia o búsqueda de un Hashtag, donde queremos el 100% de las coincidencias, pero básicamente, podríamos querer todas las coincidencias que existen para un grupo en especifico, por ejemplo #pic #photo #fotos #photography, son todos hashtags que pertenecen a una misma area, por lo que podría un buscador proporcionarnos todas las coincidencias para esa determinada área. La pregunta es ¿como hace el computador para clasificar esta data?
Training Data
Supongamos los siguientes Hashtags | #pic #photo #fotos |
Los siguientes colores identifican el uso de cada una de estas hashtags: #pic (rosa), #photo (amarillo), #fotos (azul). Siendo los puntos en la imagen, diferentes publicaciones de diferentes usuarios. | |
Una clasificación sobre las diferentes áreas, sería: | |
Ahora bien, supongamos que dentro de millones de temas, solo queremos ver las fotos de Sevilla. | Esto es posible, puesto que fotografia y sus sinónimos, pertenecen a una subarea al igual que Sevilla, así, permitiendo clasificaciones sobre regiones mas grandes o pequeñas. |
Como ya se dijo anteriormente, para entrenar la data, se usan algoritmos supervisados y no supervisados. Estos pueden sin nuestra intervención, crear clasificaciones y nuevas regiones y subregiones.
Los hashtags son solo la punta del Iceberg en el área de Machine learning. Sus usos, pueden llegar a ser tanto positivos como negativos.
Positivo y negativo
Un ejemplo famoso del mal uso de machine learning, ocurrió en la tienda en linea "Andrew Pole", el cual analizaba las búsquedas de sus usuarios y su carrito de compras, tomándose la libertad de enviar ofertas/cupones a sus usuarios. Su mala practica, comenzó, cuando enviaron cupones de descuento a chicas embarazadas, las cuales aun no habían comentado a sus padres sobre su embarazo y debido a los cupones, la noticia se hacia publica.
Pero no todas las noticias son malas. Existen diferentes áreas, donde la ayuda de machine learning, brinda y brindó información útil y positiva. Algunos ejemplos son:
Software | Para probar la experiencia del usuario, comportamiento de forma de programar mejor software. |
Detección de Spam | Permite detectar, lo que un usuario considera mensajes spam. |
Reconocimiento de voz | Siri, contiene algoritmos basados en machine learning. |
Inversores de bolsa | básicamente, los algoritmos usados buscan analizar los datos para estimar mejores posibilidades de inversión. Ej. Bitcoins. |
Rebotica y Medicina | Son ejemplos clásicos de este tipo de algoritmos. |
Ya para finalizar, debemos saber que toda la información que usamos, esta siendo analizada y clasificada. Así que no me queda mas que decir, que debemos tener cuidado con la información que compartimos o subministramos.
Fuentes:
(1) Machine learning - Hands-on for developers and technical proffesionals. Jason Bell. ISBN-10: 1118889061
(2) Wiki - Hashtags (https://es.wikipedia.org/wiki/Hashtag)
(3) LIBSVM (https://www.csie.ntu.edu.tw/~cjlin/libsvm/)
(4) Weka SVM Lib (https://weka.wikispaces.com/LibSVM)
@originalworks
Instagram: https://www.instagram.com/diAvokato/
Flickr: https://www.flickr.com/photos/145856611@N05/