Como ya comentamos en un post anterior, a través de web scraping, disponemos de un considerable volumen de información. En el caso que nos ocupa, información que proviene de un foro de discusión online. Lo que estaba en formato html lo hemos convertido en una hoja de cálculo en la que cada fila representa un mensaje y con una serie de columnas que contienen las piezas de información asociadas a cada uno de ellos.
Esto quiere decir que manejamos datos cuantitativos pero también una columna en la que se almacenan todos lo mensajes publicados. Son algo más de millón y medio de caracteres para los que ahora hay que buscar una buena herramienta de análisis.
Escribo este post para introducir la cuestión de las técnicas básicas de análisis masivo de texto. En general, suelen ser herramientas específicas para diferentes cometidos. Por ejemplo, quienes trabajan en traducción o lingüistica necesitan analizar textos y disponen de herramientas adecuadas para ello. Para hacernos una idea general de lo que hablamos podemos tomar la referencia de la Wikipedia:
The term text analytics describes a set of linguistic, statistical, and machine learning techniques that model and structure the information content of textual sources for business intelligence, exploratory data analysis, research, or investigation. The term is roughly synonymous with text mining; indeed, Ronen Feldman modified a 2000 description of «text mining» in 2004 to describe «text analytics». The latter term is now used more frequently in business settings while «text mining» is used in some of the earliest application areas, dating to the 1980s, notably life-sciences research and government intelligence.
Es decir, que cabe entender un conjunto global de análisis pero dentro del cual caben diferentes orientaciones según el fin. En el mismo artículo de la Wikipedia se cita un artículo de la profesora Marti A. Hearst, de la Escuela de Información y Sistemas de la Universidad de Berkeley, Untangling Text Data Mining, que aporta una de las claves para sacar partido hoy en día a estos análisis: la necesidad de complementar lo que procede del puro análisis computacional con la mirada del humano que introduce orientaciones para guiarlo.
Para terminar, os dejo enlaces a dos buenas colecciones de herramientas, de pago y gratuitas:
- Top 23 free software for text analysis, text mining and text analytics
- Top 47 software for Text Analysis, Text Mining, Text Analytics
Pues en ello estamos en estos momentos, en localizar alguna herramienta que nos permita extraer ciertas pautas del texto de los mensajes y visualizar su contenido.
Hola, te recomiendo NVIVO, la versión 11 te da 15 días de prueba y la 10 te da un mes
Gracias por la información. Lo miro 🙂