En el proyecto 2 de lilio Lee Vaughn vamos a usar un programa en Python que utilice la estilometría para determinar si Sir Arthur Conan Doyle o Wells H. G. escribió la novela The Lost World. U
Para determinar la longitud he aplicado el codigo del libro i me ha dado el siguente grafico en el que se puede ver que Doyle y el libro perdido tienen similitud en lineas cuando nos concentramos en menos datos.
NLTK (Natural Language Toolkit) es una plataforma líder para crear programas en Python que trabajen con datos del lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 corpus y recursos léxicos como WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para clasificación, tokenización, stemming, etiquetado, análisis sintáctico y razonamiento semántico, envoltorios para bibliotecas NLP industriales y un foro de discusión activo.
NLP (Natural Language Processing) es el área de estudio centrada en cómo los ordenadores entienden el lenguaje humano, lo interpretan y procesan.
La estilometría se utiliza a menudo para atribuir la autoría a documentos anónimos o de autor dudoso. La estilometría moderna se apoya en los ordenadores para el análisis estadístico, inteligencia artificial, y en el acceso al creciente corpus de textos disponibles en internet. La uasremos para determinar el autor.
Neocities