Sie sind auf Seite 1von 9

NLTK

(Natural Language Toolkit)


( Kit de Herramientas de Lenguaje Natural)
DE QUE SE TRATA
El kit de herramientas de lenguaje natural, o más comúnmente NLTK, es un conjunto de bibliotecas y programas para el procesamiento del lenguaje
natural (PLN) simbólico y estadísticos para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra. Se
acompaña de un libro que explica los conceptos subyacentes a las tareas de procesamiento del lenguaje compatibles el toolkit,2​ además de programas
de ejemplo.3​ NLTK está destinado a apoyar la investigación y la enseñanza en PLN o áreas muy relacionadas, que incluyen la lingüística empírica, las
ciencias cognitivas, la inteligencia artificial, la recuperación de información, y el aprendizaje de la máquina.4​ NLTK se ha utilizado con éxito como
herramienta de enseñanza, como una herramienta de estudio individual, y como plataforma para los sistemas de investigación de prototipos y
construcción.

2
RELEVANCIA
El NLTK es importante por razones científicas, económicas, sociales y
culturales. La PNL está experimentando un rápido crecimiento a medida que
sus teorías y métodos se implementan en una variedad de nuevas
tecnologías lingüísticas. Por esta razón, es importante que una amplia gama
de personas tengan un conocimiento práctico de la NLTK. Dentro de la
industria, esto incluye personas en la interacción persona-computadora,
análisis de información empresarial y desarrollo de software web. Dentro de la
academia, incluye personas en áreas de informática de humanidades y
lingüística de corpus a través de la informática y la inteligencia artificial. (Para
muchas personas en el mundo académico, la NLTK se conoce con el
nombre de "Lingüística computacional").
Este libro está dirigido a una amplia gama de personas que desean aprender
cómo escribir programas que analicen el lenguaje escrito,
independientemente de la experiencia previa en programación:

3
THIS IS A SLIDE TITLE
◈ Here you have a list of items
◈ And some text
◈ But remember not to overload your slides
with content
Your audience will listen to you or read the
content, but won’t do both.
4
EJEMPLO
5
Lo primero es importar los textos, esto creara unas variables text<n>, cada una contiene el contenido completo del libro

Hay que seleccionar el “corpus” Book, tengan en cuenta que si todo está correctamente instalado, debiera
abrirse un ventana gráfica (Si se cuenta con TKinter/Tcl) o bien la selección se haría en modo texto.

Lo primero es importar los textos, esto creara unas variables text<n>, cada una contiene el contenido
completo del libro .
Conceptualmente, un objeto nltk.text no es más que una lista ordenada de tokens, siendo esto la unidad
mínima de un texto, simplemente palabras o signos de puntuación. Esto podemos verlo fácilmente de la
siguiente manera

Un token o también llamado componente léxico es una cadena de caracteres que tiene un significado
coherente en cierto lenguaje de programación.

6
Conceptualmente, un objeto nltk.text no es más que una lista ordenada de tokens,
siendo esto la unidad mínima de un texto, simplemente palabras o signos de
puntuación. Esto podemos verlo fácilmente de la siguiente manera

Si revisáramos el texto en la carpeta nltk_data/corpora/gutemberg, veríamos en el caso


del archivo de “Moby Dick” que justamente comienza de la siguiente forma:

Vemos entonces que “tokenización” que se hizo hace algunas cosas


interesantes y para nada triviales:
Separa convenientemente signos de puntuación y palabras
Elimina caracteres en blanco y saltos de línea
EJEMPLO
8
GRACIAS!

Das könnte Ihnen auch gefallen