Procesamiento del Lenguaje Natural para Recuperación de Información
Recuperación y acceso a la información
Modelos ocultos de Markov
El modelo de comunicación esta representado por la probabilidad de emisión de una palabra en un estado dado (la probabilidad de la palabra depende solo de la etiqueta), la descripción General del sistema se modeliza como un conjunto finito de estados, en el que pasado un intervalo de tiempo, el sistema cambia de estado de acuerdo a unas probabilidades asociadas a las transiciones entre estados.
Dos tipos de modelos:
Modelos
Visibles:
—Cada
estado tiene asociado un
´unico proceso observable.
—La salida del estado no es aleatoria.
Modelos Ocultos:—La salida del estado no es aleatoria.
—En cada estado hay varios
tipos
de observaciones con diferentes probabilidades.
— Modelo doblemente aleatorio:
— Modelo doblemente aleatorio:
a) trasiciones entre estados
b)observaciones asociadas.
b)observaciones asociadas.
—Uno
de los procesos no es observable directamente
Ejemplo:
Tenemos una serie de urnas en las que hay bolas de diferentes colores. No conocemos cuantas bolas de cada color hay en cada urna.
Tenemos una serie de urnas en las que hay bolas de diferentes colores. No conocemos cuantas bolas de cada color hay en cada urna.
P(color
1) = b11
Lema 1
...
Lema N
P(color M) = b1M
...
P(color 1) = bN1
P(color M) = bNM
...
Lema 1
...
Lema N
P(color M) = b1M
...
P(color 1) = bN1
P(color M) = bNM
...
Urnas = Estados
Color = Observación
Queremos saber cual es la secuencia de urnas más probable dada una secuencia de colores.
Para modelizar etiquetas en PLN:
Color = Observación
Queremos saber cual es la secuencia de urnas más probable dada una secuencia de colores.
Para modelizar etiquetas en PLN:
- Estados = Etiquetas (Urnas)
- Observaciones = Palabras (Colores)
- Secuencia de Observaciones = Frases del texto
- Instantes de tiempo = Posiciones dentro de la frase
Es posible una misma palabra (color) en distintas etiquetas (urnas), lo que da lugar a ambigüedades. El mismo color (palabra) puede aparecer más de una vez en cada urna, (etiqueta) dando lugar a distintas probabilidades de emisión de palabras
en cada etiqueta.