Procesamiento del Lenguaje Natural para Recuperación de Información

Recuperación y acceso a la información

                                                                   

Modelos ocultos de Markov


    Los modelos ocultos de Markov fueron desarrollados por A. Markov en 1913 para modelizar secuencias de palabras en ruso y en la actualidad se usan como herramienta estadística de propósito general. Se formaliza la etiquetación como un proceso doblemente aleatorio parametrizable (los parámetros se pueden estimar de forma precisa en el entrenamiento) en el que el modelo del lenguaje es  representado por un autómata finito probabilista.

Una típica cadena de Markov
   
    El modelo de comunicación esta representado por la probabilidad de emisión de una palabra en un estado dado (la probabilidad de la palabra depende solo de la etiqueta), la descripción General del sistema se modeliza como un conjunto finito de estados, en el que pasado un intervalo de tiempo, el sistema cambia de estado de acuerdo a unas probabilidades asociadas a las transiciones entre estados.

Dos tipos de modelos:
 Modelos Visibles:
—Cada estado tiene asociado un ´unico proceso observable.
—La salida del estado no es aleatoria.
Modelos Ocultos:
—En cada estado hay varios tipos de observaciones con diferentes probabilidades.
— Modelo doblemente aleatorio:
a) trasiciones entre estados
b)observaciones asociadas.
—Uno de los procesos no es observable directamente

Ejemplo:

Tenemos una serie de urnas en las que hay bolas de diferentes colores. No conocemos cuantas bolas de cada color hay en cada urna.
P(color 1) = b11
Lema 1
...
Lema N
P(color M) = b1M
...
P(color 1) = bN1
P(color M) = bNM
...

Ejemplo de los modelos de Markov para desambigüación gramatical
Urnas = Estados
Color = Observación

Queremos saber cual es la secuencia de urnas más probable dada una secuencia de colores.
 Para modelizar etiquetas en PLN:
  • Estados = Etiquetas (Urnas)
  • Observaciones = Palabras (Colores)
  • Secuencia de Observaciones = Frases del texto
  • Instantes de tiempo = Posiciones dentro de la frase

Es posible una misma palabra (color) en distintas etiquetas (urnas), lo que da lugar a ambigüedades. El mismo color (palabra) puede aparecer más de una vez en cada urna, (etiqueta) dando lugar a distintas probabilidades de emisión de palabras
en cada etiqueta.

Fecha ultima actualizacion: 05 de Abril de 2.007

Free Web Hosting