Evaluacion de relaciones ontol´ ogicas en corpora …Evaluacion de relaciones ontol´ ogicas en...

15
Evaluaci ´ on de relaciones ontol ´ ogicas en corpora de dominio restringido Mireya Tovar 1,2 , David Pinto 2 , Azucena Montes 1,3 , Gabriel Gonz´ alez-Serna 1 , and Darnes Vilari˜ no 2 1 Centro Nacional de Investigaci´ on y Desarrollo Tecnol´ ogico, Cuernavaca, Morelos, exico 2 Benem ´ erita Universidad Aut´ onoma de Puebla, Facultad de Ciencias de la Computaci´ on, Puebla, exico 3 Universidad Nacional Aut´ onoma de M ´ exico, Grupo de Ingenier´ ıa Ling ¨ ıstica, exico {mtovar,gabriel}@cenidet.edu.mx, {dpinto,darnes}@cs.buap.mx, [email protected] Resumen. En este art´ ıculo proponemos una evaluaci´ on autom ´ atica de relaciones en ontolog´ ıas de dominio res- tringido. En particular, usamos varios patrones l´ exico sint ´ acticos con la finalidad de evaluar las relaciones class-inclusion y relaciones ontol ´ ogicas que contiene la ontolog´ ıa. Nuestro enfoque se centra en un corpus de referencia para encontrar evidencia de la validez de la relaci ´ on. El enfoque es capaz de proporcionar una medida de exactitud para cada ontolog´ ıa evaluada, un valor asociado de alguna manera con la calidad de la relaciones de la ontolog´ ıa. Esta puntuaci ´ on se da con cierto grado de confiabilidad, obtenida mediante la com- paraci ´ on de los resultados dados por el enfoque contra de la evaluaci´ on de expertos humanos y un baseline. Palabras clave. Evaluaci ´ on de relaciones, patrones l ´ exi- co sint ´ acticos, ontolog´ ıas de dominio restringido. Evaluation of Ontological Relations in Corpora of Restricted Domain Abstract. In this paper we propose a new approach for automatic evaluation of relations in ontologies of restric- ted domain. In particular, we use various lexico-syntactic patterns with the aim of evaluating the class-inclusion and ontological relations that the ontology holds. Our approach focuses on a reference corpus for finding evi- dence of the relation validity. The approach is capable to provide an accuracy measure for each ontology evalua- ted, a value associated in some way with the quality of the ontology relations. This score is given with a certain degree of reliability, and it is obtained by comparing the results given by our approach against the evaluation of human experts and a baseline. Keywords. Evaluation of relations, lexico-syntactic pat- terns, ontologies of restricted domain. 1. Introducci ´ on La Web en la actualidad es el espacio que alma- cena una gran cantidad de informaci´ on del mundo. La mayor parte de esta informaci´ on se encuentra expresada en lenguaje natural, es decir, carece de una estructura que permita asociar f ´ acilmen- te el significado de sus componentes, por lo que cada vez m´ as es necesario el uso de herramien- tas sem´ anticas para el tratamiento de este tipo de informaci ´ on. Las ontolog´ ıas juegan un papel importante en la Web Sem´ antica, puesto que son recursos que permiten capturar el conocimiento expl´ ıcito en los datos, por medio de conceptos y relaciones; dando la posibilidad a los usuarios y aquinas de entender los datos intercambiados. Una ontolog´ ıa se define como ”una especifica- ci´ on expl´ ıcita y formal de una conceptualizaci ´ on compartida” [13]. En general, este tipo de recurso sem ´ antico est ´ a formado por conceptos o clases, relaciones, instancias, atributos, axiomas, restric- ciones, reglas y eventos. Las ontolog´ ıas de domi- nio son un sistema de representaci ´ on del cono- cimiento que se puede organizar en estructuras taxon ´ omicas y ontol ´ ogicas de conceptos de alg ´ un ´ area o dominio de conocimiento espec´ ıfico. Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149 doi: 10.13053/CyS-19-1-1954 ISSN 2007-9737

Transcript of Evaluacion de relaciones ontol´ ogicas en corpora …Evaluacion de relaciones ontol´ ogicas en...

Evaluacion de relaciones ontologicas en corpora de dominiorestringido

Mireya Tovar1,2, David Pinto2, Azucena Montes1,3, Gabriel Gonzalez-Serna1, and Darnes Vilarino2

1 Centro Nacional de Investigacion y Desarrollo Tecnologico, Cuernavaca, Morelos,Mexico

2 Benemerita Universidad Autonoma de Puebla, Facultad de Ciencias de la Computacion, Puebla,Mexico

3 Universidad Nacional Autonoma de Mexico, Grupo de Ingenierıa Linguıstica,Mexico

{mtovar,gabriel}@cenidet.edu.mx, {dpinto,darnes}@cs.buap.mx, [email protected]

Resumen. En este artıculo proponemos una evaluacionautomatica de relaciones en ontologıas de dominio res-tringido. En particular, usamos varios patrones lexicosintacticos con la finalidad de evaluar las relacionesclass-inclusion y relaciones ontologicas que contienela ontologıa. Nuestro enfoque se centra en un corpusde referencia para encontrar evidencia de la validez dela relacion. El enfoque es capaz de proporcionar unamedida de exactitud para cada ontologıa evaluada, unvalor asociado de alguna manera con la calidad de larelaciones de la ontologıa. Esta puntuacion se da concierto grado de confiabilidad, obtenida mediante la com-paracion de los resultados dados por el enfoque contrade la evaluacion de expertos humanos y un baseline.

Palabras clave. Evaluacion de relaciones, patrones lexi-co sintacticos, ontologıas de dominio restringido.

Evaluation of Ontological Relations inCorpora of Restricted Domain

Abstract. In this paper we propose a new approach forautomatic evaluation of relations in ontologies of restric-ted domain. In particular, we use various lexico-syntacticpatterns with the aim of evaluating the class-inclusionand ontological relations that the ontology holds. Ourapproach focuses on a reference corpus for finding evi-dence of the relation validity. The approach is capable toprovide an accuracy measure for each ontology evalua-ted, a value associated in some way with the quality ofthe ontology relations. This score is given with a certaindegree of reliability, and it is obtained by comparing theresults given by our approach against the evaluation ofhuman experts and a baseline.

Keywords. Evaluation of relations, lexico-syntactic pat-terns, ontologies of restricted domain.

1. Introduccion

La Web en la actualidad es el espacio que alma-cena una gran cantidad de informacion del mundo.La mayor parte de esta informacion se encuentraexpresada en lenguaje natural, es decir, carecede una estructura que permita asociar facilmen-te el significado de sus componentes, por lo quecada vez mas es necesario el uso de herramien-tas semanticas para el tratamiento de este tipode informacion. Las ontologıas juegan un papelimportante en la Web Semantica, puesto que sonrecursos que permiten capturar el conocimientoexplıcito en los datos, por medio de conceptos yrelaciones; dando la posibilidad a los usuarios ymaquinas de entender los datos intercambiados.

Una ontologıa se define como ”una especifica-cion explıcita y formal de una conceptualizacioncompartida” [13]. En general, este tipo de recursosemantico esta formado por conceptos o clases,relaciones, instancias, atributos, axiomas, restric-ciones, reglas y eventos. Las ontologıas de domi-nio son un sistema de representacion del cono-cimiento que se puede organizar en estructurastaxonomicas y ontologicas de conceptos de algunarea o dominio de conocimiento especıfico.

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

ISSN 2007-9737

El aprendizaje de ontologıas o generacion au-tomatica de ontologıas, es un proceso que pue-de facilitar la construccion automatica o semiau-tomatica de ontologıas para el ingeniero de cono-cimiento.

En la actualidad existen propuestas de sistemascomputacionales para la generacion automaticade ontologıas, sin embargo, en la mayorıa de loscasos carecen de una evaluacion automatica, porlo que regularmente se desconoce la calidad de losrecursos semanticos que estos sistemas generan.

La evaluacion de ontologıas es una tarea queconsiste en medir la calidad de dichos recursos. Elobjetivo final de la evaluacion de la ontologıa esfacilitar la labor del ingeniero del conocimiento odel experto del dominio a verificar la calidad de lamisma, debido a que cuando la ontologıa es de untamano considerable, esta tarea consume muchotiempo (horas-persona). El proceso de evaluacionno suele ser trivial, pues es necesario elegir queelementos de la ontologıa deberıan ser considera-dos en el proceso de medicion de la calidad de lamisma, ası como los criterios especıficos a usar.

Las propuestas de evaluacion segun la literaturase categorizan en [3].

a) Evaluacion realizada por humanos siguien-do criterios, estandares y requerimientos, se defi-nen ciertas caracterısticas o criterios que permitenevaluar la ontologıa proporcionando un puntaje oranking numerico [29]. Algunas caracterısticas quese consideran son: completitud, correctitud, legibi-lidad y flexibilidad [5, 11]. Otros criterios, para laevaluacion del contenido, son realizados manual-mente por expertos de dominio, como es: con-sistencia, completitud, concision, la capacidad deexpansion, sensibilidad [22]. b) Evaluacion basa-da en una aplicacion o en una tarea, consisteen probar el desempeno de la ontologıa en unaaplicacion, es decir, trata de medir que tanto laontologıa ayuda a mejorar los resultados de unacierta tarea. Normalmente, miden la dimensionfuncional de una ontologıa. Por ejemplo, respon-der a preguntas del usuario al usar una ontologıa[32, 38] o el uso de la ontologıa para mejorar eldesempeno de un motor de busqueda semanticoal recuperar documentos relevantes a la consulta[16]. c) Evaluacion basada en gold estandar, la ca-lidad de la ontologıa se expresa por la similitud que

existe con respecto a otra ontologıa construida ma-nualmente, es decir, una ontologıa gold estandar[32, 33, 36, 46, 23, 10]. Otro de los enfoquesconsiderados es el enfoque d) Evaluacion basadaen un corpus de referencia, en este caso, la calidadde la ontologıa se representa por la oportunidadque tiene para cubrir el topico de un corpus, co-mo el criterio de completitud [12]. Se enfocan enla dimension funcional de una ontologıa, la cuales comparada con el contenido de un corpus detextos que son representativos para el dominio. Elcontenido del corpus es analizado con tecnicas delenguaje natural, para identificar terminos y rela-ciones semanticas. En [4], se utiliza un enfoqueprobabilıstico para comparar los conceptos de unaontologıa con un conjunto de terminos importantesidentificados en el corpus de referencia (extendi-dos al anadir dos niveles de hiperonimos desdeWordNet). La finalidad es detectar de un conjuntode cinco ontologıas, cual se adapta mejor al domi-nio de artistas.

En este artıculo estamos interesados en el ulti-mo tipo de evaluacion de ontologıas, es decir, laevaluacion basada en un corpus de referencia con-siderando, en este caso, el criterio de exactitud.

Por el momento, en este artıculo unicamentenos enfocamos en evaluar las relaciones de laontologıa basandonos en la evidencia que existede estas en el corpus asociado al mismo dominiode la ontologıa (evaluacion basada en corpus).De los trabajos revisados en la literatura, la ma-yorıa de los enfoques de evaluacion de ontologıasmiden la calidad de las ontologıas que han sidocreadas automaticamente utilizando una ontologıagold estandar. En nuestro caso, sin embargo, nose esta creando una nueva ontologıa, y tampocose tiene una ontologıa gold estandar, por lo tan-to, es difıcil tener un mecanismo de comparacioncon otros trabajos presentados en el estado delarte. Ası, hemos optado por evaluar la calidadde los enfoques propuestos, usando dos criteriosbasicos: 1) un baseline, y 2) una validacion sobreun subconjunto de muestras del corpus asociadoutilizando expertos del dominio como evaluadoreshumanos.

En [43] se presenta una metodologıa para laevaluacion automatica de ontologıas de dominio.Se muestra la evaluacion de conceptos, siguiendo

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño136

ISSN 2007-9737

una metodologıa hıbrida, que hace uso de patro-nes lexico morfologicos detectados en la escriturade los conceptos y en el uso de medidas de simili-tud para la identificacion de relaciones jerarquicas.Es importante mencionar que en este artıculo solose presenta la segunda fase de la metodologıa, lacual consiste en la evaluacion automatica de lasrelaciones existentes en las ontologıas.

La aproximacion propuesta asume que el corpusde referencia esta asociado semanticamente a laontologıa de dominio. En una primera etapa, elproposito es ”evaluar” la calidad del sistema devalidacion de las relaciones de la ontologıa, tantopor expertos humanos como a traves de su com-paracion con un baseline.

La evaluacion de las relaciones se lleva a cabode la siguiente forma: a) Identificacion de relacio-nes class-inclusion de la ontologıa en el corpusde dominio a partir de patrones lexico sintacticosexistentes en la literatura, y b) Identificacion derelaciones ontologicas en el corpus de referenciapor medio del analisis de dependencias sintacticaspara la misma ontologıa de dominio.

Las principales contribuciones de este artıculoson: (1) la evaluacion de relaciones class-inclusionexistentes en la ontologıa y en el corpus de domi-nio, por medio de patrones lexico sintacticos y (2)la evaluacion de relaciones ontologicas por mediodel analisis gramatical.

El resto de este artıculo se organiza como sigue:en la seccion 2 se presentan los tipos de relacio-nes existentes en ontologıas y se discuten algunostrabajos relacionados con el descubrimiento derelaciones en las ontologıas. En la seccion 3 sepresenta nuestra propuesta de evaluacion de rela-ciones. En la seccion 4 se muestran los resultadosde la evaluacion. Finalmente, las conclusiones sepresentan en la seccion 5.

2. Relaciones

Las relaciones, de acuerdo a [1], se clasificanen 10 clases o familias: class-inclusion, part-whole,similar, contrast, attribute, nonattribute, case re-lations, cause-purpose, space-time y reference.Cada una con un conjunto especıfico de relacio-nes como miembros. En particular, la clase class-inclusion contiene cinco subclases: taxonomica,

funcional, singular colectiva, plural colectiva y cla-se individual [1], [17]. Para este trabajo de inves-tigacion, estamos interesados en las relacionesclass-inclusion. Las relaciones taxonomicas sonconsideradas relaciones jerarquicas que asocianuna entidad de un tipo especıfico (hiponimo) a otraentidad de un tipo mas general (llamado hiperoni-mo) [37] La clase part-whole tambien es conside-rada como relacion jerarquica [37]. Las restantes8 clases se consideran relaciones ontologicas. Lasrelaciones de hiperonimia tambien son conocidascomo relaciones is-a, class-inclusion o subsuncion[35]. Por ejemplo, en las oraciones “Las emocionesson estados de animo que expresa el ser humanocuando ocurre algo en su vida que tiene una signi-ficacion especial para el. Alegrıa, tristeza, ira, mie-do, asombro, desagrado o interes son emocionesque se pueden observar desde los primeros mesesde vida.”, se identifica el concepto “emocion” quecontiene un hiperonimo: estado de animo y loshiponimos: ira, tristeza y alegrıa (ver figura 1).

Estadode

animo

Hiperonimo

Emocion Hiperonimo

Tristeza

HiponimoIra

Hiponimo

Alegrıa

Hiponimo

is-a

is-ais-a

is-a

Fig. 1. Ejemplo de relacion de hiperonimia e hiponimia

Las relaciones de hiponimia e hiperonimiahan sido ampliamente estudiadas en linguısticacomputacional. Uno de los primeros enfoques quehace uso de patrones lexico sintacticos para des-cubrir automaticamente hiperonimos, desde tex-tos, fue propuesto por [14]. Estos patrones hansido utilizados en otros trabajos, como por ejemplo[33, 9, 25] y se conocen ampliamente como pa-trones de Hearst. En [26] se presentan patroneslexico sintacticos para la identificacion de relacio-

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 137

ISSN 2007-9737

nes de hiponimia en la lengua rumana. En [2]se obtienen co-hiponimos a partir del uso de lospatrones de Hearts.

Para facilitar el proceso de la creacion de on-tologıas, la linguıstica computacional ha desarro-llado metodos que permiten extraer elementos dela ontologıa desde el lenguaje natural [34]. Se hacentrado principalmente en la extraccion de re-laciones; los elementos linguisticos utilizados enalgunos casos para este proposito son sustantivos,adjetivos, preposiciones y verbos [15]. En el ejem-plo de la figura 1, los hiponimos pueden ser sus-tantivos (alegrıa, ira, tristeza, emocion) formadospor una sola palabra o por varias palabras como elhiperonimo “estado de animo”.

Con la finalidad de identificar relaciones class-inclusion en textos se obtuvieron 106 patroneslexico sintacticos de la literatura utilizados paradefinir relaciones taxonomicas, funcionales, singu-lar colectivas, plural colectivas y clase individual[2, 9, 14, 17, 20, 25, 26, 27, 44]. De los 106 pa-trones solo 15 fueron encontrados en los corporasde dominio considerados en la etapa de experi-mentacion de esta investigacion (ver tabla 1). En lamisma tabla, la columna 2 muestra el patron lexi-co sintactico, la columna 3 es una representacionextendida del mismo que posteriormente se utili-za para producir una expresion regular que serausada en la extraccion de relaciones tipo class-inclusion. Las variables X, Y y Z son sustituidaspor los conceptos que se estan revisando.

Las relaciones ontologicas o relaciones no ta-xonomicas, pueden ser categorizadas por verbosque aparecen con frecuencia en una vecindad den palabras entre los conceptos [18]. Otros con-sideran que los conceptos que estan semantica-mente relacionados, tienden a estar cercanos enel texto, usan metodos estadısticos para descubrirrelaciones en textos anotados [42]. Una medida deasociacion entre un verbo y un par de conceptoses la frecuencia condicional. Otra medida es aboveexpectation (AE) que compara la frecuencia condi-cional con el producto de dos frecuencias condicio-nales mas simples [18]. Otra metrica es la corre-lacion-semantica definida como el producto de laprobabilidad condicional P (Cj |Ci) con la suma dela medida de informacion mutua I(Ci,Cj) utilizadapara descubrir instancias y relaciones [42].

Ciaramita introduce en [7] un enfoque no super-visado, para extraer relaciones candidatas entreentidades nombradas por medio del uso de patro-nes generados a partir del analisis de dependen-cias. Aplican la prueba χ2 para seleccionar las re-laciones mas fuertemente relacionadas con el parde entidades nombradas y realizan una evaluacionmanual de las mismas. Schutz identifica tripletasaltamente relevantes por medio del procesamientolinguıstico (dependencias y reconocimiento de en-tidades nombradas) y estadıstico (prueba χ2) parael dominio de football [39] .

Desde el campo de extraccion de informa-cion, [40] usa un modelo de predicado-argumento(predicate-argument), que frecuentemente es uti-lizado como SVO (patron Sujeto-Verbo-Objeto) ymedidas de similitud semantica de WordNet paradeterminar la similitud entre pares de patrones[41]. Por otro lado, [12] utiliza un sistema de anali-sis morfologico, sintactico y basado en reglas, paraextraer tripletas SVO desde textos. Selecciona elverbo que formara a la relacion en base a doscriterios: si solo hay un verbo se selecciona la for-ma basica del mismo, si hay una expresion verbal,se descarta el verbo auxiliar y se toma el verboprincipal.

En nuestro caso, estamos interesados en la eva-luacion de relaciones ontologicas por medio delanalisis de dependencias y verificamos la existen-cia de la relacion en los corpus de dominio.

En el trabajo desarrollado por Zarrouk, se utilizaun mecanismo de inferencia para proponer nuevasrelaciones a partir de las existentes en una redlexica. Las relaciones inferidas son evaluadas porun sistema de votacion (juegos con un proposito)y expertos que realizan la validacion/invalidaciondirecta de la relacion [45].

3. Enfoque propuesto para laevaluacion de relaciones enontologıas de dominio

El enfoque que se propone en este artıculo paraevaluar relaciones de las ontologıas de dominiorestringido consiste en la validacion de dichas re-laciones usando un corpus de referencia asociado

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño138

ISSN 2007-9737

Tabla 1. Patrones lexico sintacticos

No. Patron literatura Patron extendido12 NP such as (NP,)* (or|and|the) NP X such as (.+) ( or | and | the ) Y13 NP ’s NP X ’s Y15 such NP as (NP,)* such (.+) ( X ) (.+) as ( Y ( , ) | (.+) )+42 NP ( is | are) NP X ( is | are) Y43 NP ( is | are ) ( a | an ) NP X ( is | are) ( a | an ) Y46 NP such as (NP,)* (or|and) NP Y such as (.+) ( X )? (.+) ( and | or ) ( X )?50 NP ( classify ( in | into ) | comprise | contain | compose

(of)? | group ( in | into ) | divide ( in | into ) | fall ( in | into) | belong ( to ) ) NP

Y ( classify ( in | into ) | comprise | contain | compose| group ( in | into ) | divide ( in | into ) | fall ( in | into ) |belong ( to ) ) X

86 NP ( and | or ) ( another | other ) NP X ( and | or ) ( another | other ) Y92 NP , such as (NP,)* (or|and|the)? NP X (,)? such as (Z,)* (or|and|the)? Y94 NP NP , is (a|an|the) NP X Z (,)? is (a|an|the) Y96 NP , ( is | are ) (NP,)* (or | and|the) NP X (,)? ( is are ) (Z,)* (or|and|the) Y97 (NP,)* (or|and|the) (NP,)* is (a|an|the) NP (Z,|X)* (or|and|the) (Z, | X)* is (a|an|the) Y98 NP , including NP X (,)? including Y

104 NP as (NP,*) (or| and| the) NP X as (Z,*) (or| and| the) Y106 NP, for example, is (a|an|the) NP X, for example, is (a|an|the) Y

al mismo dominio de la ontologıa. En este sen-tido, empleamos varios metodos para la extrac-cion automatica de relaciones ontologicas (class-inclusion y otras) y posteriormente comparamossi dichas relaciones han sido consideradas en laontologıa a evaluar. Si bien, estamos haciendo unproceso de extraccion automatica de relacionesontologicas, nuestro objetivo no es crear nuevasontologıas, sino, tal y como hemos comentado,buscar evidencia de las relaciones presentes enla ontologıa a evaluar en el corpus de referenciaasociado a dicha ontologıa. Ası, estamos usandolo que se denomina el criterio de “correctitud”, elcual especıfica si la informacion almacenada enla ontologıa es verdadera, independientemente deldominio de interes [30], [5].

El enfoque propuesto de evaluacion se divide encuatro etapas:

Tratamiento de la informacion.

Verificacion de relaciones class-inclusion.

Verificacion de relaciones ontologicas.

Evaluacion.

La figura 2 muestra de manera grafica estasetapas, las cuales se describen a continuacion demanera detallada.

Fig. 2. Enfoque propuesto para la evaluacion de onto-logıas

3.1. Tratamiento de la informacion

En la etapa de tratamiento de la informacion (verfigura 3), se realizan las siguientes acciones:

1. Extraccion de conceptos y relaciones. En estecaso se utiliza Jena1 para extraer los concep-tos y relaciones de la ontologıa de dominio2

1http://jena.apache.org/2Las propiedades que se usan de la ontologıa para extraer

las relaciones son subClassOf y objectProperty.

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 139

ISSN 2007-9737

Fig. 3. Fase de tratamiento de la informacion

que estan expresados en el formato OWL3.Las tripletas SRO estan constituidas por dosconceptos: sujeto (S) y objeto (O), ası comode una relacion (R).

2. Construccion de consultas. Las palabras queforman a los conceptos de la ontologıa sonutilizadas para construir las dos consultas quese usaran en el sistema de recuperacion deinformacion.

3. Preprocesamiento. A los documentos se lesaplica las siguientes acciones:

a) Eliminacion de sımbolos especiales y/ocaracteres no imprimibles, palabras ce-rradas como: preposiciones, artıculos,etc.

b) Division del corpus en oraciones, con-siderando aquellas oraciones separadaspor punto, cuya longitud sea mayor a 30caracteres.

c) Aplicacion del algoritmo de stemming dePorter, con la finalidad de agrupar ora-ciones que contienen el mismo concepto,pero escrito en alguno de sus variantesmorfologicas [31]. Por ejemplo, el con-cepto “subfields of artificial intelligence”,del dominio de inteligencia artificial, pue-de aparecer en el corpus como: “subfield

3http://www.w3.org/TR/owl-features/

of artificial intelligence” o “subfields of Ar-tificial Intelligence”. La consulta construi-da para este concepto serıa: “subfield ar-tifici intellig” que es el resultado de elimi-nar palabras cerradas y del truncamiento.

d) Aplicacion de un etiquetador de partes dela oracion (FreeLing4 [28]).

e) Eliminacion de errores morfologicos pro-ducidos por FreeLing.

f ) Eliminacion de sımbolos de puntuacion.

En el caso de las consultas se realizan lassiguientes acciones: eliminacion de palabrascerradas, truncamiento, etiquetado de partesde la oracion y eliminacion de errores mor-fologicos. A los patrones lexico sintacticossolo se les aplica el etiquetado de partes dela oracion.

4. Sistema de Recuperacion de Informacion(SRI). Una vez que los documentos son tras-ladados a oraciones, los conceptos y las rela-ciones son preprocesados, utilizamos un SRIbooleano AND [24] para asociar las oracionesa los conceptos y posteriormente estas ora-ciones asociadas se utilizan en la interseccionde las oraciones que contienen todas las pa-labras de los dos conceptos, sin considerar enla interseccion a la relacion.

4http://nlp.lsi.upc.edu/freeling/

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño140

ISSN 2007-9737

3.2. Verificacion de relaciones tipoclass-inclusion

La tecnica empleada para la identificacion derelaciones tipo class-inclusion en el corpus de do-minio, se propone en el algoritmo 1. Este algoritmoconsidera dos tipos de comportamiento en estetipo de relaciones:

1. Las palabras de uno de los conceptos estanincluidos o subsumidos en el segundo con-cepto, como es el caso del ejemplo 1 y 2 dela tabla 2 [2].

2. Los conceptos son diferentes (ver ejemplos 3y 4 de la tabla 2).

Algoritmo 1 Verificacion de relaciones class-inclusionInput: Corpus = {{C1,1|C1,2|l1,1|...|l1,k|...}, ...},R = {R1,R2, ...,Ri, ...}, Ri = (Ci,1,Ci,2)

Output: CI = {(w,R1), (w,R2), ...}for all ri in R do

if substrIzq(Ci,1,Ci,2) == 1 thenw = buscar(Ci,1,Corpus)

elseif substrDer(Ci,1,Ci,2) == 1 thenw = buscar(Ci,1,Corpus)

elsew = aplicaPLS(ri, patrones,Corpus)

end ifend if

end for

Los datos de entrada del algoritmo son los con-ceptos de cada relacion R, el corpus de dominioCorpus, y los patrones lexico sintacticos trasla-dados a expresiones regulares, en el formato deFreeLing [28]. La salida es la lista de relacionesCI que fueron encontradas en el corpus, con unpeso asociado w que indica si existe evidencia enel corpus para la relacion (w = 1) o si se carecede evidencia (w = 0). En el algoritmo, la funcionsubstrIzq(Ci,1,Ci,2) determina si el concepto Ci,2

esta incluido a la izquierda del concepto Ci,1, lafuncion substrDer(Ci,1,Ci,2) determina si el con-cepto Ci,2 esta incluido a la derecha del conceptoCi,1, la funcion buscar transforma el concepto Ci

en una expresion regular y lo busca en las ora-ciones asociadas al mismo (Corpus) y la funcionaplicaPLS, transforma los patrones lexico sintacti-cos en expresiones regulares que se aplican a lasoraciones de la relacion R.

Considerando el ejemplo 3 de la tabla 2, el al-goritmo aplicarıa el patron 42, sustituyendo C3,1 =knowledge representation en X y el C3,2 = tree enY , la respuesta del algoritmo en este ejemplo es{(1,R3)}. Si consideramos todos los ejemplos dela tabla 2, el algoritmo regresarıa como respuestaCI = {(1,R1), (1,R2), (1,R3), (0,R4)}.

3.3. Verificacion de relaciones ontologicas

Para la verificacion de relaciones ontologicas sepropone el algoritmo 2. Los datos de entrada sonlas lıneas del corpus asociadas a los conceptos dedominio (Corpus), las relaciones ontologicas (R)y los conceptos (Ti) de las tripletas. El algoritmorealiza un analisis de dependencias [28] por cadaoracion asociada a los dos conceptos que formanla relacion (dependenciasFreeLing(ci)). Ademas,se construye una consulta (consulta(ti)) con elformato “Concepto1 Relacion Concepto2” para co-rroborar si hay o no evidencia de la relacion en laoracion. Esta consulta se utiliza para recorrer elarbol de dependencias, haciendo una expansionde nodos (analizaNT (qi, di)). La ruta creada de-be llegar a nodos hoja considerados como nodosterminales que indicarıan que hay evidencia de larelacion (w = 1), de lo contrario, no existe eviden-cia (w = 0).

Por ejemplo, para verificar la veracidad de larelacion 1 de la tabla 3, el algoritmo produce unarbol de dependencias de la oracion5 (ver figura4), construye una consulta ”intelligent agent maylearn to achieve goal” que utiliza para recorrer elarbol (ver figura 5). La funcion analizaNT (q1, d1)identifica los niveles del arbol, el numero de nodo(#), los nodos hijos, los nodos terminales ({0})y los nodos padre para cada nodo del arbol (loscuales llamamos atributos), ademas revisa que larelacion incluya por lo menos un verbo. La funcionasocia a cada palabra de la consulta q1 sus atribu-tos correspondientes y realiza una expansion denodos (exp). Cada nodo expandido, debe producir

5http://nlp.lsi.upc.edu/freeling/demo/demo.php

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 141

ISSN 2007-9737

Tabla 2. Ejemplos de relaciones class-inclusion en el dominio de inteligencia artificial

No. Concepto1 Concepto2 Oracion1 human natural

languagelanguage Natural language processing (NLP) is a field of computer science and

linguistics concerned with the interactions between computers and humannatural languages.

2 problems of ai problem The central problems of AI include such traits as reasoning, knowledge,planning, learning, communication, perception and the ability to move andmanipulate objects.

3 knowledge re-presentation

tree Other knowledge representations are trees, graphs and hypergraphs, bymeans of which the connections among fundamental concepts and deri-vative concepts can be shown.

4 kr data structure Reminder a KR is not a data structure.

Tabla 3. Ejemplos de relaciones ontologicas en el dominio de Inteligencia Artificial

No. Concepto1 Relacion Concepto2 Oracion1 intelligent

agentmay learn toachieve

goal Intelligent agents may also learn or use knowledge toachieve their goals.

2 intelligentagent

use knowledge Intelligent agents may also learn or use knowledge toachieve their goals.

Algoritmo 2 Verificacion de relaciones ontologicas

Input: Corpus = {{C1,1|C1,2|R1|l1,1|...|l1,k|...}, ...},R = {T1,T2, ...,Ti, ...}, Ti = (Ci,1,Ci,2,Ri)

Output: NT = {(w,T1), (w,T2), ...}for all ci in Corpus dodi = dependenciasFreeLing(ci)

end forfor all ti in T doqi = consulta(ti)if analizaNT (qi, di) == 1 thenw = 1

elsew = 0

end ifend for

un nodo que ya fue visitado o que esta en elconjunto inicial (← #). De esta forma, revisamosque la tripleta (consulta) forme una subestructurade dependencias entre los conceptos y la relacion,que este contenida en el arbol de dependenciasde la oracion, si es ası w = 1 de lo contrariow = 0. A continuacion se muestra la expansionde los nodos y se observa que el algoritmo llegaa nodos hoja (ver figura 5), para este ejemplo lasalida del algoritmo es NT = {(1,T1)}.

func:topsynt:sv-coorform:orlemma:ortag:CC

func:tasynt:st-brkform:.lemma:.tag:Fp

func:conjsynt:svform:uselemma:usetag:VB

func:conjsynt:svform:learnlemma:learntag:VB

func:auxsynt:mod-chunkform:maylemma:maytag:MD

func:ncsubjsynt:n-chunkform:agentslemma:agenttag:NNS

func:dobjsynt:n-chunkform:knowledgelemma:knowledgetag:NN

func:iobjsynt:inf-mkform:tolemma:totag:TO

func:modnomatchsynt:advform:alsolemma:alsotag:RB

func:ncmodsynt:attribform:Intelligentlemma:intelligenttag:JJ

func:cmodsynt:infform:achievelemma:achievetag:VB

func:dobjsynt:sn-chunkform:goalslemma:goaltag:NNS

func:ncmod-posssynt:PRP$form:theirlemma:theirtag:PRP$

Fig. 4. Ejemplo de grafo de dependencias de Freeling

intelligent agent may learn to achieve goal ← q110 6 5 2 8 11 12 ← #{10} {6} {5} {2} {8} {11} {12} ← #{0} {6} {5} {2} {8} {11} {12} exp

{10} {5} {2} {8} {11} {12} exp{0} {5} {2} {8} {11} {12} exp

{9} {2} {8} {11} {12} exp{0} {2} {8} {11} {12} exp

{5, 6} {8} {11} {12} exp{0, 6} {8} {11} {12} exp{0, 0} {8} {11} {12} exp{0} {8} {11} {12} exp

{11} {11} {12} exp{12} {11} {12} exp{13} {11} {12} exp{0} {11} {12} exp

{0} {12} exp{0} exp

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño142

ISSN 2007-9737

or1 {2,3,4}

.4

{0}

use3 {7,8}learn2 {5,6}

may5 {9} agent6 {10} knowledge7

{0}

to8 {11}

also9

{0}

intelligent10

{0}

achieve11 {12}

goal12 {13}

their13

{0}

intelligentagentmay learn to achieve goal

10 6 5 2 8 11 12

{0} {10} {9} {5,6}{11} {12} {13}{0} {0} {0} {0} {0} {0}

Fig. 5. Ejemplo de procesamiento del algoritmo 2

3.4. Evaluacion

La medida de evaluacion que se considera esla de exactitud (E), que considera el total de re-laciones propuestas por el sistema (S(R)) con elformato (wi,Ri) donde 1 ≤ i ≤ n, y el total derelaciones de la ontologıa (n = |R|), donde R sonlas relaciones class-inclusion y/o ontologicas.

E =|S(R)||R|

(1)

Para validar los resultados obtenidos por el en-foque propuesto realizamos una evaluacion porexpertos de dominio.

Por medio del coeficiente kappa κ medimos laconcordancia que existe entre los resultados delenfoque para cada tipo de relacion, con respectoa las respuestas de los expertos [8]. El coeficientekappa corresponde a la proporcion de concordan-cia observada sobre el total de las observaciones,eliminando la concordancia al azar (ver ecuacion2). Los valores de kappa se encuentran en el rangode -1 a 1, si el valor de kappa es cercano a 1 indicaun mayor grado de concordancia interobservada,

si kappa es cero indica una concordancia observa-da al azar [6].

κ =Σ concordancia observada− Σ concordancia azar

total observaciones− Σ concordancia azar(2)

4. Resultados experimentales

En esta seccion se presentan los datos utiliza-dos y los resultados obtenidos en los experimen-tos.

4.1. Datos de prueba

Los dominios de las ontologıas consideradas enlos experimentos son: inteligencia artificial (AI) yestandar e-Learning SCORM (SCORM)6 [47]. Ca-da ontologıa contiene un numero determinado deconceptos (C), relaciones tipo class-inclusion (S)y relaciones ontologicas (R). Los documentos (D)de los corporas de dominio fueron utilizados paradeterminar la cantidad de tokens (T ), el vocabula-rio (V) y el numero de oraciones filtradas (O) por elsistema de recuperacion de informacion (ver tabla4).

Tabla 4. Conjunto de datos

Dominio Ontologıa CorporaC S R D T V O

AI 276 205 61 8 10,805 2,180 464SCORM 1,461 1,038 759 36 32,644 2,154 1,632

4.2. Baseline

Con la finalidad de tener un valor de referenciasobre la evaluacion de la ontologıa, hemos cons-truido un valor base (baseline) sobre la validacionde las relaciones ontologicas. El proceso propues-to consiste de validar todas aquellas relacionesontologicas, cuyos conceptos se encuentren estre-chamente co-relacionados en el corpus de referen-cia. En este sentido, si dos conceptos asociadosa una relacion ontologica aparecen ambos en elmismo contexto, asumimos que dichos conceptos

6Las ontologıas y sus corpus correspondientes estan dis-ponibles en la pagina http://azouaq.athabascau.ca/golds tan-dards.htm

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 143

ISSN 2007-9737

Tabla 5. Resultados de los patrones lexico sintacticos

No. Patron lexico sintactico p fr(p,AI) fr(p,SCORM)96 NP , is (NP,)* (or | and|the) NP 7 5543 NP ( is | are ) ( a | an ) NP 5 2492 NP (,)? such as (NP,)* (or|and|the)? NP 7 1397 (NP,)* (or|and|the) (NP,)* is (a|an|the) NP 4 1246 NP such as (NP,)* (or|and) NP 4 742 NP ( is | are) NP 2 612 NP such as (NP,)* (or|and|the) NP 1 494 NP NP , is (a|an|the) NP 3 215 such NP as (NP,)* 0 150 NP ( classify ( in | into ) | comprise | contain | compose

(of)? | group ( in | into ) | divide ( in | into ) | fall ( in | into ) |belong ( to ) ) NP

0 1

86 NP ( and | or ) ( another | other ) NP 0 198 NP , including NP 1 1

104 NP as (NP,*) (or| and| the) NP 0 113 NP ’s NP 1 0

106 NP, for example, is (a|an|the) NP 1 0

estan relacionados. Esta claro que dicha relacionpuede ser distinta a la que se establece en laontologıa, sin embargo, esta medida la usamosunicamente como baseline.

Para medir el grado de co-relacion, empleamosel concepto de informacion mutua, la cual se des-cribe a continuacion.

Dada una tripleta (S,R,O), con R la relacion on-tologica entre los conceptos S y O, la informacionmutua entre los dos conceptos se mide como:

PMI(S,O) =Prob(S,O)

Prob(S) ∗ Prob(O)

El corpus fue pre-procesado, eliminando signosde puntuacion y considerando la version truncada(usando el truncador de Porter) del corpus y de losconceptos ontologicos. Los resultados obtenidosse muestran en la Tabla 6.

4.3. Resultados obtenidos por el sistema

Como se menciono anteriormente se hizo unaevaluacion manual por expertos, lo que nos per-mite determinar el desempeno de nuestro enfo-que. Para determinar la estabilidad de los patroneslexico sintacticos, que encontraron evidencia de la

Tabla 6. Resultados baseline obtenidos mediante el coe-ficiente de co-relacion de informacion mutua

Ontologıa Tipo de Subconjunto Corpusrelacion de Expertos completo

AI Class-Inclusion 55.61 % 23.90 %Ontologicas 47.54 % 16.39 %

SCORM Class-Inclusion 14.00 % 25.53 %Ontologicas 41.27 % 38.34 %

relacion class-inclusion en los corpora, utilizamosla medida del coeficiente de correlacion tau (τ )de Kendall [19]. La cual determina el grado enel cual las dos listas de frecuencia ft(p, corpus)(categorıas) se igualan de acuerdo al orden des-cendente (ver tabla 5).

Los valores del coeficiente tau de Kendall seencuentran en el rango de -1 y 1, un alto valorindica un alto grado de acuerdo entre las dos ca-tegorıas. Por lo tanto, si el acuerdo (desacuerdo)entre las dos categorıas es perfecta, entonces elcoeficiente tendra el valor de 1 (-1). En caso deque el valor sea 0, indica que las categorıas soncompletamente independientes.

En este caso, el resultado del coeficiente taude Kendall es igual a 0.733, lo que significa que

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño144

ISSN 2007-9737

existe un alto acuerdo en el orden obtenido en losdos corpus de referencia. Esto quiere decir queexiste una consistencia en la aplicacion de estospatrones, independientemente de si son aplicadosen diferentes dominios. Este hecho es cierto, almenos para las dos ontologıas utilizadas en losexperimentos.

Ahora, presentamos los resultados obtenidospor el enfoque utilizando el criterio de exactitud(E) al evaluar las ontologıas y la calidad (C) de laprediccion del enfoque de acuerdo a tres expertoshumanos (E1, E2 y E3) y el baseline.

El enfoque de evaluacion de relaciones class-inclusion asigna una exactitud del 87 % a la cali-dad de la ontologıa AI. Consideramos que la cali-dad obtenida (91 %, 82 % y 86 %) para la relacionclass-inclusion es un buen resultado al compararlotambien con el baseline, sin embargo, considera-mos que es necesario investigar las razones porlas cuales no encontramos el porcentaje restan-te. En el caso de las relaciones ontologicas, sepresenta un comportamiento similar, logrando un82 %, 84 % y 80 % de calidad para la ontologıa AIy un 82 % de exactitud para el enfoque propuesto(ver tabla 7). Logrando aproximadamente un 30 %mas que el baseline.

Tabla 7. Exactitud de la ontologıa AI y la calidad de laspredicciones de los enfoques

Tipo de relacion E C(E1) C(E2) C(E3)

Class-inclusion 0.87 0.91 0.82 0.86- - baseline 0.56 0.57 0.51 0.55Ontologicas 0.82 0.82 0.84 0.80- - baseline 0.48 0.51 0.46 0.52

En el caso de la ontologıa SCORM, el enfoqueobtuvo el 59 % de exactitud para las relacionesde tipo class-inclusion y los expertos asignaronun valor menor al 80 % de calidad, superando albaseline en aproximadamente un 35 % (ver tabla8). De acuerdo a los expertos, el resultado que seobtiene para la ontologıa SCORM en este tipo derelacion es menos confiable que el que se obtuvopara la ontologıa AI. A pesar de esto, considera-mos que el enfoque es capaz de dar un valor deexactitud que puede dar un indicio de la calidadde la ontologıa. En el caso de las relaciones on-tologicas el enfoque obtuvo un 86 % de exactitud

y los expertos asignaron el 83 %, 87 % y el 80 %de calidad a la prediccion del enfoque resultadosmayores al baseline.

Tabla 8. Exactitud para la ontologıa SCORM y la calidadde las predicciones de los enfoques

Tipo de relacion E C(E1) C(E2) C(E3)

Class-inclusion 0.59 0.78 0.69 0.72- - baseline 0.14 0.42 0.30 0.45Ontologicas 0.86 0.83 0.87 0.80- - baseline 0.41 0.47 0.43 0.43

Los resultados del grado de concordancia queexiste entre el sistema y los expertos de dominiopara la ontologıa AI, en unos casos es leve (rangode 0.01 a 0.20) y en otros son aceptables (rango de0.21 a 0.40), de acuerdo a los rangos de valoraciondel coeficiente kappa presentados en [21], [6] (vertabla 9).

Tabla 9. Resultados coeficiente kappa para la onto-logı AI

Ontologıa Tipo de relacion Coeficiente kappaE1 E2 E3

AI Class-inclusion 0.51 0.18 0.09Ontologicas 0.32 0.30 0.33

Los resultados del grado de concordancia queexiste entre el sistema y los expertos de dominiopara la ontologıa SCORM es leve (rango de 0.01a 0.20) para un caso de las relaciones ontologi-cas, pero para las relaciones class-inclusion sonaceptables (rango de 0.21 a 0.40) considerandolos rangos de valoracion del coeficiente kappa pre-sentados en [21], [6] (ver tabla 10).

Tabla 10. Resultados coeficiente kappa para la onto-logıa SCORM

Ontologıa Tipo de relacion Coeficiente kappaE1 E2 E3

SCORM Class-inclusion 0.54 0.23 0.36Ontologicas 0.24 0.06 0.26

Los resultados presentados anteriormente fue-ron obtenidos con ejemplos de las relaciones, de-bido al gran esfuerzo que se necesita para eva-luar manualmente su validez. Para la ontologıa AI

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 145

ISSN 2007-9737

usamos 266 relaciones, mientras que la ontologıaSCORM fue evaluada con 285 relaciones. Por lotanto, para tener una evaluacion completa de lasdos ontologıas, calculamos su exactitud.

El enfoque al verificar las 266 relacionessemanticas de la ontologıa AI (TotalRel), encontro231 relaciones validas (RelEnc) que correspondeal 86.84 % de exactitud (ver tabla 11). Resultadossuperiores al baseline (ver columna 4 de la tabla6).

Tabla 11. Resultados experimentales para la onto-logıa AI

Tipo de relacion TotalRel RelEnc Exactitud

Class-inclusion 205 181 88.29 %Ontologicas 61 50 81.97 %Total 266 231 86.84 %

El resultado de la medida de exactitud para onto-logıa e-Learning SCORM es del 76.52 % (ver tabla12). Se observa que la exactitud disminuye conrespecto a los resultados obtenidos en la ontologıaAI, pero la cantidad de relaciones evaluadas por elenfoque (1797 relaciones) es mayor que la canti-dad de relaciones evaluadas para la ontologıa AI(266 relaciones). Resultados mayores al baseline(ver columna 4 de la tabla 6).

Tabla 12. Resultados experimentales para la ontologıaSCORM

Tipo de relacion TotalRel RelEnc Exactitud

Class-inclusion 1038 731 70.42 %Ontologicas 759 644 84.84 %Total 1797 1375 76.52 %

Como se puede apreciar, el enfoque obtiene unamejor exactitud para la ontologıa AI. Este resultadose debe a que el sistema tiene un numero mayorde oraciones asociadas a cada relacion, por lo que,tiene mas oportunidad de encontrar evidencia de lavalidez de la misma en el corpus. La exactitud dela ontologıa SCORM fue significativamente mejor,porque, en este caso se evaluo una gran cantidadde relaciones 1797 comparada con las 285 usadasen la evaluacion por expertos. Por otro lado, eneste ultimo experimento, usamos un numero mayorde oraciones que proporcionan la oportunidad de

encontrar evidencia de la relacion en el corpus dereferencia.

5. Conclusiones

En este artıculo se presenta un enfoque para laevaluacion de relaciones class-inclusion y ontologi-cas en ontologıas de dominio, inteligencia artificialy estandar e-Learning SCORM, considerando elcriterio de exactitud. El enfoque propuesto evaluadichas relaciones, basandose en la evidencia de larelacion en el corpus de referencia por medio depatrones lexico sintacticos y el analisis de depen-dencias sintacticas. Los experimentos muestranque existe un alto acuerdo en la frecuencia de ocu-rrencia de los patrones utilizados en la evaluacion,esto independientemente del corpus de dominio.

Para evaluar la calidad del enfoque propuesto sehizo una validacion por expertos humanos y por eluso de un baseline.

Al comparar los resultados obtenidos por el en-foque con respecto al baseline se observa quelos resultados de nuestra propuesta superan enaproximadamente un 30 % al baseline en el casode la ontologıa AI y en un 35 % en el caso de laontologıa SCORM lo que nos indica que el enfo-que tiene un comportamiento favorable para estasdos ontologıas. En el caso de la evaluacion porexpertos se midio el grado de acuerdo entre ellos yel enfoque fue aceptable de acuerdo a los rangosde valoracion del coeficiente kappa. El enfoqueasigna un 76.52 % de exactitud para la ontologıaSCORM y un 86.84 % de exactitud para la onto-logıa AI, esto de alguna forma refleja la calidad decada ontologıa.

Si bien, el enfoque considera para la evaluacionrelaciones tipo class-inclusion pero estas dos on-tologıas solo consideran relaciones taxonomicas.Como trabajo a futuro, se planea evaluar la con-fiabilidad del enfoque propuesto considerando unacantidad mayor de relaciones. Ademas de conside-rar otras ontologıas para el proceso de evaluacionde la calidad de las mismas en sus correspondien-tes corpus de dominio.

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño146

ISSN 2007-9737

Agradecimientos

Los autores agradecen el apoyo otorgado porla Benemerita Universidad Autonoma de Puebla,Mexico y al Centro Nacional de Investigaciony Desarrollo Tecnologico, Campus Cuernavaca,Mexico para la realizacion de este trabajo de inves-tigacion, el cual ha sido parcialmente financiadopor el Consejo Nacional de Ciencia y Tecnologıa(CONACYT) con el numero de becario 54371, porel Programa para el Mejoramiento del Profesora-do (PROMEP) con folio BUAP-792 y numero deconvenio PROMEP/103.5/12/4962, y a traves delproyecto CONACYT 106625.

Referencias

1. Bejar, I., Chaffin, R., & Embretson, S. (1991).Cognitive and Psychometric Analysis of AnalogicalProblem Solving. Recent Research in PsychologySeries. Springer London, Limited.

2. Bhatt, B. & Bhattacharyya, P. (2012). Domain spe-cific ontology extractor for indian languages. Pro-ceedings of the 10th Workshop on Asian LanguageResources, The COLING 2012 Organizing Commit-tee, Mumbai, India, pp. 75–84.

3. Brank, J., Grobelnik, M., & Mladenic, D. (2005).A survey of ontology evaluation techniques. Proc. of8th Int. multi-conf. Information Society, pp. 166–169.

4. Brewster, C., Alani, H., Dasmahapatra, S., &Wilks, Y. (2004). Data driven ontology evaluation.Proceedings of International Conference on Lan-guage Resources and Evaluation, pp. .

5. Cantador, I., Ferandez, M., & Castells, P. (2006).A collaborative recommendation framework for on-tology evaluation and reuse. Actas de Internatio-nal Workshop on Recommender Systems, en la17th European Conference on Artificial Intelligence(ECAI 2006), Riva del Garda, Italia, pp. 67–71.

6. Cerda L, J. & Villarroel Del P, L. (2008). Evalua-cion de la concordancia inter-observador en inves-tigacion pediatrica: Coeficiente de Kappa. Revistachilena de pediatrıa, Vol. 79, pp. 54 – 58.

7. Ciaramita, M., Gangemi, A., Ratsch, E., Saric,J., & Rojas, I. (2005). Unsupervised learning ofsemantic relations between concepts of a molecularbiology ontology. IJCAI, Professional Book Center,pp. 659–664.

8. Cohen, J. (1960). A coefficient of agreement for no-minal scales. Educational and Psychological Mea-surement, Vol. 20, No. 1, pp. 37–46.

9. de Cea, G. A., de Mon, I. A., & Montiel-Ponsoda,E. (2009). From linguistic patterns to ontology struc-tures. 8th International Conference on Terminologyand Artificial Intelligence,.

10. Dellschaft, K. & Staab, S. (2008). Strategies forthe evaluation of ontology learning. Buitelaar, P. &Cimiano, P., editors, Bridging the Gap between Textand Knowledge Selected Contributions to OntologyLearning and Population from Text, IOS Press, Ams-tedam.

11. Gomez-Perez, A. (2004). Ontology Evaluation.International Handbooks on Information Systems.Springer.

12. Grigonyte, G. (2010). Building and Evaluating Do-main Ontologies: NLP Contributions. Logos-Verlag.

13. Gruber, T. R. (1993). Towards Principles for theDesign of Ontologies Used for Knowledge Sharing.Guarino, N. & Poli, R., editors, Formal Ontologyin Conceptual Analysis and Knowledge Represen-tation, Kluwer Academic Publishers, Deventer, TheNetherlands.

14. Hearst, M. A. (1992). Automatic acquisition of hy-ponyms from large text corpora. Proceedings ofthe 14th International Conference on ComputationalLinguistics, pp. 539–545.

15. Jacobs, V. (2006). Using the semantics of preposi-tions for ontology learning. Master’s thesis, UtrechtUniversity, the Netherlands.

16. Jimenez Munoz, R. J. (2013). Un sistema debusqueda semantica de informacion para su uso enel dominio de recuperacion mejorada en yacimien-tos petroleros. Master’s thesis, Fac. Ciencias de laComputacion, BUAP, Puebla, Mex.

17. Jurgens, D., Mohammad, S., Turney, P., & Hol-yoak, K. (2012). Semeval-2012 task 2: Measuringdegrees of relational similarity. *SEM 2012: TheFirst Joint Conference on Lexical and ComputationalSemantics – Volume 1: Proceedings of the mainconference and the shared task, and Volume 2:Proceedings of the Sixth International Workshop onSemantic Evaluation (SemEval 2012), Associationfor Computational Linguistics, Montreal, Canada,pp. 356–364.

18. Kavalec, M., Maedche, A., & Svatek, V. (2004).Discovery of lexical entries for non-taxonomic re-lations in ontology learning. van Emde Boas, P.,

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 147

ISSN 2007-9737

Pokorny, J., Bielikova, M., & Stuller, J., editors,SOFSEM, volume 2932 of Lecture Notes in Compu-ter Science, Springer, pp. 249–256.

19. Kendall, M. G. (1938). A new measure of rankcorrelation. Biometrika, Vol. 30, No. 1/2, pp. 81–93.

20. Klaussner, C. & Zhekova, D. (2011). Lexico-syntactic patterns for automatic ontology buil-ding. Proceedings of the Second Student Re-search Workshop associated with RANLP 2011,RANLP 2011 Organising Committee, Hissar, Bulga-ria, pp. 109–114.

21. Landis, J. R. & Koch, G. G. (1977). The measu-rement of ovserver agreement for categorical data.Biometrics, Vol. 33, No. 1, pp. 159–174.

22. Lovrencic, S. & Mirko, C. (2008). Ontology evalua-tion - comprising verification and validation. Procee-dings of Central European Conference on Informa-tion and Intelligent Systems, CECIIS - 2008.

23. Maedche, A. & Staab, S. (2002). Measuring simi-larity between ontologies. Proceedings of EuropeanKnoeledge Ackquisition Workshop (EKAW), pp. .

24. Manning, C., Raghavan, P., & Schutze, H. (2008).Introduction to Information Retrieval. An Introduc-tion to Information Retrieval. Cambridge UniversityPress.

25. Maynard, D., Funk, A., & Peters, W. (2009). Sprat:a tool for automatic semantic pattern-based onto-logy population. International Conference for DigitalLibraries and the Semantic Web.

26. Mititelu, V. B. (2011). Hyponymy patterns in ro-manian. Memoirs of the Scientific Sections of theRomanian Academy, Vol. XXXIV, pp. 31–40.

27. Montiel-Ponsoda, E. & Aguado de Cea, G. (2008).Using natural language patterns for the developmentof ontologies. Researching specialized languages,pp. 332–345.

28. Padro, L. & Stanilovsky, E. (2012). Freeling 3.0:Towards wider multilinguality. Proceedings of theLanguage Resources and Evaluation Conference(LREC 2012), ELRA, Istanbul, Turkey.

29. Pak, J. & Zhou, L. (2009). A framework for ontologyevaluation. Sharman, R., Rao, H. R., & Raghu,T. S., editors, WEB, volume 52 of Lecture Notes inBusiness Information Processing, Springer, pp. 10–18.

30. Paslaru, E. (2005). Using context information toimprove ontology reuse. Doctoral Workshop at the17th Conference on Advanced Information SystemsEngineering CAiSE05.

31. Porter, M. F. (1997). Readings in information re-trieval. chapter An Algorithm for Suffix Stripping.Morgan Kaufmann Publishers Inc., San Francisco,CA, USA, pp. 313–316.

32. Reyes Ortiz, J. A. (2013). Creacion automaticade Ontologıas a partir de Textos con un EnfoqueLinguıstico. Ph.D. thesis, Dept Ciencias Compu-tacionales, Cenidet, Cuernavaca, Mor., Mex.

33. Rios-Alvarado, A. B., Lopez-Arevalo, I., & Sosa,V. J. S. (2013). Learning concept hierarchies fromtextual resources for ontologies construction. ExpertSyst. Appl., Vol. 40, No. 15, pp. 5907–5915.

34. Ruiz, J. L. J. (2001). Iniciacion a la Linguıstica.Editorial Club Universitario.

35. Ruiz-Casado, M., Alfonseca, E., & Castells, P.(2005). Automatic extraction of semantic relations-hips for wordnet by means of pattern learning fromwikipedia. NLDB, Springer Verlag, pp. 67–79.

36. Sabou, M., Lopez, V., Motta, E., & Uren, V. (2006).Ontology selection: Ontology evaluation on the realsemantic web. Proceedings The 4th InternationalEON Workshop, Evaluation of Ontologies for theWeb.

37. Saint-Dizier, P. & Viegas, E. (1995). ComputationalLexical Semantics. Studies in Natural LanguageProcessing. Cambridge University Press.

38. Salem, S. & AbdelRahman, S. (2010). A multiple-domain ontology builder. Proceedings of the 23rdInternational Conference on Computational Lin-guistics, Association for Computational Linguistics,Stroudsburg, PA, USA, pp. 967–975.

39. Schutz, A. & Buitelaar, P. (2005). Relext: A tool forrelation extraction from text in ontology extension.Proceedings of the 4th International Semantic WebConference (ISWC), pp. 1–5.

40. Stevenson, M. & Greenwood, M. A. (2005). Asemantic approach to ie pattern induction. Procee-dings of the 43rd Annual Meeting on Association forComputational Linguistics, ACL ’05, Association forComputational Linguistics, Stroudsburg, PA, USA,pp. 379–386.

41. Stevenson, M. & Greenwood, M. A. (2006). Lear-ning Information Extraction Patterns Using Word-Net. Proceedings of the 5th Intl. Conf. on LanguageResources and Evaluations (LREC), pp. 95–102.

42. Tegos, A., Karkaletsis, V., & Potamianos, A.(2008). Learning of semantic relations bet-ween ontology concepts using statistical techniques.High-level Information Extraction Workshop 2008(HLIE08), ECML-PKDD.

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Mireya Tovar, David Pinto, Azucena Montes, Gabriel González-Serna, and Darnes Vilariño148

ISSN 2007-9737

43. Tovar, M., Montes, A., & Pinto, D. (2013). Metho-dology for automatic evaluation of restricted domainontologies. Research in Computing Science, Spe-cial Issue: Advances in Pattern Recognition, Vol. 61,pp. 63–72.

44. Volkova, S., Caragea, D., Hsu, W., Drouhard, J.,& Fowles, L. (2010). Boosting biomedical entityextraction by using syntactic patterns for semanticrelation discovery. Web Intelligence and IntelligentAgent Technology (WI-IAT), 2010 IEEE/WIC/ACMInternational Conference on, volume 1, pp. 272–278.

45. Zarrouk, M., Lafourcade, M., & Joubert, A. (2013).Inference and reconciliation in a crowdsourcedlexical-semantic network. Computacion y Sistemas,Vol. 17, No. 2, pp. 147–159.

46. Zavitsanos, E., Paliouras, G., & Vouros, G. A.(2011). Gold standard evaluation of ontology lear-ning methods through ontology transformation andalignment. IEEE Trans. Knowl. Data Eng., Vol. 23,No. 11, pp. 1635–1648.

47. Zouaq, A., Gasevic, D., & Hatala, M. (2012). Lin-guistic patterns for information extraction in ontoc-maps. Blomqvist, E., Gangemi, A., Hammar,K., & del Carmen Suarez-Figueroa, M., editors,WOP, volume 929 of CEUR Workshop Proceedings,CEUR-WS.org.

Mireya Tovar Vidal es Maestra en Ciencias porel Centro de Investigacion y de Estudios Avanza-dos del Instituto Politecnico Nacional (2002). Ac-tualmente estudiante de doctorado en el CentroNacional de Investigacion y Desarrollo Tecnologi-co. Tambien es profesora investigadora de tiempocompleto en la Facultad de Ciencias de la Compu-tacion de la Benemerita Universidad Autonomade Puebla. Sus areas de interes son: ontologıas,Procesamiento de Lenguaje Natural, paralelismo ylogica.

Azucena Montes Rendon es Doctora en Cienciaspor la Universite Paris-Sorbonne, Francia (2002).

Profesora Investigadora de tiempo completo en elCentro Nacional de Investigacion y Desarrollo Tec-nologico de 2002 a 2012. Actualmente, se encuen-tra en la Universidad Nacional Autonoma de Mexi-co en el grupo de Ingenierıa Linguıstica. Sus areasde interes son: Semantica cognitiva, representa-cion del conocimiento y linguıstica computacional.

David E. Pinto es Doctor en Informatica por la Uni-versidad Politecnica de Valencia, Espana (2008).Actualmente es profesor investigador de tiempocompleto en la Facultad de Ciencias de la Compu-tacion en la Benemerita Universidad Autonoma dePuebla, sus areas de interes son: Procesamientodel Lenguaje Natural, recuperacion de informaciony ontologıas.

Gabriel Gonzalez Serna es Doctor en CienciasComputacionales por el Centro de Investigacionen Computacion en el Instituto Politecnico Nacio-nal, Mexico, D.F. (2006). Actualmente, es profesorinvestigador de tiempo completo del Centro Na-cional de Investigacion y Desarrollo Tecnologico(CENIDET). Sus areas de interes son: Modeladosemantico, computacion consciente del contexto,servicios de recomendacion sensibles al contexto,computo ubicuo y HCI.

Darnes Vilarino Ayala es Doctora en Matematicasen el area de optimizacion en la Universidad dela Habana Cuba (1997). Actualmente es profesorainvestigadora de tiempo completo en la Facultadde Ciencias de la Computacion de la BenemeritaUniversidad Autonoma de Puebla. Sus areas deinteres son: Inteligencia Artificial, optimizacion yProcesamiento del Lenguaje Natural.

Article received on 20/03/2014, accepted on 18/09/2014.Corresponding author is Mireya Tovar.

Computación y Sistemas, Vol. 19, No. 1, 2015, pp. 135–149doi: 10.13053/CyS-19-1-1954

Evaluación de relaciones ontológicas en corpora de dominio restringido 149

ISSN 2007-9737