Barriere Linguistiche nell’accesso all’informazione giuridica · 2019. 2. 26. · I lessici...
Transcript of Barriere Linguistiche nell’accesso all’informazione giuridica · 2019. 2. 26. · I lessici...
Barriere Linguistiche nell’accesso all’informazione giuridica
Firenze, 17 giugno 2005
Daniela Tiscornia, Maria Teresa Sagri
I problemi
Il diritto è veicolato dal linguaggio:
•Linguaggio tecnico/linguaggio comune
• Condivisione e riuso delle informazioni (Interoperabilità semantica)
•Multilinguismo
•Comprensibilità delle regole di Internet per gli agenti elettronici(Digital Rights Managment, e-commerce)
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Documento v. Conoscenza
Obiettivo
: trasformare i documenti testuali in risorse di informazione e conoscenza.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
1. Migliorare l'accesso all'informazione: La Semantica libera da sintassi e da contesto (pragmatica) consente di catturare i contenuti svincolati dalle struttura linguistica. Perciò:
La ricerca full-ext o su documenti non strutturati (pagine web) è guidata dai concetti non dalle parole;
Gli utenti non esperti possono utilizzare termini del linguaggio comune per accedere a conoscenza tecnica;
Si possono rintracciare informazioni espresse in lingue diverse.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Livelli di concettualizazzione
Dai termini ai concetti
Dai concetti alle descrizioni ontologiche
Dalle decrizioni ai linguaggio formali
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Indice degli argomenti
1. I lessici computazionali per la ricerca concettuale e l’accesso all’informazione multilingue;
2. I metadati semantici;
3. I modelli ontology-based per la rappresentazione della conoscenza;
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
I lessici computazionali od ontologie leggere
Forniscono una rappresentazione esplicita del significato delle parole
Costituiscono un sistema strutturato di concetti e relazioni che fornisce una mappa della conoscenza di un certo dominio.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
I metadati semantici
Si distinguono varie classi di metadati:
- gestionali che evidenziano le modalità di archiviazione e manutenzione dei documenti e sono necessari per una corretta
gestione della struttura (es. data di aggiornamento di pagine Web)
- strutturali: contengono informazioni sulla struttura del documento (es. per i testi di legge, data di pubblicazione, efficacia, titolo, autorità emittente, ecc.).
- semantici: sono costituiti da descrizioni normalizzate dei documenti e dei loro contenuti.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Due significati del termine:
- Filosofia: area della metafisica che studia come è realmente fatto l’universo.
- Computer Science: area dell’I.A. che studia come rappresentare correttamente la realtàper consentire la comunicazione (conoscenza condivisa).
3. Le Ontologie
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Language
Ontologies and Lexicons
ConceptSpace
Alessandro Lenci,2003
Lexicon
Ontology
Types of Ontology
Foundational Ontology
Domain Core Ontology
Domain Specific Ontology
OBJECT
SOFTWARE
WORD_PROCESSOR
Horizontal typology:
Philosophical ontology
Information System ontology
Linguistic ontology
Vertical typology:
Linguistic Ontology
• A system of symbols representing the concepts (meanings) encoded by NL expressions (lexical units, terms, etc.)– semantic representation language– interlingua– “language of thought”
OBJECT
EVENT
LOCATION
ARTIFACT
ANIMAL
ENTITY
CAR
DOG#1
BEACH
PIANO_CONCERT
dog
car
beach
piano concertspiaggia
Lessici Semantici per il Diritto
JurWordNet (ITTIG-CNR)
LOIS
JurWordNet
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
➾ Wordnet: è una risorsa linguistica, sviluppata dall’Università di Princeton nel 1990, che organizza, definisce, descrive i concetti rilevanti del lessico inglese. (L’attuale versione WordNet 2.0 è disponibile gratuitamente su internet: http://www.cogsci.princeton.edu/wn/)
➾ Eurowordnet: Progetto Europeo per lo sviluppo di una rete di lessici semantici per le lingue europee interconnesse fra loro attraverso l’inglese
➾ Italwordnet: parte italiana di Eurowordnet (Progetto: ILC/CNR)
➾ Jur-(Ital)WordNet (Progetto C.N.R./ITTIG). È un’estensione per il dominio giuridico del database Ital-EuroWordNet, rappresenta quindi una risorsa specialistica collegata alla risorsa generica
➾ Ulteriori Specializzazioni di ItalwordNet: ECOWordnet per il linguaggio economico/finanziario (IRST);
La famiglia dei Lessici di WordNet
La metodologia del lessico semantico WordNet
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
La famiglia dei lessici nata da WN (G.Miller, Università di Princeton nel 1990) è strutturata secondo due elementi fondamentali:
1) Synset: Insieme di termini che esprimono lo stesso concetto. È costituito da unità lessicali della stessaparte del discorso, considerate intercambiabili in uncontesto (varianti);
2) Relazioni specializzate: Ciascun synset è collegato ad altri tramite relazioni di significato. L’informazione semantica è codificata da 17 relazione fra i synset per le qualivengono specificate anche le classi grammaticalia cui si applicano.
Le relazioni di WNRelazione Ordine semantico Tipi Esempi
SYNONYMY 1º/1º, 2º/2º, 3º/3º VA/VA barriera /ostacolo; comprare/acquistare;
conoscenza/cognizione NEAR SYNONYMY 1º/1º, 2º/2º,3º/3º Syn/Syn ordigno/congegno;
certificare/assicurare XPOS NEAR SYNONYMY 2º/2º Syn/Syn arrivo/arrivare ANTONYM 1º/1º, 2º/2º, 3º/3º VA/VA incredibile/credibile NEAR ANTONYM 1º/1º, 2º/2º, 3º/3º Syn/Syn sopra/sotto; arrivare/partire XPOS NEAR ANTONYM 2º/2º Syn/Syn arrivo/partire HAS_HYPERONYM/ HAS_HYPONYM
1º/1º,2º/2º, 3º/3º Syn/Syn cane/animale muoversi/agitarsi
HAS_XPOS_HYPERONYM HAS_XPOS_HYPONYM
2º/2º Syn/Syn arrivo/andare colpire/martellata
HAS_HOLONYM/ HAS_MERONYM
1º/1º Syn/Syn braccio/corpo mano/dito
CAUSES/ IS CAUSES_BY
2º/2º Syn/Syn uccidere/morire giustiziare/condanna
HAS_SUBEVENT/ IS_SUBEVENT_OF
2º/2º Syn/Syn comprare/pagare russare/dormire
INVOLVED/ ROLE
2º/1º 1º/2º
Syn/Syn martellare/martello pedone/camminare
CO_ROLE 1º/1º Syn/Syn chitarra/chitarrista BE_IN_STATE/ STATE_OF
1º/2º 2º/1º
Syn/Syn povero/povertà vecchiaia/vecchio
IN_MANNER/ IS_MANNER_FOR
2º/2º Syn/Syn bisbigliare/ a bassa voce barbaramente/trucidare
DERIVATION Tra tutti VA/VA acqua/acquaiolo PERTAINES_TO 2º/2º Syn/Syn presidenziale/presidente HAS_ISTANCE/ BELONGS_TO_CLASS
1º/1º Syn/I I/Syn
fiume/Po Roma/città
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
Da una lista di parole: activity, civil action, proceeding, legal proceeding, judicial proceeding, criminal procedure, administrative procedure, civil law suit;
Ad un vocabolario strutturato:Synset:un set di termini che possono essere interscambiati in un dato contesto
{ proceeding}
{Activity}
{judicial proceeding, legal proceeding}
{criminal procedure} {administrative procedure}
{civil law suit; civil action }
Strutturare i concetti in un lessico:
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
La metodologia di sviluppo di Jur-WordNet
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
→ Individuazione bottom-up dei termini giuridici rilevanti
→ Individuazione fonti di reperimento dei termini
→ Individuazione delle definizioni
→ Selezione delle relazioni semantiche appropriate
→ Collegamento di IWN
JW:Rete semantica per il dominio giuridico
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
pr oc edim e nt o
- P ro ce sso p e na le- P ro ce ssii c iv ile ,
-e tc
s e nt e nza
pa rte pr oc e s s ua le,p a r te d e l p ro ce sso, p arte
pr oc e dim e nt o gi udiz i a r i ,pr oc e s s o gi ur idic o
has _hypony m
Giudi c e
Inv olv e d_loc ati on
Tribuna le
has_s ube v e nt
Inv olv e d- age ntinv olv ed
has_hype r ony m
Atto di cita z ione , c ita zione
has _holonomy= synset
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
Consultazione integrata di Ital-WN e Jur-WN
Lessici multilingue: Eurowordnet
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
➾I lessici multilingue costituiscono una fonte di metadati ed uno strumento di supporto a motori di ricerca cross-lingual
➾EuroWordnet ha creato una metodologia per collegare lessici monolingue sviluppati con la metodologia WN
➾ILI:Inter Lingual Index: ciascun synset in WN monolingua ha almeno una relazione di equivalenza con un record dell’ILI, attraverso la lingua inglese;
➾ concetti in lingue diverse collegati al medesimo record dell’ILI sono considerati equivalenti, (in base a diversi gradi di vicinanza semantica).
Inter Lingual Index
ILI record (drive)
guidare cavalcare
muoversi ItalianWordNet
IIIIII
IIIcabalgar conducir
mover SpanishWordNet
IIIIII
III
ride drive
move EnglishWordNet
IIIIII
III rijden berijden
betragen Dutch WordNet
IIIIII
III
II
II
II
II
location
2nd order entity
dynamicair traffic
traffic
road traffic
Top ontologyDomain ontology
II
JurWordNet
The EuroWordNet Architecture
LOIS- EDC-22161Lexical Ontologies for Legal Information Sharing
www.loisproject.org
Duration: 24 months
Person Month: 204.5
Participants:ITTIG Institute of Theory and Techniques for Legal Information(IT)CELI (IT)Universidade de Évora (PT)Universiteit Leiden (NL)Czech Republic Academy of Sciences (CZ)Universität Wien (A)University of Sheffield (GB)GoNetwork (IT)CESI Multimedia (IT)Ellis Publications (NL)
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
ILI
Jur-WordNet
EuroWordNet
ItalWordNet
WordNet
Lessici semantici WordNet
Lois
JW olandese
JW ceco JW tedesco
JW portoghese
JW inglese
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
Il progetto LoisIl progetto Lois, nell’ambito del programma E-content, sviluppa un database multilingue costituito da WN giuridici in cinque lingue europee (inglese, tedesco, portoghese, ceco, italiano), collegate tra loro attraverso l’inglese.
Lois è caratterizzato da due componenti:
• Un data-base lessicale che contiene i concetti descritti dalla dottrina giuridica;
• Un data-base normativo che contiene i concetti definiti nelle direttive comunitarie e nelle leggi di implementazione delle direttive.
La metodologia di Lois
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
t
Lo strumento Lois si basa su due diverse tipologie di equivalenza funzionale che si applicano alle due diverse componenti della banca–dati Lois:
3. Equivalenza semantica (secondo l’accezione di EuroWordNet) è basata sulla descrizione astratta dei concetti proprietà necessarie e collega i synset della parte lessicale;
5. Equivalenza normativa stabilita da un criterio di appartenenza alle stesse fonti normative e collega i concetti estratti della parte legislativa. Una relazione implemented-as lega i concetti presenti nelle direttive con i concetti definiti nelle leggi di implementazione ed una relazione di equivalenza o quasi equivalenza tra i due concetti.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
tequivalenza semantica
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
h t
t p
: /
/ w w
w .
i t t
i g
. c
n r
. i
tequivalenza normativa
Strutturare il dominio (I)
•Lexical Def. ILI GLOSS - worker_1: a person who works at a specific occupation.
•EU Def.s:•8.2005-02-02: worker_2: any person who, in the Member State concerned, is protected as
an employee under national employment law and in accordance with national practice;23 2005-02-02: worker_3: any person carrying out an occupation on board a vessel, including trainees and apprentices, but excluding port pilots and shore personnel carrying out work on board a vessel at the quayside; •22. 2005-02-02 worker 4: any person employed by an employer, including trainees and apprentices but excluding domestic servants;21. 2005-02-02: worker_5: any worker as defined in Article 3 (a) of Directive 89/391/EEC who habitually uses display screen equipment as a significant part of his normal work.
Has_hyper
Has_hyper
Riferimenti bibliografici sul multilinguismo nel diritto
• Cunnigham, K. Translating for a lager Union. Can we cope with more than 11 languages? Speech given at the opening event of the Europea yera of language in Lund, Sweden, 19 February 2001
• Fluhr, C. Multilingual Information Retrieval. In: Survey of the State of
the Art in Human Language Technology, 1996. Retrieved August 2, 2004, from http://cslu.cse.ogi.edu/HLTsurvey/ch8node7.html
• Guastini R. Il diritto come linguaggio: Lezioni. IX ed. Torino: Giappichelli, 2001
• McCluskey, B. Respecting multilingualism in the enlargement of the European Union: the organisational challenge, speech given at the Austria Academy of Scineces, Vienna, 7 June 2001
• Peters, C. and Picchi, E. Across languages, across cultures: issues in
multilinguality and digital libraries. D-Lib Magazine, May 1997. Retrieved August 2, 2004, from http://www.dlib.org/dlib/may97/peters/05peters.html
Riferimenti bibliografici sui lessici computazionali
• Calzolari N., Lenci A., Linguistica Computazionale, Strumenti e risorse per il trattamento automatico della lingua, In Maondo Digitale, 2004;
• Felbaum, C., ed; WordNet. An Electronic Lexical Database. The Mit Press, Cambrige (1998);
• Roventini A., Alonge A., Bertagna F., Calzolari N., Girardi C., Magnini B., Marinelli R., Speranza M., Zampolli A. (in press), ItalWordNet: Building a Large Semantic Database for the Automatic Treatment of Italian, in “Linguistica Computazionale”, Istituti Editoriali e Poligrafici Internazionali, Pisa-Roma, ISSN;
• Vossen P. (ed.), EuroWordNet General Document, 1999. http://www.hum.uva.nl/~ewn.
• Lenci A., Computational Lexicons as Resources for Multilingual Content- Based Information Processing (2003);
• Sagri M.T., Progetto per lo sviluppo di una rete lessicale giuridica on line attraverso la specializzazione di ItalWornet, in Informatica e Diritto, ESI, Napoli, 2003.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica
Riferimenti bibliografici sulle ontologie giuridiche
• Breuker, J. and Hoekstra, R. (2004) Epistemology and ontology in core ontologies exemplified by
• two core ontologies for law FOLaw and LRI-Core, CORONT-WEsEKAW2004.
• Gangemi A., Sagri M.T., Tiscornia D., Metadata for Content Description in Legal Information, Workshop Legal Ontologies, ICAIL2003, Edinburgh. In press for Journal of Artificial Intelligence and Law, Kluwer.
• Masolo, C., Vieu, L., Bottazzi, E., Catenacci, C., Ferrario, R.,Gangemi, A., Guarino, N. Social Roles and their Descriptions, in Dubois, D.,Welty, D., Williams, M. (Eds.), Principles of Knowledge Representation and Reasoning:Proceedings of the Ninth International Conference;
• Vossen, P., Peters, W. and Díez-Orzas, P. (1997), The Multilingual design of the EuroWordNet Database, in: Mahesh, K. (ed.), Ontologies and multilingual NLP, Proceedings of IJCAI-97,workshop, Nagoya, Japan, August 23-29.
CONSIGLIO NAZIONALE DELLE RICERCHEIstituto di Teoria e Tecniche dell’Informazione Giuridica