Vai al contenuto| Home page|

   Ti trovi in: HOME »Tecnologie
INIZIO_TESTO_DA_INDICIZZARE

Tecnologie

Il CINECA si è occupato del coordinamento del progetto e ha realizzato il portale (dalla progettazione, all'implementazione fino gestione dell'infrastruttura tecnologica) utilizzando alcuni dei suoi prodotti per la costruzione di portali Web complessi.
Le competenze che il Cineca ha maturato nel corso degli anni sono sfociate nella creazione di prodotti tecnologici che, oltre a consentire l’interfacciamento con sistemi informatici preesistenti, sono specificamente concepiti per supportare tutte le attività di progettazione, realizzazione e di mantenimento di un portale.
I principali prodotti web del Cineca utilizzati per il portale della Ricerca:
  • Ianus, una suite di programmi per le problematiche connesse al controllo e alla sicurezza del portale.
    Attraverso Ianus Web Single Sign On è inoltre possibile collegare il portale con qualsiasi altra applicazione web in maniera trasparente per gli utenti, evitando la necessità di autenticarsi più di una volta.
  • L’aspetto grafico e i contenuti del portale sono gestiti da BackStage Director, un avanzato sistema di Content Management sviluppato da CINECA capace di integrare una piacevole veste grafica con informazioni provenienti da banche dati complesse. Tale sistema consente inoltre di gestire efficacemente la redazione del portale in maniera completamente distribuita.
  • Alcuni prodotti atti a facilitare le attività di lavoro cooperativo, di aggiornamento (Area di Lavoro Cooperativo, Redazione Distribuita, ecc.) e di pubblicazione sul portale.
  • Strumenti di Text mining , per l'analisi dati e la ricerca avanzata.
  • Diogene, la tecnologia sulla quale è basato il motore di ricerca multisito del portale (con motore Fulcrum e/o Oracle).
Inoltre, il portale della Ricerca Italiana è stato progettato e realizzato tenendo conto degli aspetti di accessibilità e usabilità richiesti dalla Legge Stanca, n.4 del 2004.

Le tecniche di text mining

Il raggruppamento automatico per l’individuazione dei temi di ricerca
Un tema di ricerca è un argomento, anche multidisciplinare, su cui si concentra l’attività di ricerca.
Per individuare i temi maggiormente rilevanti all’interno dei progetti finanziati, si possono utilizzare tecniche di Text Mining.
Una semplice lettura dei titoli per disciplina, infatti, non consente, soprattutto al redattore non esperto in materia, di fare emergere i reali temi sottostanti e, soprattutto, di individuare i legami interdisciplinari. Per fare ciò è necessario analizzare l’intero testo. In questo caso, le tecniche di text mining, in particolare le tecniche di clustering (raggruppamento automatico) , costituiscono un valido aiuto al redattore in quanto consentono di individuare i principali gruppi tematici.
L’informazione disponibile viene automaticamente organizzata in temi ed è così possibile individuare gli argomenti più rilevanti in termini numerici. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che hanno una terminologia comune.

La classificazione automatica dei progetti di ricerca
Le attività di ricerca costituiscono un vasto patrimonio di conoscenza. Tale patrimonio è consultabile nel portale attraverso la classificazione ministeriale per discipline tecnico-scientifiche, per area geografica ed, in alcuni casi, per programmi strategici. Nel portale è stata introdotta una riclassificazione per classi brevettuali al fine di facilitare la ricerca di contenuti di interesse da parte del mondo delle imprese. Inoltre è emersa la necessità di classificare secondo la classificazione ministeriale il materiale non altrimenti classificato.
Un tale lavoro di classificazione, se effettuato manualmente, richiederebbe l'impiego di esperti di varie discipline ed una grande quantità di tempo.
Per questo motivo si è deciso di ricorrere alle moderne tecniche statistiche e di trattamento del linguaggio naturale che consentono la creazione di classificatori automatici specifici per i testi.
Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di riclassificare un qualunque nuovo documento in una delle suddette categorie. La costruzione di un classificatore automatico avviene in tre fasi:
  • trasformazione dei documenti in una rappresentazione adatta per l'algoritmo di apprendimento, fase anche detta di indicizzazione (o preparazione, o preprocessing),
  • costruzione del classificatore, fase anche detta di induzione (o addestramento, o training),
  • valutazione dell'efficacia del classificatore (fase di test).
A queste fasi segue quella di applicazione del classificatore così costruito a nuovi documenti. Utilizzando la metodologia sopra descritta sono stati creati due specifici classificatori automatici per le esigenze del portale:
  • IPCMapping classifica documenti in lingua inglese nelle sezioni e nelle 600 sottoclassi dell'International Patent Classification, permettendo, così, di catalogare  i progetti di ricerca con la stessa logica con cui sono catalogati i brevetti internazionali;
  • AreaMapping classifica documenti in italiano (es. progetti di ricerca) nelle aree (14) e discipline tecnico-scientifiche (circa 400). Questo classificatore è di supporto alla redazione nella classificazione di nuovi contenuti del portale.