DataSet: Strutture ricettive 2

Sorgente

Identificativo del campo chiave del database:
1. Strutture_ricettive2_csv
link per vedere tabella del db:
1. http://192.168.0.21/phpMyEdit-5.7.1/Table16.php
posizione e nome del file scaricato, URL:
1. Macchina virtuale linux (192.168.0.72) - /home/ubuntu/Desktop/File_sorgenti/Services/Strutture_ricettive2_csv/%Data%/Strutture_ ricettive2_csv.csv

Prima Fase

descrizione del processo di ingestion, prima fase
- descrizione eventuali elaborazioni a mano e criticità: non sono presenti elaborazioni a mano
- posizione URL e nomi di file di elaborazione a mano o java, o perl o che altro
  1. HBase (ver. 0.90.5): il software si trova in /home/ubuntu/programs/hbase
  2. h-rider (ver. 1.0.3.0): il software si trova in /home/ubuntu/programs/hrider
- fasi del processo: parti a mano, parti con altri tool----> ETL
  1. HBase: Viene usato una database HBase con architettura distribuita per la memorizzazione dei dati elaborati. Per avviare HBase sull'inero cluster, da terminale andare su "home/ununtu/programs/hbase/bin" e digitare "./start-hbase.sh ".
  2. h-rider: Per la visualizzazione dei database HBase viene utilizzato un software che permette di controllarne il contenuto in modo grafico, per semplificare le cose. Questo tool permette anche di effettuare le principali operazioni attuabili. Per avviare il programma on il terminal andare su /home/ubuntu/programs/hrider (digitando“cd/home/ubuntu/programs/hrider”). Da qui eseguire il comando java -jar h-rider-1.0.3.0.jar . Se si apre una finestra che chiede il “ZooKeeper Quorum” digitare l'indirizzo IP 192.168.0.72 e la porta 2181.
- dove sta l'ETL URL, come si chiama:
  1. /home/ubuntu/Desktop/Trasformazioni/TrasformazioneServizi_new/Main.kjb
  2. Le trasformazioni chiamate dal job principale sono sulla stessa cartella.
- descrizione sommaria dell'ETL:
  1. JOB Main: imposta le variabili d'ambiente (in particolare nella trasformazione GetConfig vengono settate le variabili relative ai parametri di connesione ai database mysql e HBase), richiama le trasformazioni Database e Get Last Date Folder e crea le cartelle con il path corrispondente alla data attuale nella forma Anno_Mese/Giorno/Ora/MinutiSecondi. Infine richiama il JOB Download.
  2. TRASF DataBase: recupera il nome del processo ed imposta la relativa variabile d'ambiente. Seleziona dalla tabella process_manager2 del database mysql la riga contenente le informazioni relative al processo e crea le variabili d'ambiente corrispondenti all'Anno_Mese, Giorno, Ora, MinutiSecondi della data attuale. Le righe risultanti dalla SELECT vengono copiate nei risultati.
  3. TRASF Get Last Date Folder: recupera il percorso della sottocartella contenente il file sorgente CSV più recente e setta la relativa variabile d'ambiente.
  4. JOB Download: fa una chiamata HTTP, salva i risultati su un file XML e confronta il nuovo file ricevuto con il precedente. Se sono uguali cancella la cartella creata in precedenza, se, invece, sono differenti richiama la TRASF Servizi_csv2_ING.
  5. TRASF Servizi_csv2_ING: si apre il file CSV, si rimuovono le \, e si prelevano le variabili ProcessName, process e error. Infine si va ad inserire i dati in HBase e ad aggiornare il campo last_update nella tabella process_manager2 con l'ultima data di inserimento.
- descrizione e posizione dei file di output:
  1. Tabella HBase: servizi_Regione
- contributor name: Martelli

Seconda Fase

descrizione del processo di quality improvement, seconda fase
- descrizione eventuali elaborazioni a mano e criticità: non sono presenti elaborazioni a mano
- posizione URL e nomi di file di elaborazione a mano o java, o perl o che altro
  1. HBase (ver. 0.90.5): il software si trova in /home/ubuntu/programs/hbase
  2. h-rider (ver. 1.0.3.0): il software si trova in /home/ubuntu/programs/hrider
- fasi del processo: parti a mano, parti con altri tool----> ETL
  1. HBase: Viene usato una database HBase con architettura distribuita per la memorizzazione dei dati elaborati. Per avviare HBase sull'inero cluster, da terminale andare su "home/ununtu/programs/hbase/bin" e digitare "./start-hbase.sh ".
  2. h-rider: Per la visualizzazione dei database HBase viene utilizzato un software che permette di controllarne il contenuto in modo grafico, per semplificare le cose. Questo tool permette anche di effettuare le principali operazioni attuabili. Per avviare il programma on il terminal andare su /home/ubuntu/programs/hrider (digitando“cd/home/ubuntu/programs/hrider”). Da qui eseguire il comando java -jar h-rider-1.0.3.0.jar . Se si apre una finestra che chiede il “ZooKeeper Quorum” digitare l'indirizzo IP 192.168.0.72 e la porta 2181.
- dove sta l'ETL URL, come si chiama:
  1. /home/ubuntu/Desktop/Trasformazioni/TrasformazioneServizi_new/Data_QI.kjb
  2. Le trasformazioni chiamate dal job principale sono sulla stessa cartella.
- descrizione sommaria dell'ETL:
  1. Data_QI.kjb: imposta le variabili d'ambiente (in particolare nella trasformazione GetConfig vengono settate le variabili relative ai parametri di connesione ai database mysql e HBase) e richiama le trasformazioni Get_lastupdate e Servizi_csv2_QI.
  2. TRASF Get_lastupdate: recupera il nome del processo e l'ultima data di aggiornamento dei dati impostando le relative variabili d'ambiente.
  3. TRASF Servizi_csv2_QI: si recuperano i dati dalla tabella HBase servizi_Regione, si applicano dei processi di miglioramento della qualità dei dati sui campi Nome, Email, Website, Città, Provincia, Cap, Categoria ENG, Indirizzo, Numero civico e Telefono, e, infine, si vanno ad inserire i dati migliorati in HBase nella tabella servizi_Regione_QI.
- descrizione e posizione dei file di output:
  1. Tabella HBase: servizi_Regione_QI.
- contributor name: Martelli

Terza Fase

descrizione di generazione delle triple RDF, terza fase
- descrizione eventuali elaborazioni a mano e criticità: non sono presenti elaborazioni a mano
- posizione URL e nomi di file di elaborazione a mano o java, o perl o che altro
  1. Karma data integration: Il software si trova in /home/ubuntu/programs/Web-Karma-master
  2. Modello R2RML: /home/ubuntu/Desktop/Triples_RT/Models/Service_region.ttl
- fasi del processo: parti a mano, parti con altri tool----> ETL
  1. Karma data integration: La seconda fase lancia il software Karma (comando batch) per la generazione delle triple. Karma utilizza un modello R2RML precedentemente creato a mano. Per avviare il tool grafico per la generazione dei modelli R2RML tramite terminal andare su programs/Web Karma master (digitando “cd programs/Web-Karma-master”). A questo punto lanciare il comando: “mvn jetty:run” . Il programma risulterà completamente avviato quando sul terminal comparirà la scritta [INFO] Started Jetty Server . A questo punto per poterlo utilizzare è sufficiente andare sul browser e digitare “http://localhost:8080/web-karma.html”. Per poter avviare Karma su una porta a piacere (diversa dalla 8080 che potrebbe essere dedicata ad altri processi) si può eseguire il comando “mvn -Djetty.port=9999 jetty:run” (ovviamente al posto di 9999 va specificata la porta desiderata).
  2. Nella seconda fase viene lanciato lo script fornito da Owlim, example.sh, che carica le triple generate sul repository RDF (km4city sulla macchina windows - 192.168.0.205).
- dove sta l'ETL URL, come si chiama:
  1. /home/ubuntu/Desktop/Trasformazioni/TrasformazionePrevisioni_new/Fase_B_RegioneCsv/Main_csv2.kjb.
  2. Le trasformazioni chiamate dal job principale sono sulla stessa cartella.
- descrizione sommaria dell'ETL:
  1. Main_csv2.kjb: si imposta le variabili d'ambiente (in particolare nella trasformazione GetConfig vengono settate le variabili relative ai parametri di connesione ai database mysql e HBase), si va ad effettuare un DROP e una CREATE TABLE in SQL, si richiamano le TRASF getTime e HbaseToMySQL2. Si controlla quante righe ha la tabella e se non si ottiene errore si chiama la trasformazione Create a folder. Quest'ultima crea una cartella con path /home/ubuntu/Desktop/Triples/Servizi/Arte_e_cultura_csv/Anno_Mese/Giorno/Ora/MinutiSecondi. Si va a richiamare uno script da shell che permette di creare le triple RDF e poi si va a richiamare la TRASF updateLastTriples.
  2. TRASF getTime: si recupera dalla tabella mysql process_manager2 la data di ultima generazione delle triple RDF del processo considerato. Da questa data viene generato un analogo timestamp.
  3. TRASF HBaseToMySQL2: si fa una query su HBase (sulla tabella servizi_Regione_QI) che preleva tutte le righe relative al prcoesso in questione e aventi un time di misurazione maggiore al timestamp generato nello step precedente. Questi dati vengono poi memorizzati nella tabella temporanea del processo creata in precedenza.
  4. TRASF createActualDate: preleva da sistema la data attuale e crea le variabili anno_mese, giorno, ora, minutisecondi che verrano utilizzate per definire il path in cui memorizzare le triple.
  5. TRASF updateLastTriples: prende il processName e va ad aggiornare il realtivo campo last_triples nella tabella process_manager2 con la data creata in precedenza.
- descrizione e posizione dei file di output (triple):

/home/ubuntu/Desktop/Triples/Servizi/Strutture_ricettive2_csv/%Data%/Strutture_ricettive2_csv.n3.

contributor name: Martelli

Semantic Model

Descrizione del mapping delle triple rispetto al KB
1. A ciascun Service è associato il codice, cioè il codice ISTAT di classificazione delle attività economiche, il quale potrebbe essere utilizzato in futuro come filtro per definire la varie sottoclassi, al posto dell'attuale suddivisione in base alle categorie definite dalla Regione Toscana, in modo da rendere più precisa la ricerca dei vari tipi di servizi. L'attuale suddivisione dei servizi in sottoclassi si basa sul valore dell'objectProperty serviceCategory. Qui di seguito riportiamo la mappatura delle colonne dei CSV sulla KB:
  1. Tipologia: permette di determinare a quale serviceCategory appartiene il servizio;
  2. Nome: e' mappato nella dataProperty schema:name di Service;
  3. Via: e' mappato nella dataProperty schema:street-address di Service;
  4. Citta': e' mappato nella dataProperty schema:addressLocality di Service;
  5. Provincia: e' mappato nella dataProperty schema:addressRegion di Service;
  6. Email: e' mappato nella dataProperty SiiMobility:email di Service;
  7. Url: e' mappato nella dataProperty schema:url;
  8. Lat: e' mappato nella dataProperty geo:lat di Service;
  9. Long: e' mappato nella dataProperty geo:long di Service;

Contributor name: Rauch

Riconciliazione

Open Problem

problemi residui:
- eventuali inconsistenze, elementi da riconciliare:
  1. All'interno dei vari file di triple relativi alle riconciliazioni, sono presenti triple relative a 24 diversi dataset di servizi forniti dalla Regione Toscana.