DataSet: Parcheggi - Dati Statici | DISIT Lab of University of Florence

DataSet: Parcheggi - Dati Statici

Sorgente

Identificativo del campo chiave del database

parcheggi_stat

link per vedere tabella del db
posizione e nome del file scaricato, URL

Macchina virtuale linux (192.168.0.72) - /home/ubuntu/Desktop/File_sorgenti/Services/Parcheggi_csv/%Data%/Parcheggi.csv.

Prima Fase

descrizione del processo di ingestion, prima fase
- descrizione eventuali elaborazioni a mano e criticità
1. Al momento la fase di ingestion prevede che il filse sorgente Parcheggi.csv venga scaricato manualmente dal sito dell'Osservatorio dei Trasporti della Regione Toscana. Inoltre le informazioni presenti in questo file sono limitate ai parcheggi di Firenze e di alcuni comuni della provincia.
- posizione URL e nomi di file di elaborazione a mano o java, o perl o che altro
1. HBase (ver. 0.90.5): il software si trova in /home/ubuntu/programs/hbase
2. h-rider (ver. 1.0.3.0): il software si trova in /home/ubuntu/programs/h-rider
- fasi del processo: parti a mano, parti con altri tool----> ETL
1. HBase: Viene usato il database HBase distribuito per la memorizzazione dei dati elaborati. Per avviare l'esecuzione sull'intero cluster da terminale, dalla macchina master (192.168.0.72) andare su "home/ubuntu/programs/hbase/bin" e digitare "./start-hbase.sh".
2. h-rider: Per la visualizzazione dei database HBase viene utilizzato un software che permette di controllarne il contenuto in modo grafico, per semplificare le cose. Questo tool permette anche di effettuare le principali operazioni attuabili. Per avviare il programma con il terminal andare su /home/ubuntu/programs/h-rider (digitando “/home/ubuntu/programs/h-rider”). Da qui eseguire il comando java -jar h-rider-1.0.3.0.jar . Si aprirà una nuova finestra che chiede il “ZooKeeper Quorum” digitare l'ip della macchina master (192.168.0.72) e la porta 2181.
- dove sta l'ETL URL, come si chiama
1. Directory+file: /home/ubuntu/Desktop/Trasformazioni/TrasformazioneServizi_new/Main.kjb
2. Le trasformazioni chiamate dal job principale sono nella stessa cartella.
- descrizione sommaria dell'ETL
1. JOB Main: imposta le variabili d'ambiente (in particolare nella trasformazione GetConfig vengono settate le variabili relative ai parametri di connesione ai database mysql e HBase), richiama le trasformazioni Database e Servizi_csv1_ING che provvederà a memorizzare i dati in HBase.
2. TRASF DataBase: recupera il nome del processo ed imposta la relativa variabile d'ambiente. Seleziona dalla tabella process_manager2 del database mysql SiiMobility la riga contenente informazioni relative al processo e crea le variabili d'ambiente corrispondenti all'Anno_Mese, Giorno, Ora, MinutiSecondi della data attuale. Le righe risultanti dalla SELECT vengono copiate nei risultati.
3. TRASF Servizi_csv1_ING: si apre il file CSV, si rimuovono le \ dal campo DEN_POI, viene poi creata la chiave per l'inserimento dei dati nella tabella parcheggi_dati_statici di HBase, e infine viene aggiornato il campo last_update nella tabella process_manager2 con l'ultima data di inserimento.
- descrizione e posizione dei file di output
1. Tabella HBase - parcheggi_dati_statici
- contributor name: Di Claudio

Seconda Fase

descrizione del processo di quality improvement, seconda fase
descrizione eventuali elaborazioni a mano e criticità:

non sono presenti elaborazioni a mano

dove sta l'ETL URL, come si chiama:
1. /home/ubuntu/Desktop/Trasformazioni/TrasformazioneServizi_new/Data_QI.kjb
2. Le trasformazioni chiamate dal job principale sono sulla stessa cartella.
descrizione sommaria dell'ETL:
1. Data_QI.kjb: imposta le variabili d'ambiente (in particolare nella trasformazione GetConfig vengono settate le variabili relative ai parametri di connesione ai database mysql e HBase) e richiama le trasformazioni Get_lastupdate e Servizi_csv2_QI.
2. TRASF Get_lastupdate: recupera il nome del processo e l'ultima data di aggiornamento dei dati impostando le relative variabili d'ambiente.
3. TRASF Servizi_csv2_QI: si recuperano i dati dalla tabella HBase parcheggi_dati_statici, si applicano dei processi di miglioramento della qualità dei dati sui campi Nome, Città, Provincia, Indirizzo, Numero civico, Telefono e fax. Infine, si vanno ad inserire i dati migliorati in HBase nella tabella parcheggi_dati_statici_QI.
descrizione e posizione dei file di output:
1. Tabella HBase - parcheggi_dati_statici_QI.
contributor name: Di Claudio

Terza Fase

descrizione del processo di generazione delle triple RDF, seconda fase
- descrizione eventuali elaborazioni a mano e criticità
1. Non previste
- posizione URL e nomi di file di elaborazione a mano o java, o perl o che altro
1. Karma data integration: Il software si trova in /home/ubuntu/programs/Web-Karma-master
2. Modello R2RML: /home/ubuntu/Desktop/Triple_RT/Models/Parcheggi_statiModel.ttl
- fasi del processo: parti a mano, parti con altri tool----> ETL
1. Karma data integration: La seconda fase lancia il software Karma (comando batch) per la generazione delle triple. Karma utilizza un modello R2RML precedentemente creato a mano. Per avviare il tool grafico per la generazione dei modelli R2RML tramite terminal andare su programs/Web Karma master (digitando “cd programs/Web-Karma-master”). A questo punto lanciare il comando: “mvn jetty:run” . Il programma risulterà completamente avviato quando sul terminal comparirà la scritta [INFO] Started Jetty Server . A questo punto per poterlo utilizzare è sufficiente andare sul browser e digitare “http://localhost:8080/web-karma.html”. Per poter avviare Karma su una porta a piacere (diversa dalla 8080 che potrebbe essere dedicata ad altri processi) si può eseguire il comando “mvn -Djetty.port=9999 jetty:run” (ovviamente al posto di 9999 va specificata la porta desiderata).
2. Nella seconda fase viene lanciato lo script fornito da Owlim, example.sh, che carica le triple generate sul repository RDF (km4city sulla macchina windows - 192.168.0.205).
- dove sta l'ETL URL, come si chiama
1. Directory+file: /home/ubuntu/Desktop/Processi_ETL/TrasformazioneParcheggiStat_new/Fase_B_RegioneCsv/Main_csv1.kjb
2. Le trasformazioni chiamate dal job principale sono nella stessa cartella.
- descrizione sommaria dell'ETL
1. JOB Main_csv1.kjb: si imposta la directory di lavoro e nella TRASF getConfig vengono setteti i parametri per le connessioni. Si effettuano un DROP e una CREATE TABLE in SQL, si richiamano le TRASF getTime e createTmpTable. Si controlla quante righe ha la tabella e se non si ottiene errore, si chiama la TRASF createActualDate, e si va a creare una cartella con il path Triple_RDF/Parcheggi/processName/Anno_Mese/Giorno/Ora/Min_Sec. Si va a richiamare uno script da shell che permette di creare le triple e si richiama poi la TRASF updateLastTriples per aggiornare la data di generazione delle triple RDF.
2. TRASF Get_Time.ktr: si recupera dalla tabella MySQL process_manager2 il valore del campo last_triples relativo allo specifico processo, che corrisponde all'ultima data di generazione delle triple. Da questa data tramite lo step get data inser viene generato un analogo timestamp.
3. TRASF createTmpTable (HbaseToMySQL): si fa una query su HBase che preleva tutte le righe relative ai dati statici dei parcheggi aventi un timestamp di inserimento nel db maggiore del timestamp generato nello step precedente, quello corrispondente all'ultima generazione delle triple. Questi dati vengono poi memorizzati nella tabella MySQL temporanea del processo creata in precedenza.
4. TRASF createActualDate: preleva da sistema la data attuale e crea le variabili anno_mese, giorno, ora, minutisecondi che verrano utilizzate per definire il path in cui memorizzare le triple. Viene inoltre creata la variabile date_LT che verrà utilizzata per aggiornare la data di generazione delle triple sul db MySQL.
5. TRASF updateLastTriples: prende il processName, e va ad aggiornare il realtivo campo last_triples nella tabella process_manager2 con il valore della variabile date_LT definita in precedenza.
- descrizione e posizione dei file di output (triple)
1. /home/ubuntu/Desktop/Triple_RDF/Parcheggi/parcheggi_stat/%DATA%/parcheggi_stat.n3
- contributor name: Di Claudio

Semantic Model

Descrizione del mapping delle triple rispetto al KB
contributor name

Open Problem

problemi residui:
- eventuali inconsistenze, elementi da riconciliare
1. Il download del file sorgente è un'operazione che viene fatta manualmente. Va quindi ripetuta qualora i dati forniti dovessero subire delle modifiche. Le informazioni statiche dei parcheggi fornite dall'Osservatorio dei Trasporti ad oggi si limitano solo ai parcheggi di Firenze e ad alcni comuni della provincia.
- suggerimenti per non portarsi questi errori avanti nelle prossime ingestion