Ανοιχτά Δεδομένα, Linked Data & RDFa



Ιανουαρίου 31, 2010

Παίρνω αφορμή την ανακοίνωση του γραφείου του προέδρου των Η.Π.Α. σχετικά με την ανοιχτή κυβέρνηση, η οποία δημοσιεύτηκε στις αρχές Δεκεμβρίου 2009. Στην παρούσα επιστολή θέτονται οι βασικές αρχές και άξονες προς την υλοποίηση διαφάνειας και δια-λειτουργίας των κυβερνητικών υπηρεσιών [1]. Τα ακόλουθα αποτελούν εν μέρη μεταφράσεις των πηγών που παραθέτονται στο τέλος με την παραβολή των δικών μου σκέψεων. Θα προσπαθήσω να διαχωρίσω τα δύο όσο μπορώ χωρίς να δυσκολέψω την ανάγνωση.

Το σημαντικό με το συγκεκριμένο έγγραφο είναι ότι δεν πρόκειται μόνο περί των αρχών που θα πρέπει να διέπει την προσπάθεια, αλλά προχωρά και στην τοποθέτηση συγκεκριμένων χρονοδιαγραμμάτων. Και ίσως αυτό είναι και το πιο σημαντικό στοιχείο. Γιατί δεν αρκεί μόνο να παρουσιάζεις τα σχέδια στρατηγικής υλοποίησης, θα πρέπει να διαθέτεις και ένα τρόπο να προωθήσεις τους εμπλεκόμενους σε πράξη. Η συγκεκριμένη μελέτη θέτει ως προϋπόθεση την παραγωγή ενός προσωπικού σχεδίου ανοιχτής κυβέρνησης για κάθε υπηρεσία/υπουργείο μέσα σε 120 μέρες αλλά επίσης και την “απελευθέρωση” τουλάχιστον 3 τόμων υψηλής αξίας δεδομένων σε ανοιχτή μορφή μέσα σε 45 για κάθε τμήμα τους. Τέτοιες αμετακίνητες προθεσμίες προσδίδουν μεγάλο ειδικό βάρος στην σπουδαιότητα των ενεργειών και οδηγούν τα αποτελέσματα μπροστά.

Οι βασικές αξίες της διαφανούς κυβέρνησης παρουσιάζονται ως εξής και είναι σημαντικό πιστεύω να μπορέσουμε να απορροφήσουμε δημιουργικά όσο περισσότερη πληροφορία μπορούμε. Τα παρακάτω αποτελούν μετάφραση από το αυθεντικό κείμενο τοποθέτησης όπως είχε παρουσιαστεί το 2007 από επιτροπή υπό τους Tim O’Reilly και Carl Malamud [2].

Τα κυβερνητικά δεδομένα θα θεωρούνται ανοιχτά, αν διατίθενται με τρόπο που συνάδει με τις παρακάτω αρχές:

Πλήρη Όλα τα δημόσια δεδομένα διατίθενται χωρίς περιορισμό. Δημόσια είναι όλα τα δεδομένα που δε υπόκεινται σε αναγκαίο περιορισμό λόγω προσωπικής φύσης ή διαβάθμισης

Πρωτογενή δεδομένα είναι αυτά που συλλέγονται στην πηγή της δημιουργίας του και διαθέτουν τον υψηλότερο βαθμό κατάτμησης (κβαντοποίησης) χωρίς αλλαγές ή συγχωνεύσεις.

Τα δεδομένα δημοσιεύονται όσο το δυνατό γρηγορότερα ώστε να διατηρούν την χρησιμότητά τους.

Τα δεδομένα είναι ευρέως διαθέσιμα στο μεγαλύτερο δυνατό εύρος χρηστών και χρησιμοτήτων.

Τα δεδομένα θα πρέπει να βρίσκονται σε μορφή φιλική προς υπολογιστική επεξεργασία από την υπάρχουσα τεχνολογία.

Δεδομένα χωρίς διακρίσεις. Τα δεδομένα είναι διαθέσιμα σε όλους/ες του ενδιαφερόμενους/ες χωρίς την ανάγκη εγγραφής προσωπικών δεδομένων.

Ανοιχτά δεδομένα. Τα δεδομένα θα πρέπει να διατίθενται σε μορφή της οποίας καμία οντότητα δεν θα έχει αποκλειστικό έλεγχο ή πνευματικά δικαιώματα.

Αποποίηση πνευματικών δικαιωμάτων. Τα δεδομένα δεν θα δεσμεύουν πνευματικά δικαιώματα, πατέντες, λογότυπα κτλ. Λογικοί περιορισμοί θα μπορούν να επιβληθούν σε περιπτώσεις ανάγκης προσωπικής προστασίας δεδομένων, ασφάλειας ή διαβάθμισης.

Τα δεδομένα που εισέρχονται σε αυτές τις κατηγορίες θα πρέπει να είναι επιθεωρίσιμα[sic].

Διευκρινήσεις

“Δημόσια” σημαίνει:
Οι αρχές των Ανοιχτών Δεδομένων Διακυβέρνησης δεν διευκρινίζουν ποιά δεδομένα θα πρέπει να είναι δημόσια και ανοιχτά. Η ιδιωτικότητα, η ασφάλεια και άλλες αφορμές θα μπορέσουν νόμιμα (και δίκαια) να εμποδίσουν δεδομένα από την διαμοίραση τους με το κοινό. Αντ’αυτού αυτές οι οδηγίες ορίσουν τις συνθήκες ώστε δημόσια δεδομένα να χαρακτηρίζονται “ανοιχτα”.

“Δεδομένα” σημαίνει:
Ηλεκτρονικά αποθηκευμένες πληροφορίες ή καταγραφές. Παραδείγματα περιλαμβάνουν έγγραφα, βάσεις δεδομένων συμβολαίων, απομαγνητοφωνήσεις συνομιλιών, και οπτικό-ηχητικές καταγραφές γεγονότων.
Ενώ μή-ηλεκτρονικές πηγές πληροφορίας, όπως φυσικά αντικείμενα, δεν εμπίπτουν στις αρχές των Ανοιχτών Δεδομένων Διακυβέρνησης, ενθαρύνεται η πρακτική της ψηφιοποίησης του εν λόγω υλικού στο βαθμό που είναι εφικτό.

“ επιθεωρίσιμα” σημαίνει:
Θα πρέπει να οριστεί ένα άτομο επικοινωνίας όταν το κοινό προσπαθεί να χρησιμοποιήσει τα δεδομένα
Θα πρέπει να οριστεί ένα άτομο επικοινωνίας όταν γίνονται παράπονα σχετικά με παραβιάσεις των αρχών χρήσης
Μία δικαστική αρχή θα πρέπει να έχει τη δικαιοδοσία να επιθεωρήσει αν η υπηρεσία διαχείρισης των δεδομένων έχει εφαρμόσει τις αρχές ορθά.

Η ανακοίνωση φαίνεται να καλύπτει αρκετά από τα σημεία αν και με αρκετά “αν” όπως δηλώνει και το techpresident.com [1]. Το βασικό είναι να μείνουμε στις ανωτέρω αρχές όπως τέθηκαν. Πολύ σημαντική είναι η δυνατότητα ελέγχου της επιλογής και εφαρμογής των αρχών διαχείρισης στα δεδομένα. Να έχει την δυνατότητα ο/η κάθε πολίτης να ελέγχει τον μηχανισμό τοποθέτησης δεδομένων με ταυτόχρονη δικαστική διέξοδο, από δικαστές γνώστες του αντικείμενου.

Πρόσφατα είχαμε από την αντίπερα όχθη της Αμερικής, την πρώτη υλοποίηση ανοιχτών κρατικών δεδομένων από το Ηνωμένο Βασίλειο της Βρετανίας [3]. Υπό την καθοδήγηση του Sir Tim Berners-Lee [4] η κυβέρνηση της Βρετανίας επιχειρεί την δημοσίευση ενός μεγάλου μέρους της κρατικής πληροφορίας σε ένα ανοιχτό μοντέλο παροχής. Ήδη υπάρχει πληθώρα σετ δεδομένων στον ιστοχώρο. Από μία πρόχειρη ματιά που έριξα όμως διαπίστωσα μια ανομοιογένεια στον τύπο των δεδομένων. Βρήκα απλά παραπομπές που με οδηγούσαν στους επιμέρους ιστοχώρους με τα δεδομένα σε μορφές, pdf, xls, doc κτλ.[5]

Θα προτιμούσα να έβλεπα μια ενιαία αντιμετώπιση στη μορφή της διαμοίρασης των δεδομένων. Είναι ήδη όμως εμφανής η ενεργή παρουσία των εθελοντών προγραμματιστών στην δημιουργία καινοτόμων εφαρμογών με την χρήση αυτών των δεδομένων. [6]

Στην ελληνική περίπτωση θα ήταν μια ιδανική ευκαιρία, μια και δυστυχώς δεν υπάρχει κανένα σύγχρονο πρότυπο διαχείρισης δεδομένων, να ξεκινούσαμε από το μηδέν και να υλοποιούσαμε ένα σύστημα συλλογής και επαναδιανομής δεδομένων μεταξύ των κρατικών υπηρεσιών και των πολιτών. Οι βασικές δεσμεύσεις θα έπρεπε να περιλαμβάνουν την υιοθέτηση ανοιχτών πρωτοκόλλων όπως το ODF πχ.[7] Το συγκεκριμένο πρωτόκκολο αρχείων εκτός του γεγονότος ότι δημιουργείται από πλατφόρμες ανοιχτού λογισμικού (βλ. OpenOffice), το οποίο εκμηδενίζει το κόστος τους προϋπολογισμού τους, έχει το θετικό ότι μπορεί να μετασχηματιστεί “εύκολα” σε εναλλακτικούς τύπους δεδομένων. Για παράδειγμα θα μπορούσαμε να πάρουμε το σενάριο ενός αρχείου .ods (spreadsheet/λογιστικό φύλλο). Στην προκειμένη περίπτωση θα μπορούσαμε να υποθέσουμε μια τυποποιημένη φόρμα φορολογίας. Κάθε φορολογούμενος θα μπορούσε να συμπληρώσει την δήλωσή του ηλεκτρονικά στο λογιστικό φύλλο, αναφέροντας και όλες τις αποδείξεις που προσυποβάλλονται. Παρόμοια κατάθεση θα μπορούσε να γίνεται και από τα λογιστήρια των εταιριών, με ένα ποιο ανεπτυγμένο μοντέλο όμως που θα επανέλθω σε μελλοντικό άρθρο. Ανα την συμπλήρωση της δήλωσης θα γίνεται αποστολή σε ειδική ηλεκτρονική υπηρεσία του Υπουργείου Οικονομικών. Το πρόβλημα και το κόλλημα από το σημείο αυτό και μετά είναι ότι αχρηστεύεται όλη η εργασία και δουλειά που έχει καταβάλλει ο φορολογούμενος με την επανεισαγωγή των φορολογικών στοιχείων από τους φοροτεχνικούς υπαλλήλους στο επιμέρους σύστημα του Υπουργείου. Πιστεύω ότι θα πρέπει να παρακάμπτεται αυτό το σκέλος. Όχι του ελέγχου αλλά της χειροκίνητης εισαγωγής. Το αρχείο .ods είναι στην ουσία ένας συμπιεσμένος φάκελος που περιλαμβάνει τα στοιχεία του εγγράφου με την μορφή XML. Το απλούστερο σε αυτή τη περίπτωση θα ήταν μία αναδόμηση του δέντρου του XML σε μια μορφή JSON. Η συγκεκριμένη μορφή έχει τα εξής χαρακτηριστικά. Αφότου δημιουργηθεί μπορεί να αποθηκευτεί σε βάσεις δεδομένων αλλά και να παρέχεται σε οποιαδήποτε web app η οποία χρησιμοποιεί JavaScript. Η δημοφιλία αυτής της γλώσσας την κάνει ιδανική για την επανάχρηση των δεδομένων. Σε κάθε περίπτωση όμως τα δεδομένα στην βάση δεδομένων θα πρέπει να μετασχηματίζονται στο πρότυπο RDF.[8]

Το πρότυπο αυτό συμβαδίζει με την ιδέα του Σημειολογικού Διαδικτύου και των διασυνδεδεμένων δεδομένων.[9] Είναι επίσης στενά ενσωματωμένο με το Drupal [10] καθιστώντας το ιδανικό εργαλείο για την κατασκευή front-end ιστοχώρων.

Το ιδανικό χαρακτηριστικό με αυτής της μορφής τα δενδροειδή πρότυπα αρχείων είναι η “σχετικά” εύκολη μετάλλαξη τους σε έτερα πρότυπα, ανάλογα με τις τρέχουσες ανάγκες.

Θα επανέλθω σύντομα με σχετικό άρθρο στο θέμα των λογιστικών δεδομένων των εταιριών.

Ευχαριστώ για την υπομονή σας να διαβάσετε μέχρι το τέλος!!!

Χρίστος.

———————— Παραπομπές ————————-

[1] The Open Government Directive has dropped. Here’s what’s in it — and why it’s a big deal.

[2] Open Government Working Group

[3] Unlocking innovation – Data.gov.uk – Working with UK Public Sector information and data

[4] Tim Berners-Lee unveils government data project – Ομιλία του ιδίου για το σημασιολογικό διαδίκτυο

[5] Accident and emergency statistics – Data.gov.uk
[6] Apps List – Data.gov.uk
[7] OpenDocument Format – Wikipedia entry
[8] RDFa (or Resource Description Framework – in – attributes) -Wikipedia entry
[9] RDFa Primer – W3C
[10] RDFa in Drupal – examples and use cases

Το κείμενο με τις υπερ-συνδεσεις βρίσκεται εδώ:
delivorias.me

4 Σχόλια »

  1. Σχόλιο από Κωνσταντίνα Σδραβοπούλου — 16 Φεβρουαρίου, 2010 @ 5:14 μμ

    Το κείμενο του συμπολίτη Χρίστου εξηγεί άριστα γιατί τα δεδομένα θα πρέπει να είναι ανοιχτά και επισημαίνει τους λογικούς περιορισμούς θέτοντας και τρόπους λύσης πιθανών αδιεξόδων. Είναι θέμα της εκλεγμένης κυβέρνησης να φροντίσει ώστε η εφαρμογή να μη θίγει τις ευαισθησίες των κοινωνικών ομάδων. Η καλή διοίκηση του κράτους είναι δουλειά των όλων των πολιτικών.

  2. Σχόλιο από CWP — 18 Φεβρουαρίου, 2010 @ 2:34 πμ

    Αυτό που προτείνεις έχει προβλήματα υλοποίησης αν γίνει με JSON αντι για XML.
    Υπάρχει συγκεκριμένο κόλημα στη χρήση Json γιατί όταν κάνεις serialize τα data τα περνάς στο URL και περιμένει ο client το response απ το server, στη JSON προυποτίθεται ότι client και server βρίσκονται στο ίδιο domain για να γίνει το callback. Κάτι που σε συνδιασμό με τις ασυμβατότητες που έχουν ΟΛΟΙ οι browsers με την JSON και με το ότι δεν υποστηρίζει «καθαρό» XMLHTTPREQUEST, δημιουργεί μεγάλη φασαρία στο να κάνεις κύκλους και πατέντες για να σερβίρεις τα δεδομένα και να ξαναπάρεις απάντηση απ τον client. Για αυτό και οι περισσότεροι που ασχολούνται με web services προτιμούν την «σκέτη» XML. Χώρια ότι δημιουργεί και ένα σωρό άλλα προβλήματα ασφαλείας, γιατί πρέπει να έχεις persistent cookies, και γενικά η μέθοδολογία έχει εγκαταληφθεί ως μη παραγωγική και προβληματική.
    Προς το παρόν υπάρχει μεγάλο θέμα με τη JSON σε όλους τους browsers, κάτι που σημαίνει ότι δεν μπορούμε να την έχουμε ως κομμάτι σε web services όπου data απο κρατικό site, σερβίρονται σε πολίτες, και τούμπαλην. Για αυτό και η XML είναι μονόδρομος (και safe).

  3. Σχόλιο από TheloNaMeinoAnonimos — 24 Φεβρουαρίου, 2010 @ 6:20 πμ

    είμαι υπερ στο ΕΛ/ΛΑΚ

    απλά πρέπει να λάβουν επιτέλους πολύ σοβαρά υπόψη τους ότι δεν γίνεται να βασίζουν τα έργα ΤΠΕ του δημοσίου σε ανθρώπους χωρίς βασικό πτυχίο

    Θα δεχόσασταν ποτέ να σας κάνω εγχείρηση χωρίς πτυχίο;
    Θα δεχόσασταν ποτέ να σας εκπροσωπήσω σε κάποιο Δικαστήριο ενώ δεν έχω σπουδάσει;
    Θα δεχόσασταν να κάνω ενέσεις στο πρόβατο/σκύλο/κτλ σας χωρίς πτυχίο;
    Θα δεχόσασταν να σχεδιάσω το αμάξι/αεροπλάνο που θα πετάξει το παιδί σας και εσείς χωρίς πτυχίο;

    Πως ζητάτε να δημιουργηθούν Λογισμικά απο μη Επιστήμονες / Μηχανικούς ;

    Αν θεωρείτε ότι δεν είναι ίδια η Ιατρική/Νομική/Κτηνιατρική/κτλ με την Πληροφορική προφανώς δεν υπάρχει πλαίσιο συζήτησης.

  4. Σχόλιο από Χρίστος Δεληβοριάς — 17 Μαρτίου, 2010 @ 12:13 πμ

    @CWP Το θέμα του JSON σίγουρα είναι ένα πολύ μεγάλο θέμα. Δεν είμαι σίγουρος τί εννοείς σχετικά με το ότι έχει εγκαταληφθεί σαν πρότυπο. Θα διαφωνήσω, με επιφυλάξεις, μια και η Google αλλά και συγκεκριμένες βάσεις δεδομένων το χρησιμοποιούν σαν πρότυπο. Αυτό που σκεφτόμουν ήταν η παράληλη χρήση του με μια υλοποίηση σε NoSQL πλατφόρμα. Ο λόγος που το προτείνω αυτό είναι αφενός η ικανότητά της να παραλληλοποίείται η ανεύρευση μέσω map/reduce. Συμφωνώ ότι υπάρχουν πολλαπλές επιλογές ανάλογα με τις εκάστοτε απαιτήσεις CAP. Σίγουρα μπορείς να στραφείς στο XML μοντέλο του Dynamo. Το πρόβλημα είναι ότι είναι μια κλειστή τεχνολογία της Amazon. Από την άλλη η CouchDB είναι μια επιλογή ανοιχτού κώδικα. Το ίδιο και η Lucene για την αναζήτηση εγγράφων.
    Από την άλλη @TheloNaMeinoAnonimos είναι τρομακτική απλοποίηση εκ μέρους σου να εξισώνεις το ανοιχτό με την χαμηλή ποιότητα. Θα πίστευες ότι τα Apache, Linux, Eclipse, Drupal, Firefox, OpenSSL, κτλ ας μην μακρυγορώ. Η υλοποίηση του HBase πιστεύεις ότι στερείται ποιότητας επειδή δεν έχει προκύψει από κάποια εταιρία με πτυχία στην ζώνη της; Είναι μια ανοιχτή υλοποίηση του Big Table της Google. Η ιδέα στηρίζεται από αρκετά διδακτορικά. Το ότι έχει υλοποίηθεί με ανοιχτό κώδικα το υποβαθμίζει; Δεν θέλω όμως να μπώ σε μια τέτοια συζήτηση. Νομίζω χάνει το νόημα του θέματος που συζητάμε.
    Απλά θα ήθελα όταν μιλάμε για datasets & data centers να έχουμε μια πρόβλεψη για την δομή στέγασης και επαναδιάθεσης αυτών των δεδομένων.

    ευχαριστώ.

RSS feed για τα σχόλια. TrackBack URL

Σχολίασε

Twitter Users
Enter your personal information in the form or sign in with your Twitter account by clicking the button below.

 
Όροι Xρήσης | Πολιτική Προστασίας Δεδομένων | Πλαίσιο Συμμετοχής
Eκτός αν αναφέρεται διαφορετικά το σύνολο του περιεχομένου του labsOpeGov είναι αδειοδοτημένο με άδεια creative commons
Creative Commons License



O δικτυακός τόπος έχει υλοποιηθεί με το Ελεύθερο Λογισμικό / Λογισμικό Ανοικτού Κώδικα WordPress, από την Ομάδα Ηλεκτρονικής Διακυβέρνησης του Γραφείου του Πρωθυπουργού