Βοήθεια:Σχετικά με τα δεδομένα
Τα Wikidata είναι μια δωρεάν γνωσιακή βάση αναγνώσιμη και επεξεργάσιμη τόσο από τον άνθρωπο όσο και από τις μηχανές. Είναι ένα από τα πολλά εγχειρήματα που βασίζονται στην τεχνολογία wiki και φιλοξενούνται και υποστηρίζονται από το Ίδρυμα Wikimedia, έναν μη κερδοσκοπικό οργανισμό ελεύθερου περιεχομένου, πιθανόν ευρύτερα γνωστού για τη Βικιπαίδεια. Κάθε εγχείρημα του Ιδρύματος Wikimedia έχει διαφορετικό επίκεντρο - για παράδειγμα η Βικιπαίδεια είναι για εγκυκλοπαιδικό περιεχόμενο, τα Wikimedia Commons υποστηρίζουν εικόνα και άλλους τύπους μέσων, το Βικιλεξικό παρέχει λεξιλογικές πληροφορίες για τις λέξεις, όπως ορισμούς και συνώνυμα. Στο επίκεντρο των Wikidata βρίσκονται τα δομημένα δεδομένα.
Αυτή η σελίδα προορίζεται ως επισκόπηση των δομημένων δεδομένων. Αν είστε ήδη εξοικειωμένοι με τα δομημένα δεδομένα αλλά θέλετε να μάθετε περισσότερα ειδικά για τη χρήση τους στα Wikidata, πώς να έχετε πρόσβαση στα δεδομένα των Wikidata, πώς να συνεισφέρετε τα δεδομένα του δικού σας εγχειρήματος στα Wikidata, παρακαλώ μεταβείτε στην ενότητα για τη διασύνδεση δεδομένων.
Κατανοώντας τα Wikidata
Τα δομημένα δεδομένα αναφέρονται σε δεδομένα που έχουν οργανωθεί και αποθηκεύονται με ένα ορισμένο τρόπο, συχνά με την πρόθεση να κωδικοποιούν τη σημασία και να διατηρούν τις σχέσεις μεταξύ διαφορετικών σημείων δεδομένων εντός ενός συνόλου δεδομένων.
Αλλά τι είναι, επιτέλους, τα δεδομένα; Και γιατί θα έπρεπε να ενδιαφερθείτε ειδικότερα για τα δομημένα δεδομένα;
Ορίζοντας τα δεδομένα
Μαζικά δεδομένα, πειραματικά δεδομένα, ανοιχτά δεδομένα, μεταδεδομένα - μπορεί να έχετε συναντήσει κάποιον από τους όρους αυτούς ή ακόμη και όλους.
Κάθε όρος σημαίνει κάτι ελαφρώς διαφορετικό αλλά όλοι στηρίζονται σε μια κοινή κατανόηση των δεδομένων και των δυνατοτήτων τους να περιγράφουν και να βελτιώνουν την αντίληψή μας για τον κόσμο γύρω μας.
Ως αφηρημένη έννοια, τα δεδομένα μπορούν να ιδωθούν ως πρόδρομος της πληροφορίας, υπό την έννοια ότι η πληροφορία μπορεί να συναχθεί ή να προκύψει από δεδομένα.
Αυτό συμβαίνει γιατί όταν αναλυθούν εξαντλητικά στην ουσία τους είναι απλώς έαν σύνολο "τιμών" για "πράγματα". Αυτές οι τιμές μπορεί να είναι ποσοτικές ή ποιοτικές, όπως μια μέτρηση ή ένα ποσό. Μπορούν επίσης να είναι ποιοτικές, όπως μια περιγραφή ή μια σύγκριση. Για παράδειγμα, μπορούμε να πούμε ότι "8.848 μ. (29.029 πόδια)" είναι η τιμή του δεδομένου για το ύψος του όρους Έβερεστ και ότι το "κόκκινο" είναι μια τιμή δεδομένου για το χρώμα ενός αυτοκινήτου.
Όπως αναφέρθηκε νωρίτερα, η πληροφορία δεν είναι το ίδιο με το δεδομένο αλλά αντ' αυτού, είναι ένα προϊόν συλλογής και ανάλυσης δεδομένων. Για παράδειγμα, "8.848" (δεδομένο) είναι από μόνος του ένας αριθμός κατά κάποιο τρόπο χωρίς νόημα, ακόμη κι αν γνωρίζουμε ότι είναι το ύψος ενός βουνού. Μπορούμε να πούμε μόνο ότι "το όρος Έβερεστ είναι το ψηλότερο βουνό του κόσμου στα 8.848 μ." (πληροφορία) αν γνωρίζουμε τα πρότυπα μέτρησης του ύψος και εφόσον γνωρίζουμε το ύψος άλλων βουνών. Γίνεται ευκολότερο το να συνάγουμε τέτοια συμπεράσματα, να κερδίσουμε νέες πληροφορίες και γνώση, να αποδείξουμε γεγονότα όταν τα δεδομένα είναι δομημένα — θα επιστρέψουμε σε αυτή την ιδέα αργότερα.
Πού είναι τα δεδομένα;
Τα δεδομένα βρίσκονται παντού γύρω μας. Υπάρχουν πολλά είδη πηγών δεδομένων, συμπεριλαμβανομένων χρηματοοικονομικών, βιολογικών και κοινωνικών δεδομένων. Ακόμη και αυτή η σελίδα έχει δεδομένα! Για παράδειγμα, έχει ένα συνολικό αριθμό λέξεων, ημερομηνίες που δημιουργήθηκε και αναθεωρήθηκε, ένα θέμα και ένα αντικείμενο, αριθμό προβολών της σελίδας, και γλώσσες στις οποίες διατίθεται το περιεχόμενο.
Εντούτοις, ενώ τα πάντα μπορεί να αποτελέσουν πηγή δεδομένων, δεδομένα που δεν καταγράφονται και δεν οργανώνονται, μπορεί να μην υπάρχουν καν! Χωρίς μια υφιστάμενη δομή, τα δεδομένα εμφανίζονται χωρίς νόημα και αδυνατούν να παράσχουν χρήσιμη πληροφόρηση.
Όταν λέμε οργανωμένα, εννοούμε την κατηγοριοποίηση με ένα τυποποιημένο, μη ξεκάθαρο τρόπο. Τα οργανωμένα και κατηγοριοποιημένα δεδομένα είναι αυτά στα οποία αναφερόμαστε όταν λέμε δομημένα δεδομένα.
Πού είναι η δομή;
Στον ιστό, η δομή βασιλεύει. Οι περισσότερες ιστοσελίδες δημιουργούνται χρησιμοποιώντας HTML, μια γλώσσα σήμανσης η οποία παρέχει το κρηπίδωμα, τη δομή, μιας ισ��οσελίδας.
Οι γλώσσες σήμανσης χρησιμοποιούνται για την προσθήκη ετικετών και περιγραφή περιεχομένου σελίδων ώστε οι μηχανές αναζήτησης, τα BOT και εφαρμογές όπως οι RSS τροφοδοτήσεις να μπορούν εύκολα να το επεξεργαστούν και να το "κατανοήσουν".
Αντί να υποστηρίξει τη δομή και κοινά στοιχεία μιας ιστοσελίδας, τα Wikidata παρέχουν δομή για όλη την πληροφορία που αποθηκεύεται στη Βικιπαίδεια, και σε άλλα εγχειρήματα της Wikimedia. Τα Wikidata βασίζονται στο λογισμικό Mediawiki, όπως κάθε εγχείρημα της Wikimedia, με μια επέκταση Wikibase, το λογισμικό που ενεργοποιεί τα Wikidata και είναι σχεδιασμένο να διαχειρίζεται μεγάλα ποσά δομημένων δεδομένων. Η δομή δεν προστίθεται άμεσα στο περιεχόμενο της Βικιπαίδειας ή των άλλων σελίδων του τόπου της Wikimedia, όπως σε πίνακες και λίστες, ούτε απαιτείται από τους χρήστες των Wikidata καμία γνώση γλωσσών σήμανσης, σχημάτων δεδομένων, σημειογραφία αντικειμένου, ή άλλη ιδιαίτερη σύνταξη. Αντ' αυτού, τα δεδομένα προστίθενται και επεξεργάζονται στα Wikidata μέσω φιλικών προς το χρήση μορφών εισόδου.
Όλα τα δεδομένα που είναι αποθηκευμένα στα Wikidata μπορούν να χρησιμοποιηθούν για την παραγωγή κάθε τύπου αυτοματοποιημένων και επικαιροποιημένων λιστών ή πινάκων ή άλλων δομημένων σελίδων σε κάθε τόπο της Wikimedia η αλλού.
Δεδομένα για Βουνά | ||
---|---|---|
Βουνό | Ιδιότητα | Τιμή |
Mount Everest | height | 8,848 m |
K2 | hauteur | 8,611 m |
Kanchenjunga | height | 8,586 m |
Lhotse | height | 27940 ft |
Δομώντας δεδομένα
Ένα παράδειγμα για τη σημασία της δομής, ας δούμε τον Πίνακα 1. Σε αυτό τον πίνακα μπορούμε να δούμε δεδομένα για τα τέσσερα υψηλότερα βουνά στη Γη. Αν θέλαμε να μάθουμε μια συγκεκριμένη πληροφορία, όπως για παράδειγμα το ύψος του δεύτερου υψηλότερου βουνού του κόσμου, θα έπρεπε να μπορούμε να δούμε τα παρεχόμενα δεδομένα και να βρούμε τη σωστή τιμή. Εν τούτοις, μόνο τρία ή τέσσερα βουνά έχουν τα δεδομένα τους κατηγοριοποιημένα ως τιμή ύψους, και μόνο δύο από αυτά τα τρία βουνά έχουν τιμές σε μέτρα. Ενώ γνωρίζουμε ότι height και hauter (γαλλικά για το ύψος) μπορεί να εννοηθούν ως ισοδύναμα μεταξύ τους, και πώς μπορούμε να μετατρέψουμε τα μέτρα σε πόδια και αντιστρόφως, μια μηχανή, όπως ένα BOT ή πρόγραμμα υπολογιστή μπορεί να μην το γνωρίζουν.
Θα ήταν πολύ πιο εύκολο για ανθρώπους και μηχανές να επεξεργαστούν την πληροφορία και την απάντηση στο αρχικό ερώτημα για το δεύτερο υψηλότερο βουνό όταν όλα τα υφιστάμενα δεδομένα καταγράφονται με παρεμφερή τρόπο, ακόμη και αν η παρουσίασή τους διαφέρει.
Κατάρτιση μοντέλων δεδομένων
Συλλογές δομημένων δεδομένων, όπως τα Wikidata, οργανώνονται σύμφωνα με ένα "μοντέλο δεδομένων". Τα μοντέλα δεδομένων είναι μηχαναγνώσιμα, εννοώντας ότι μπορούν να γίνουν κατανοητά από υπολογιστή. Ενώ οι υπολογιστές είναι ισχυροί, συχνά δεν είναι τόσο έξυπνοι όσο εμείς, όταν πρόκειται για απλή λογική. Έτσι, στο παραπάνω παράδειγμα, η μηχανή δε θα ήταν σε θέσει να γνωρίζει ότι height και hauteur είναι το ίδιο εκτός κι αν είχε με κάποιο τρόπο ειπωθεί ρητά ότι έτσι συνέβαινε.
-
αντικείμενο: "Γη"
-
ιδιότητα: "υψηλότερο σημείο"
-
τιμή: "Έβερεστ"
Δεδομένα για Βουνά | ||
---|---|---|
Βουνό | Ιδιότητα | Τιμή |
Mount Everest | continent | Asia |
K2 | continent | Asia |
Kanchenjunga | continent | Asia |
Lhotse | continent | Asia |
Τα μοντέλα δεδομένων ποικίλουν βάσει των αναγκών ανάλυσης, σκοπού και εννοιολογικού πλαισίου στο σύνολο δεδομένων, και τις τεχνικές προδιαγραφές του συστήματος. Όμως, όλα τα μοντέλα δεδομένων τυπικά θα προσδιορίσουν τι είδους δεδομένα μπορούν να υποστηριχθούν από ένα σύστημα και τι σχέσεις μεταξύ των τιμών μπορούν να γίνουν κατανοητές και να παρασταθούν. Για παράδειγμα, ένα μοντέλο δεδομένων μπορεί να ορίσει ότι "height" και "hauteur" μπορεί να αντιστοιχηθούν μεταξύ τους ώστε και οι δύο όροι να αντιπροσωπεύουν μία ένοια, ή οι μετρήσεις σε πόδια να μετατρέπονται αυτόματα σε μέτρα. Το μοντέλο δεδομένων των Wikidata, διαμορφώνει τον τρόπο που τα δεδομένα μπορούν επεξεργασθούν και προστεθούν στο σύστημα από τους χρήστες. Είναι ακόμη ένα έργο εν εξελίξει, με νέους τύπους δεδομένων να προστίθενται στο μοντέλο με την πάροδο του χρόνου.
Το μοντέλο δεδομένων ουσιαστικά μεταφράζει μοτίβα της ανθρώπινης φυσικής γλώσσας σε μορφή επεξεργάσιμη από μηχανές. Για παράδειγμα, στα αγγλικά θα μπορούσαμε να πούμε: "Το Έβερεστ είναι το ψηλότερο βουνό στον κόσμο" Αυτή είναι επίσης η ακατέργαστη, μη δομημένη μορφή του περιεχομένου που υπάρχει σήμερα στη Βικιπαίδεια και σε όλους τους άλλους ιστότοπους του Wikimedia.
Στα Wikidata, αυτό θα αναπαρίστατο από μία δήωλωση, η οποία αποτελείται από ένα ζεύγος ιδιότητας-τιμής για το αντικείμενο, σε αυτή την περίπτωση τη Γη:
Earth (Q2) (αντικείμενο) → highest point (P610) (ιδιότητα) → Mount Everest (Q513) (τιμή)
Additionally, Wikidata would also hold a statement about the item for Mount Everest (indicating it is a mountain):
Mount Everest (Q513) (item) → instance of (P31) (property) → mountain (Q8502) (value)
Note that because other items can be used as the values for statements, and all items have their own unique page on Wikidata, this means that all items in the system can be linked together through a series of statements. Because Wikidata uses a machine-readable format, this interlinking of data allows new relationships and connections to be discovered and processed by machines. For example, in Table 2 we see new data for our mountains, this time about their geographical location by continent but nothing about their heights. Assuming this continent data was linked to the mountain height data, we would feel more confident making predictions or drawing certain conclusions about it, like saying that Asia is home to the world's highest mountains.
Συνδέοντας δεδομένα
Besides being a collection of structured data, Wikidata also supports linked data. Linked data refers to the practice of publishing structured data so that it can be interlinked.
For Wikidata this means that volunteer-contributed data can also be linked to other datasets, databases, and data sources from all around the web and from diverse initiatives outside of the Wikimedia family. For example, Wikidata currently allows interlinking with datasets and databases as diverse as Google Books, Canmore (one of the Historic Environment Scotland databases), the Vatican Library, OmegaWiki, and MusicBrainz.
By following linked data principles and practices, Wikidata is also able to support and be used by other projects.
Linked data principles
Wikidata uses unique identifiers, or uniform resource identifiers (URIs), for all its items as per linked data standards.
While Wikidata uses a unique data model, its content can be exported in RDF, a widely used and standard format for linked data. In Wikidata terms, a statement is composed of an item and a property-value pair. For those familiar with linked data concepts, an item can be viewed as the subject part of a triplet; the property represents a triplet's predicate; and a value is used to express the object of a triplet.
However, Wikidata statements may also contain elements beyond the subject-predicate-object, such as references and qualifiers (for more information, see Help:Statements). This makes it complicated to fully represent Wikidata's content using the language of RDF—more information on these challenges can be found in the document "Introducing Wikidata to the Linked Data Web".
Contributing data
If you have datasets you would like to contribute to Wikidata, please see Wikidata:Data donation.
Accessing data
The data in Wikidata is published under the Creative Commons Public Domain Dedication 1.0, allowing the free reuse of the data. You can copy, modify, distribute and perform the data, even for commercial purposes, all without asking permission.
See Data access for details about the different ways to programmatically access Wikidata's data.
Δείτε επίσης
Για σχετικές σελίδες, δείτε:
Για πρόσθετες πληροφορίες και οδηγίες, δείτε:
- Project chat, for discussing all and any aspects of Wikidata
- Wikidata:Glossary, the glossary of terms used in this and other Help pages
- Help:FAQ, frequently asked questions asked and answered by the Wikidata community
- Help:Contents, the Help portal featuring all the documentation available for Wikidata