« DBpedia » : différence entre les versions
m modele projet sourceforge |
m Retrait du lien vers la page « Wikimeta » supprimée à la suite d'un débat d'admissibilité (Voir) |
||
(229 versions intermédiaires par 99 utilisateurs non affichées) | |||
Ligne 1 : | Ligne 1 : | ||
{{ |
{{|}} |
||
{{mettre à jour|date=octobre 2017}} |
|||
{{Infobox Logiciel |
|||
| couleur boîte = 002140 |
|||
| texte blanc = oui |
|||
}} |
|||
'''DBpedia''' est un projet universitaire et communautaire d'[[Exploration de données|exploration et extraction automatiques de données]] dérivées de [[Wikipédia]]. Son principe est de proposer une version [[Structure de données|structurée]] et normalisée au format du [[web sémantique]] des contenus de Wikipedia. DBpedia vise aussi à interconnecter Wikipédia avec d'autres ensembles de données ouvertes provenant du [[Web des données]]. DBpedia a été conçu par ses auteurs comme l'un des ''{{Citation|noyaux du Web émergent de l'open data}}''<ref name=DBpediaNucleus2007>Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak et Zachary Ives, ''DBpedia: A Nucleus for a Web of Open Data''; ''The Semantic Web Lecture Notes in Computer Science'', 2007, Volume 4825/2007, 722-735, DOI: 10.1007/978-3-540-76298-0_52 ([http://www.springerlink.com/content/rm32474088w54378/ Résumé])</ref>, connu également sous le nom de ''[[Web des données]],'' et l'un de ses possibles points d'entrée. Ce projet est conduit par l'[[université de Leipzig]], l'[[université libre de Berlin]] et l'entreprise OpenLink Software. |
|||
== Historique == |
|||
DBpedia est un projet d'extraction de données de [[wikipédia]] pour en proposer une version [[web sémantique]]. Ce projet est mené par l'[[Université de Leipzig]], l'[[Université libre de Berlin]] et l'entreprise ''OpenLink Software''. |
|||
{{Section à sourcer|date=mars 2023}} |
|||
Le projet a été lancé par l'université libre de Berlin et l'université de Leipzig, en collaboration avec OpenLink Software. Le premier ensemble de données accessibles au public a été publié en 2007. Disponible sous [[licence libre]], ces données peuvent être réutilisées. |
|||
Les articles de Wikipédia se composent principalement de texte, mais ils comprennent également des [[informations structurées]] intégrées aux articles, telles que des [[infobox]] (panneaux déroulants qui apparaissent en haut à droite de l'affichage par défaut de nombreux articles de Wikipédia ou au début de l'[[affichage mobile]]), des informations sur la [[catégorisation]], des images, des [[coordonnées géographiques]] et des liens vers des pages Web externes. Ces informations structurées sont extraites et placées dans un ensemble de données uniforme qui peut être interrogé. |
|||
== Contenu du ''dataset'' == |
|||
== Structure du dépôt de données == |
|||
DBpedia est interconnecté avec [[GeoNames]], [[MusicBrainz]], [[CIA World Factbook]], le [[projet Gutenberg]], [[Eurostat]] entre autres<ref>[http://wiki.dbpedia.org/Interlinking wiki.dbpedia.org : Interlinking<!-- Titre généré automatiquement -->]</ref>. |
|||
{{Section à sourcer|date=mars 2023}}[[Fichier:Lod-datasets 2009-07-14.svg|thumb|Représentation en [[carte heuristique]] des relations entre DBpedia et divers autres projets du Web.]] |
|||
DBpedia adopte les normes du réseau linked [[Données ouvertes|open data]] et du [[Web sémantique]]. La ressource est donc livrée sous une forme de dépôt en format [[Resource Description Framework|RDF]] regroupé au sein de documents dérivés de l'encyclopédie Wikipédia. Ainsi, pour chaque document encyclopédique, il existe une page de ressources contenant toutes les données sous forme de [[Triplet RDF|triplets RDF]]. Ces triplets peuvent représenter une information telle que, par exemple, la date de naissance d'une personne qui prendra la forme : ''personne'', ''date de naissance'' et ''date''. |
|||
La base de données décrit 2 180 000 entités, incluant au moins 80 000 personnes, 293 000 lieux, 62 000 albums de musique et 36 000 films et contient 489 000 liens vers des images, 2 700 000 liens vers des pages extérieures, 2 101 000 liens vers des ''datasets'' externes et 207 000 catégories Wikipédia<ref>[http://wiki.dbpedia.org/Datasets wiki.dbpedia.org : Datasets<!-- Titre généré automatiquement -->]</ref>. |
|||
=== Contenus === |
|||
Le contenu de la base est disponible sous licence [[Licence de documentation libre GNU|GFDL]] (puisque le contenu est tiré de wikipédia). |
|||
En novembre 2010, la base de données décrivait 3,4 millions d'entités<ref name=Datasets/>, incluant au moins : |
|||
{{début de colonnes|taille=20}} |
|||
* {{formatnum:312000}} [[Personne physique|personne]]s |
|||
* {{formatnum:413000}} lieux |
|||
* {{formatnum:94000}} [[album (musique)|albums de musique]] |
|||
* {{formatnum:49000}} [[film (œuvre)|films]] |
|||
* {{formatnum:15000}} [[jeux vidéo]] |
|||
* {{formatnum:140000}} [[organisation]]s ({{formatnum:31000}} [[entreprise|société]]s, {{formatnum:31000}} établissements d'[[enseignement]]) |
|||
* {{formatnum:146000}} [[espèce]]s |
|||
* {{formatnum:4600}} [[maladie]]s |
|||
* {{formatnum:1461000}} liens vers des [[image]]s |
|||
* 5,54 millions de liens vers des pages extérieures |
|||
* 4,87 millions de liens vers des ''[[jeu de données|datasets]]'' externes |
|||
* {{formatnum:565000}} catégories Wikipédia |
|||
* {{formatnum:75000}} catégories YAGO<ref name=Datasets>[http://wiki.dbpedia.org/Datasets wiki.dbpedia.org Source : Datasets]</ref> |
|||
{{fin de colonnes}}En avril 2016, elle est passée à 6,0 millions d'entités, incluant 5,2 millions correctement classées dans une ontologie et comprenant : 1,5 million de personnes, 810 000 lieux, 135 000 albums de musique, 106 000 films, 20 000 jeux vidéo, 275 000 organisations, 301 000 espèces et {{unité|5000 maladies}}. |
|||
En juin 2021, elle contient plus d'un billion d'entités<ref>{{Lien web |langue=en-GB |prénom=Julia |nom=Holze |titre=Announcement: DBpedia Snapshot 2021-06 Release |url=https://www.dbpedia.org/blog/snapshot-2021-06-release/ |site=DBpedia Association |date=2021-07-23 |consulté le=2021-07-28}}</ref>. |
|||
== Technologies == |
|||
=== Insertion dans le linked open data === |
|||
Les informations étant stockées avec [[Resource Description Framework]], on peut effectuer des requêtes sur la base de données via [[SPARQL]]. |
|||
Dès son lancement, le projet DBpedia ambitionne de s'insérer dans la structure normalisée qui organise le web des données, le réseau [[linked open data]]. Pour atteindre cet objectif, les concepteurs de DBpedia complètent les extracteurs de données par un ensemble de correspondance entre les documents sources de Wikipédia, utilisés pour extraire les données, et un ensemble de ressources du réseau linked open data<ref name="sameas">[http://wiki.dbpedia.org/services-resources/interlinking Page du site de DBpedia] contenant un ensemble d'informations sur les méthodes et les ressources d'inter-relations</ref> en utilisant la balise standard ''sameAs'' du format RDF et du [[web sémantique]]. Il résulte de ce travail de mise en relation systématique, et régulièrement enrichi au fil des années, que DBpedia est interconnecté avec de très nombreux autres dépôts du web de données et que les objectifs initiaux de ses concepteurs ont été atteints. Les dépôts [[GeoNames]], [[MusicBrainz]], [[CIA World Factbook]], le [[projet Gutenberg]] et [[Eurostat]], entre autres<ref name="sameas"/>, font partie de ces dépôts reliés par DBpedia. |
|||
=== Éditions linguistiques === |
|||
Le moteur d'extraction de données est réalisé avec [[PHP: Hypertext Preprocessor|PHP]] 5<ref>[http://wiki.dbpedia.org/Documentation wiki.dbpedia.org : Documentation<!-- Titre généré automatiquement -->]</ref>, c'est un [[logiciel libre]] diffusé sous [[Licence publique générale GNU]]. Son code source est distribué : il est hébergé sur [[SourceForge.net]] et disponible via [[Subversion (logiciel)|Subversion]]. |
|||
{{Section à sourcer|date=mars 2023}} |
|||
La première version de DBpedia était extraite depuis la version anglophone de Wikipédia, les extracteurs d'informations n'étant conçus que pour être appliqués sur les infoboxes de cette version. Ce choix a pour conséquence que seules les entrées de la version anglophones bénéficiaient d'une représentation sous forme de données dans DBpedia : les entrées encyclopédiques qui ne se retrouvaient que localement tels que des hommes ou des femmes politiques uniquement présentés dans d'autres éditions germanophones ou francophones de Wikipédia ou des concepts spécifiques à une culture, par exemple, n'étaient pas reflétés sous forme de données RDF dans DBpedia. |
|||
Cette version originale de DBpedia, bénéficiant de la grande exhaustivité de la version anglophone de Wikipédia, a pu se contenter dans un premier temps de cette source d'extraction d'information restreinte, malgré sa non représentativité. Par nature, un dépôt RDF du web sémantique n'est pas contraint par une langue particulière puisqu'il organise des données uniquement d'après leur [[Sémantique|sens]]. |
|||
== Notes et références == |
|||
Néanmoins, la création de données d'après une encyclopédie anglophone a rapidement montré des limites de couverture. Il a donc été décidé de poursuivre le développement d'éditions linguistiques de DBpedia. |
|||
<references/> |
|||
==== Version francophone ==== |
|||
Une version entièrement francophone, agrémentée de fonctionnalités nouvelles, a été officiellement révélée en mars 2012<ref>[//wimmics.inria.fr/projects/dbpedia/doc/index.php/Accueil DBpedia fr]</ref>. Elle est développée par l'équipe de recherche Wimmics, dirigée par [[Fabien Gandon]], chez [[Inria]], avec le soutien du [[ministère de la Culture (France)|ministère de la Culture]] et l'expertise de l'association [[Wikimédia France]]. |
|||
Elle est disponible à la fois sur le site de DBpedia (l'équipe qui le développe étant également responsable du « chapitre » francophone de DBpedia.org<ref>{{lien web |langue=en |titre=Overview |url=http://wiki.dbpedia.org/Internationalization/Chapters |site=DBpedia Association |consulté le=22-05-2023}}.</ref>) et sur la plateforme SemanticPedia.org qui accueille différents projets de sémantisations de la galaxie Wikimédia, à commencer par DBpedia en français. |
|||
Cet effort de recherche a fait l'objet d'une convention signée le 19 novembre 2012 par le [[Ministère de la Culture et de la communication|ministère de la culture et de la communication]], l'[[Inria]] et [[Wikimédia France]]<ref>{{Lien brisé |url= http://www.culturecommunication.gouv.fr/Actualites/A-la-une/Lancement-de-DBpedia-et-de-Semanticpedia |titre=culturecommunication.gouv.fr/A… |brisé le=22-05-2023}}.</ref>. Il s'agit du premier partenariat entre ces trois institutions, de même qu'entre l'Inria et le ministère, et Wikimédia France et le ministère. |
|||
== Disponibilité == |
|||
{{Section à sourcer|date=mars 2023}} |
|||
Le contenu de la base est disponible sous double licence [[Licence Creative Commons|Creative Commons BY-SA 3.0]] et [[Licence de documentation libre GNU|GFDL]] depuis la version 3.4. Les bases de données qui constituent le dépôt peuvent être récupérées dans divers formats tels [[Structured Query Language|SQL]] ou [[Comma-separated values|CSV]]. Il est ainsi possible de créer un dépôt miroir ou encore d'intégrer les connaissances de DBpedia dans une application tierce, par exemple d'[[annotation sémantique]]. |
|||
Bien que le contenu soit seulement dérivé de [[Wikipédia]] par des méthodes [[Heuristique (mathématiques)|heuristique]]s et constitué de données structurées, les promoteurs adoptent depuis le lancement les mêmes licences que [[Wikipédia]]<ref>[http://wiki.dbpedia.org/Datasets#h18-19 Références sur la licence]</ref> permettant d'améliorer l'[[interopérabilité]] entre Wikipédia et DBpedia. |
|||
L'accès aux dépôt de données se fait avec des requêtes sur la base de données ''via'' [[SPARQL]]. Les informations étant stockées avec [[Resource Description Framework]] (RDF), on peut aussi récupérer des documents ressource en relation avec un concept directement via une URI, avec les formats CSV ou RDF (notamment via les formats N-Triple, N3, JSON, XML). |
|||
=== Applications === |
|||
{{Section à sourcer|date=mars 2023}} |
|||
La plupart des usages qui peuvent être faits des données du web sémantique sont valables avec DBpedia. Actuellement, les plus connues de ces applications sont celles réalisées avec des [[Annotation sémantique|annotateurs sémantiques]] tels que [[DBpedia Spotlight]] ou Wikimeta. Ces applications permettent d'enrichir un document textuel avec des annotations sémantiques (c'est-à-dire qui représentent le sens exact d'un mot) utilisant les documents DBpedia en tant que point d'entrée. |
|||
Par exemple, la société de logiciel de [[crowdsourcing]], [[Ushahidi]], a construit un prototype de son programme du même nom utilisant DBpedia pour effectuer des annotations sémantiques sur des informations soumises par le public. Le prototype, appelé COMRADES<ref>{{Ouvrage|titre=ushahidi/platform-comrades|éditeur=Ushahidi|date=2019-06-30|lire en ligne=https://github.com/ushahidi/platform-comrades|consulté le=2020-05-11}}</ref>, incorporait le service « YODIE », un système d'extraction d'informations ouvertes<ref>{{Lien web|titre=GATE.ac.uk - applications/yodie.html|url=https://gate.ac.uk/applications/yodie.html|site=gate.ac.uk|consulté le=2020-05-11}}</ref>, développé par [[Université de Sheffield|l'Université de Sheffield]], qui utilise DBpedia pour effectuer les annotations. L'objectif pour Ushahidi était d'améliorer la vitesse et la facilité avec laquelle des informations entrantes pourraient être validées et gérées. |
|||
== Exemples == |
|||
{{Section à sourcer|date=mars 2023}} |
|||
DBpedia extrait des informations factuelles des pages Wikipédia permettant ainsi aux utilisateurs de trouver des réponses à des questions dont les informations sont réparties sur plusieurs articles Wikipédia. L'accès aux données se fait à l'aide d'un [[Langage de requête|langage d'interrogation]] de type [[Structured Query Language|SQL]] pour [[RDF Schema|RDF]], appelé [[SPARQL]]. |
|||
Par exemple, imaginez que vous vous intéressiez à la série [[shōjo]] [[Japonais (peuple)|japonaise]] [[Tokyo Mew Mew]] et que vous recherchiez d'autres œuvres réalisées par son [[illustrateur]] [[Mia Ikumi]]. |
|||
DBpedia combine des informations provenant des entrées de Wikipédia sur Tokyo Mew Mew, Mia Ikumi et sur des œuvres telles que Super Doll Licca-chan et Koi Cupid. |
|||
Étant donné que DBpedia normalise l'information dans une seule base de données, la requête suivante peut être posée sans qu'il soit nécessaire de savoir exactement quelle entrée contient chaque fragment d'information : |
|||
<syntaxhighlight lang="sparql"> |
|||
PREFIX dbprop: <http://dbpedia.org/ontology/> |
|||
PREFIX db: <http://dbpedia.org/resource/> |
|||
SELECT ?who, ?WORK, ?genre WHERE { |
|||
db:Tokyo_Mew_Mew dbprop:author ?who . |
|||
?WORK dbprop:author ?who . |
|||
OPTIONAL { ?WORK dbprop:genre ?genre } . |
|||
} |
|||
</syntaxhighlight> |
|||
Elle aura comme résultat la liste des genres d'oeuvres ressemblantes. |
|||
== Utilisation == |
|||
{{Refnec|DBpedia possède un large éventail d'entités couvrant différents domaines de la connaissance humaine. Cela en fait un concentrateur naturel pour la connexion d'ensembles de données, où ceux pouvant être liés à ses concepts. |
|||
Le jeu de données DBpedia est interconnecté via RDF avec plusieurs autres jeux de données en accès libre sur le Web permettant aux applications d'enrichir les données DBpedia avec les données provenant de leurs ensembles de données. |
|||
En septembre 2013, il y avait plus de 45 millions de liens entre DBpedia et des ensembles de données externes, telles que : [[Freebase]], [[Cyc]], UMBEL, [[GeoNames]], [[MusicBrainz]], [[The World Factbook]], [[Digital Bibliography & Library Project]], [[projet Gutenberg]], [[Jamendo]], [[Eurostat]], [[UniProt]] ou [[United States Census]].|date=10 mars 2023}} |
|||
L'initiative {{Lien|langue=en|fr=OpenCalais|trad=Calais_(Reuters_product)}} de [[Thomson Reuters]], le projet Linked Open Data du [[The New York Times|New York Times]], l'API Zemanta<ref>{{Lien web |titre=Zemanta API |url=http://dev.zemanta.com/one/api/ |site=dev.zemanta.com |consulté le=2022-12-24}}</ref> et DBpedia Spotlight <ref>{{Lien web |titre=DBpedia Spotlight - Shedding light on the web of documents |url=https://www.dbpedia-spotlight.org/ |site=www.dbpedia-spotlight.org |consulté le=2022-12-24}}</ref>incluent également des liens vers DBpedia. |
|||
La [[BBC]] utilise DBpedia pour organiser son contenu. |
|||
Faviki, outil de [[Social bookmarking|bookmarking social]], utilisait DBpedia pour son balisage sémantique. |
|||
[[Samsung Electronics|Samsung]] utilise également DBpedia dans sa "Plateforme de partage de connaissances<ref>{{Ouvrage|titre=Samsung/KnowledgeSharingPlatform|éditeur=Samsung|date=2022-10-19|lire en ligne=https://github.com/Samsung/KnowledgeSharingPlatform|consulté le=2022-12-24}}</ref>". |
|||
Une source aussi riche de connaissances structurées et inter-disciplinaires est un outil pour les systèmes d'[[intelligence artificielle]]. Par exemple, DBpedia a été utilisé comme l'une des sources de connaissances du système [[Watson (intelligence artificielle)|Watson d'IBM]]. |
|||
[[Amazon]] fournit un ensemble de données public DBpedia qui peut être intégré dans les applications [[Amazon Web Services]]. |
|||
Les données sur les créateurs, intégrées dans DBpedia, peuvent être utilisées pour enrichir les observations lors de vente d'œuvres d'art. |
|||
== Techniques d'extraction == |
|||
Le moteur d'extraction de données est un [[logiciel libre]] diffusé sous [[Licence publique générale GNU]] et écrit en [[Scala (langage)|Scala]]<ref>[http://wiki.dbpedia.org/Documentation wiki.dbpedia.org : Documentation]</ref>. Son code source est distribué : il est hébergé sur [[SourceForge.net]] et disponible via [[Subversion (logiciel)|Subversion]]. |
|||
== Notes et références == |
|||
{{Références}} |
|||
== Voir aussi == |
== Voir aussi == |
||
{{Autres projets |
|||
|wikiquote=DBpedia |
|||
|wikiquote titre=DBpedia |
|||
|commons=Category:DBpedia |
|||
}} |
|||
=== Articles connexes === |
|||
* [[GlobalAtlas]] |
|||
* [[Freebase (web)|Freebase]] |
* [[Freebase (web)|Freebase]] |
||
* [[Web sémantique]] |
* [[Web sémantique]] |
||
* [[Données ouvertes et liées]] |
|||
* [[Semantic MediaWiki]] |
|||
* [[Web des données]] |
|||
* [[Carte heuristique]] |
|||
* [[Base de connaissance]] |
|||
* [[Interopérabilité]] |
|||
* [[Annotation sémantique]] |
|||
== Liens externes == |
== Liens externes == |
||
* {{Site officiel|langue=en|url=http://dbpedia.org/}} |
|||
* {{en}} [http://dbpedia.org/ Site officiel] |
|||
* {{Projet SourceForge|dbpedia}} |
* {{Projet SourceForge|dbpedia}} |
||
* {{fr}} [http://fr.dbpedia.org/ Présentation du projet francophone] |
|||
{{Palette|Wikipédia}} |
|||
{{Portail|logiciels libres}} |
|||
{{Portail|logiciels libres|Web sémantique|Wikimedia}} |
|||
[[Catégorie:Base de données sémantique sur Internet]] |
[[Catégorie:Base de données sémantique sur Internet]] |
||
[[Catégorie:Wikipédia]] |
|||
[[Catégorie:Logiciel libre sous licence GPL]] |
|||
[[en:DBpedia]] |
|||
[[Catégorie:Université de Leipzig]] |
|||
[[es:DBpedia]] |
|||
[[Catégorie:Université libre de Berlin]] |
Dernière version du 29 juin 2024 à 05:47
Première version | |
---|---|
Dépôt | github.com/dbpedia |
Assurance qualité | Intégration continue |
Écrit en | Java et Scala |
Langues | Multilingue |
Type |
Base de connaissance Base de données en ligne (en) Database derived from Wikimedia projects (d) Graphe de connaissances |
Licence | Creative Commons Attribution – Partage dans les Mêmes Conditions 3.0 non transposé (d), CC0 et licence publique générale GNU version 2 |
Site web | dbpedia.org |
DBpedia est un projet universitaire et communautaire d'exploration et extraction automatiques de données dérivées de Wikipédia. Son principe est de proposer une version structurée et normalisée au format du web sémantique des contenus de Wikipedia. DBpedia vise aussi à interconnecter Wikipédia avec d'autres ensembles de données ouvertes provenant du Web des données. DBpedia a été conçu par ses auteurs comme l'un des « noyaux du Web émergent de l'open data »[1], connu également sous le nom de Web des données, et l'un de ses possibles points d'entrée. Ce projet est conduit par l'université de Leipzig, l'université libre de Berlin et l'entreprise OpenLink Software.
Historique
[modifier | modifier le code]Le projet a été lancé par l'université libre de Berlin et l'université de Leipzig, en collaboration avec OpenLink Software. Le premier ensemble de données accessibles au public a été publié en 2007. Disponible sous licence libre, ces données peuvent être réutilisées.
Les articles de Wikipédia se composent principalement de texte, mais ils comprennent également des informations structurées intégrées aux articles, telles que des infobox (panneaux déroulants qui apparaissent en haut à droite de l'affichage par défaut de nombreux articles de Wikipédia ou au début de l'affichage mobile), des informations sur la catégorisation, des images, des coordonnées géographiques et des liens vers des pages Web externes. Ces informations structurées sont extraites et placées dans un ensemble de données uniforme qui peut être interrogé.
Structure du dépôt de données
[modifier | modifier le code]DBpedia adopte les normes du réseau linked open data et du Web sémantique. La ressource est donc livrée sous une forme de dépôt en format RDF regroupé au sein de documents dérivés de l'encyclopédie Wikipédia. Ainsi, pour chaque document encyclopédique, il existe une page de ressources contenant toutes les données sous forme de triplets RDF. Ces triplets peuvent représenter une information telle que, par exemple, la date de naissance d'une personne qui prendra la forme : personne, date de naissance et date.
Contenus
[modifier | modifier le code]En novembre 2010, la base de données décrivait 3,4 millions d'entités[2], incluant au moins :
- 312 000 personnes
- 413 000 lieux
- 94 000 albums de musique
- 49 000 films
- 15 000 jeux vidéo
- 140 000 organisations (31 000 sociétés, 31 000 établissements d'enseignement)
- 146 000 espèces
- 4 600 maladies
- 1 461 000 liens vers des images
- 5,54 millions de liens vers des pages extérieures
- 4,87 millions de liens vers des datasets externes
- 565 000 catégories Wikipédia
- 75 000 catégories YAGO[2]
En avril 2016, elle est passée à 6,0 millions d'entités, incluant 5,2 millions correctement classées dans une ontologie et comprenant : 1,5 million de personnes, 810 000 lieux, 135 000 albums de musique, 106 000 films, 20 000 jeux vidéo, 275 000 organisations, 301 000 espèces et 5 000 maladies.
En juin 2021, elle contient plus d'un billion d'entités[3].
Insertion dans le linked open data
[modifier | modifier le code]Dès son lancement, le projet DBpedia ambitionne de s'insérer dans la structure normalisée qui organise le web des données, le réseau linked open data. Pour atteindre cet objectif, les concepteurs de DBpedia complètent les extracteurs de données par un ensemble de correspondance entre les documents sources de Wikipédia, utilisés pour extraire les données, et un ensemble de ressources du réseau linked open data[4] en utilisant la balise standard sameAs du format RDF et du web sémantique. Il résulte de ce travail de mise en relation systématique, et régulièrement enrichi au fil des années, que DBpedia est interconnecté avec de très nombreux autres dépôts du web de données et que les objectifs initiaux de ses concepteurs ont été atteints. Les dépôts GeoNames, MusicBrainz, CIA World Factbook, le projet Gutenberg et Eurostat, entre autres[4], font partie de ces dépôts reliés par DBpedia.
Éditions linguistiques
[modifier | modifier le code]La première version de DBpedia était extraite depuis la version anglophone de Wikipédia, les extracteurs d'informations n'étant conçus que pour être appliqués sur les infoboxes de cette version. Ce choix a pour conséquence que seules les entrées de la version anglophones bénéficiaient d'une représentation sous forme de données dans DBpedia : les entrées encyclopédiques qui ne se retrouvaient que localement tels que des hommes ou des femmes politiques uniquement présentés dans d'autres éditions germanophones ou francophones de Wikipédia ou des concepts spécifiques à une culture, par exemple, n'étaient pas reflétés sous forme de données RDF dans DBpedia.
Cette version originale de DBpedia, bénéficiant de la grande exhaustivité de la version anglophone de Wikipédia, a pu se contenter dans un premier temps de cette source d'extraction d'information restreinte, malgré sa non représentativité. Par nature, un dépôt RDF du web sémantique n'est pas contraint par une langue particulière puisqu'il organise des données uniquement d'après leur sens.
Néanmoins, la création de données d'après une encyclopédie anglophone a rapidement montré des limites de couverture. Il a donc été décidé de poursuivre le développement d'éditions linguistiques de DBpedia.
Version francophone
[modifier | modifier le code]Une version entièrement francophone, agrémentée de fonctionnalités nouvelles, a été officiellement révélée en mars 2012[5]. Elle est développée par l'équipe de recherche Wimmics, dirigée par Fabien Gandon, chez Inria, avec le soutien du ministère de la Culture et l'expertise de l'association Wikimédia France.
Elle est disponible à la fois sur le site de DBpedia (l'équipe qui le développe étant également responsable du « chapitre » francophone de DBpedia.org[6]) et sur la plateforme SemanticPedia.org qui accueille différents projets de sémantisations de la galaxie Wikimédia, à commencer par DBpedia en français.
Cet effort de recherche a fait l'objet d'une convention signée le 19 novembre 2012 par le ministère de la culture et de la communication, l'Inria et Wikimédia France[7]. Il s'agit du premier partenariat entre ces trois institutions, de même qu'entre l'Inria et le ministère, et Wikimédia France et le ministère.
Disponibilité
[modifier | modifier le code]Le contenu de la base est disponible sous double licence Creative Commons BY-SA 3.0 et GFDL depuis la version 3.4. Les bases de données qui constituent le dépôt peuvent être récupérées dans divers formats tels SQL ou CSV. Il est ainsi possible de créer un dépôt miroir ou encore d'intégrer les connaissances de DBpedia dans une application tierce, par exemple d'annotation sémantique.
Bien que le contenu soit seulement dérivé de Wikipédia par des méthodes heuristiques et constitué de données structurées, les promoteurs adoptent depuis le lancement les mêmes licences que Wikipédia[8] permettant d'améliorer l'interopérabilité entre Wikipédia et DBpedia.
L'accès aux dépôt de données se fait avec des requêtes sur la base de données via SPARQL. Les informations étant stockées avec Resource Description Framework (RDF), on peut aussi récupérer des documents ressource en relation avec un concept directement via une URI, avec les formats CSV ou RDF (notamment via les formats N-Triple, N3, JSON, XML).
Applications
[modifier | modifier le code]La plupart des usages qui peuvent être faits des données du web sémantique sont valables avec DBpedia. Actuellement, les plus connues de ces applications sont celles réalisées avec des annotateurs sémantiques tels que DBpedia Spotlight ou Wikimeta. Ces applications permettent d'enrichir un document textuel avec des annotations sémantiques (c'est-à-dire qui représentent le sens exact d'un mot) utilisant les documents DBpedia en tant que point d'entrée.
Par exemple, la société de logiciel de crowdsourcing, Ushahidi, a construit un prototype de son programme du même nom utilisant DBpedia pour effectuer des annotations sémantiques sur des informations soumises par le public. Le prototype, appelé COMRADES[9], incorporait le service « YODIE », un système d'extraction d'informations ouvertes[10], développé par l'Université de Sheffield, qui utilise DBpedia pour effectuer les annotations. L'objectif pour Ushahidi était d'améliorer la vitesse et la facilité avec laquelle des informations entrantes pourraient être validées et gérées.
Exemples
[modifier | modifier le code]DBpedia extrait des informations factuelles des pages Wikipédia permettant ainsi aux utilisateurs de trouver des réponses à des questions dont les informations sont réparties sur plusieurs articles Wikipédia. L'accès aux données se fait à l'aide d'un langage d'interrogation de type SQL pour RDF, appelé SPARQL.
Par exemple, imaginez que vous vous intéressiez à la série shōjo japonaise Tokyo Mew Mew et que vous recherchiez d'autres œuvres réalisées par son illustrateur Mia Ikumi.
DBpedia combine des informations provenant des entrées de Wikipédia sur Tokyo Mew Mew, Mia Ikumi et sur des œuvres telles que Super Doll Licca-chan et Koi Cupid.
Étant donné que DBpedia normalise l'information dans une seule base de données, la requête suivante peut être posée sans qu'il soit nécessaire de savoir exactement quelle entrée contient chaque fragment d'information :
PREFIX dbprop: <http://dbpedia.org/ontology/>
PREFIX db: <http://dbpedia.org/resource/>
SELECT ?who, ?WORK, ?genre WHERE {
db:Tokyo_Mew_Mew dbprop:author ?who .
?WORK dbprop:author ?who .
OPTIONAL { ?WORK dbprop:genre ?genre } .
}
Elle aura comme résultat la liste des genres d'oeuvres ressemblantes.
Utilisation
[modifier | modifier le code]
L'initiative OpenCalais (en) de Thomson Reuters, le projet Linked Open Data du New York Times, l'API Zemanta[11] et DBpedia Spotlight [12]incluent également des liens vers DBpedia.
La BBC utilise DBpedia pour organiser son contenu.
Faviki, outil de bookmarking social, utilisait DBpedia pour son balisage sémantique.
Samsung utilise également DBpedia dans sa "Plateforme de partage de connaissances[13]".
Une source aussi riche de connaissances structurées et inter-disciplinaires est un outil pour les systèmes d'intelligence artificielle. Par exemple, DBpedia a été utilisé comme l'une des sources de connaissances du système Watson d'IBM.
Amazon fournit un ensemble de données public DBpedia qui peut être intégré dans les applications Amazon Web Services.
Les données sur les créateurs, intégrées dans DBpedia, peuvent être utilisées pour enrichir les observations lors de vente d'œuvres d'art.
Techniques d'extraction
[modifier | modifier le code]Le moteur d'extraction de données est un logiciel libre diffusé sous Licence publique générale GNU et écrit en Scala[14]. Son code source est distribué : il est hébergé sur SourceForge.net et disponible via Subversion.
Notes et références
[modifier | modifier le code]- Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak et Zachary Ives, DBpedia: A Nucleus for a Web of Open Data; The Semantic Web Lecture Notes in Computer Science, 2007, Volume 4825/2007, 722-735, DOI: 10.1007/978-3-540-76298-0_52 (Résumé)
- wiki.dbpedia.org Source : Datasets
- (en-GB) Julia Holze, « Announcement: DBpedia Snapshot 2021-06 Release », sur DBpedia Association, (consulté le )
- Page du site de DBpedia contenant un ensemble d'informations sur les méthodes et les ressources d'inter-relations
- DBpedia fr
- (en) « Overview », sur DBpedia Association (consulté le ).
- « culturecommunication.gouv.fr/A… »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?).
- Références sur la licence
- ushahidi/platform-comrades, Ushahidi, (lire en ligne)
- « GATE.ac.uk - applications/yodie.html », sur gate.ac.uk (consulté le )
- « Zemanta API », sur dev.zemanta.com (consulté le )
- « DBpedia Spotlight - Shedding light on the web of documents », sur www.dbpedia-spotlight.org (consulté le )
- Samsung/KnowledgeSharingPlatform, Samsung, (lire en ligne)
- wiki.dbpedia.org : Documentation
Voir aussi
[modifier | modifier le code]Articles connexes
[modifier | modifier le code]- GlobalAtlas
- Freebase
- Web sémantique
- Données ouvertes et liées
- Semantic MediaWiki
- Web des données
- Carte heuristique
- Base de connaissance
- Interopérabilité
- Annotation sémantique
Liens externes
[modifier | modifier le code]- (en) Site officiel
- (en) « Accueil du projet DBpedia », sur SourceForge.net.
- (fr) Présentation du projet francophone