[an error occurred while processing this directive]


  • Sciences, Société 23/09/2008

    Faire travailler les internautes pour numériser des livres, c’est bien, mais pourquoi se limiter aux ouvrages en anglais ?

    Le captcha, c’est quoi ?

    Recapctcha… Recap-quoi ? Si vous ne connaissez pas le système Captcha, commencez par lire ces quelques lignes.

    Lorsque vous créez une nouvelle adresse électronique, ou vous inscrivez sur un forum afin de participer à une discussion, on vous demande généralement de recopier une série de caractères étranges, comme ceux-ci :

    Exemple de captcha

    Exemple de captcha

    Ce processus porte le nom de captcha.

    Pour le site web, l’objectif est de s’assurer que vous êtes bien un être humain, et non une malicieuse machine.

    Celle-ci pourrait, par exemple, créer des dizaines de comptes email, qui dans un deuxième temps, serviraient d’expéditeurs de courriers non sollicités, les fameux SPAM.

    Sur un site de vente de billets de concert, ces captcha sont très utiles, car ils évitent les achats massifs de tickets par des ordinateurs automatisés (à destination du marché noir ou pour assurer une revente avec marge auprès des acheteurs potentiels).

    Sur les blogs, le système tache de prévenir les envois de publicités, déguisés en commentaires à la fin des articles.

    Une activité de décryptage considérable

    D’après Luis Von Ahn, Benjamin Maurer, Colin McMillen, David Abraham et Manuel Blum [1], les internautes répondent chaque jour à plus de cent millions de captcha au total. Chacun de ces tests requérant plusieurs secondes, ce sont des centaines de milliers d’heures de reconnaissance de caractères qui sont effectuées quotidiennement. Or ces heures sont précieuses, car par définition, le captcha est une opération que les ordinateurs ne sont pas capables d’effectuer, et dont seuls des êtres humains, par leur talent d’observation et de raisonnement, peuvent s’acquitter.

    D’où l’idée d’utiliser cette énergie à des fins utiles.

    La numérisation des ouvrages

    Les bibliothèques du monde entier dépensent des sommes colossales dans la numérisation des ouvrages (anciens ou moyennement récents). La numérisation en mode image représente déjà un investissement important : il s’agit de photographier les vieux livres et de stocker les clichés dans un format numérique.

    Par exemple, le site Gallica, lié à celui de la BNF (Bibliothèque nationale de France), permet d’accéder à un volume important d’ouvrages en mode image.

    Mais la numérisation en mode image est d’un intérêt limité, car elle ne permet pas d’effectuer des recherches de mots ou de phrases contenus dans l’œuvre. Pour cela, il est nécessaire de procéder à une numérisation en mode texte, délicate et coûteuse. Celle-ci, baptisée OCR (pour Optical Character Recognition) consiste à faire lire le texte à un ordinateur, afin qu’il devine les lettres, les mots, comme nous le faisons nous-mêmes après un apprentissage difficile (le CP, vous vous rappelez ?).

    À moins d’employer des personnes pour procéder à une relecture et corriger les erreurs, il est impossible de garantir un taux de réussite suffisant. Et le travail de relecture est long, coûteux. Seuls les ouvrages d’importance sont soumis à un tel traitement.

    Le système Recaptcha

    Des chercheurs de l’université de Pittsburgh (USA) [1] ont eu l’idée d’utiliser le temps passé par les internautes sur les captcha, afin de décoder les ouvrages numérisés en mode image, et d’obtenir le texte correspondant.

    Le système est simple : en lieu et place d’un captcha traditionnel, on présente à l’utilisateur deux mots, difficiles à lire.

    Les deux mots doivent être recopiés par l’internaute. L’un de ces mots est connu de la machine, il sert donc de captcha traditionnel, afin de s’assurer que l’utilisateur est humain.

    Mais l’autre mot, extrait d’un livre à numériser, n’est pas connu par le site web qui l’affiche. L’internaute va donc le décoder et ainsi participer à la numérisation en mode texte d’un ouvrage !

    Naturellement, ce mot à déchiffrer sera présenté à un grand nombre d’internautes, et ne sera validé que lorsqu’un fort pourcentage d’utilisateurs le décryptera de la même manière.

    Au moment de la publication de l’article [1] dans Science, les auteurs, inventeurs du Recaptcha, affirmaient que 40 000 sites web l’utilisaient alors (il est possible d’implémenter Recaptcha sur son site ou sur son blog en visitant http://recaptcha.net). 160 livres sont ainsi numérisés chaque jour, pour un coût dérisoire !

    Pourquoi pas en français ?

    J’étais sur le point d’implémenter Recaptcha sur Geek mais pas trop. Je me suis aperçu que l’interface du système, ainsi que les mots à décoder, n’étaient proposés qu’en langue anglaise.

    D’abord, cela pose un problème d’accessibilité à ceux qui ne lisent pas l’anglais. Même si l’interface était traduite, il est plus plus difficile d’identifier des mots dont on ignore la signification, et l’efficacité du décodage s’en trouve réduite.

    Mais surtout, il est regrettable que le système ne soit pas utilisé pour numériser des ouvrages francophones.

    Sur le site de la BNF, on lit qu’entre 2005 et 2007, ce sont 450 000 euros qui ont été attribués spécifiquement au financement des « traitements liés à la reconnaissance de caractères (OCR) ».

    (le coût total lié à la numérisation, s’élevant à 3,5 millions d’euros entre 2005 et 2009)

    Pourquoi donc ne pas rapidement développer un Recaptcha français ? Le succès de l’initiative dans les pays anglosaxons doit nous encourager dans cette voie. Ainsi un volume important d’ouvrages francophones pourraient être numérisés en mode texte dans les prochaines années, et ce pour un coût très réduit.

    Geek mais pas trop s’engage à utiliser un tel système pour l’entrée des commentaires sur le blog, dès que ce dispositif sera disponible dans la langue de Molière. Espérons que cela ne tarde pas trop ?

    [1] – Luis von Ahn,* Benjamin Maurer, Colin McMillen, David Abraham, Manuel Blum – reCAPTCHA: Human-Based Character Recognition via Web Security Measures – Science, 12 septembre 2008Mise à jour – date etc

    MISE À JOUR – 14 octobre 2008

    Geek mais pas trop a contacté la Bibliothèque nationale de France au sujet du système Recaptcha ; nous avons demandé aux personnes en charge de la numérisation des ouvrages, s’ils considéraient la possibilité de recourir à un dispositif similaire à l’avenir.

    Voici la réponse de M. Dominique Stutzmann (Bibliothèque nationale de France, Département de l’Information bibliographique et numérique)

    L’accès au texte des documents et non pas seulement à l’image est un impératif majeur. (…) La BnF consacre un budget conséquent à l’océrisation. Vous pourrez d’ailleurs en voir les fruits sur la version « bêta » de Gallica à l’adresse suivante : http://gallica2.bnf.fr. La recherche dans le plein texte est disponible pour environ 17000 titres, dont 10 % de périodiques.

    Le système des reCaptcha nous est connu (…). Pour répondre à votre question, la BnF n’a pas implémenté un tel système.

    Il y a deux principales raisons à cet état de fait :

    1) le reCaptcha ne peut être utilisé qu’une fois que l’on dispose de l’OCR et est donc un complément et une aide à la correction, mais non pas un moyen de transcrire intégralement. En effet, dans le système du reCaptcha, il faut qu’il y ait au moins un mot juste et reconnu avec certitude pour s’assurer que celui qui répond n’est pas un spammeur. (On ne dit pas quel est le mot reconnu avec certitude et déformé, ce qui oblige le transcripteur à transcrire de son mieux les deux mots.)
    Cette condition est réalisée depuis un peu moins d’un an, puisque Gallica2 a été lancé en octobre 2007, mais c’est encore une plateforme en cours d’évolution.

    2) La correction par reCaptcha impose de savoir exploiter la saisie des internautes et de gérer des index de recherche de façon dynamique et évolutive. Pour l’instant notre architecture logicielle ne nous permet pas cela. Nous réfléchissons à plusieurs manières d’améliorer l’OCR ; le reCaptcha tiendra une bonne position quand il sera temps de procéder à de telles corrections (…)

    Posté par Fabulatio à 12h20

  • 4 commentaires

    WP_Modern_Notepad

    Écrire un commentaire

[an error occurred while processing this directive]
[an error occurred while processing this directive]
S'abonner aux articles

Geek mais pas trop sur Facebook
et sur Twitter !

[an error occurred while processing this directive]
[an error occurred while processing this directive] [an error occurred while processing this directive]
[an error occurred while processing this directive]
over-blog.com - fan9 - shop6