Vous êtes ici :

Le projet de HAL-Archives Ouvertes

Interview de Daniel CHARNAY

© DR
Directeur adjoint du Centre de Communication Scientifique Directe

<< L’idée première de ces archives ouvertes est de construire un espace où les chercheurs peuvent échanger leurs productions, établir des collaborations et être visibles >>.

Réalisée par :

Tag(s) :

Date : 21/09/2009

Propos recueillis par Marianne Chouteau, le 22 septembre 2009.
Entretien avec Daniel Charnay, Directeur adjoint du Centre de Communication Scientifique Directe, laboratoire où a été créée l’archive ouverte HAL.

Comment est né le projet de HAL-Archives Ouvertes ?
Il y a une dizaine d’années environ, le centre pour la Communication Scientifique Directe (CCSD) (cf. encadré ) a été créé au sein de l’IN2P3 de Lyon. A l’époque, on parlait très peu d’Archives ouvertes. Il en existait deux dans le monde : celle nommée ArXiv pour les sciences dures et notamment pour les sciences physiques et les mathématiques et celle nommée Pub Med central qui était dédiée aux sciences de la vie. Cette dernière émanait d’une volonté du gouvernement américain de mettre en ligne, gratuitement, les résultats des recherches liées à la santé issus de financements publics.
En France, le CNRS a décidé de créer une archive pour les sciences physiques ; bien que paradoxalement elles n’en avaient pas besoin car elles utilisaient déjà ArXiv. Mais l’idée nouvelle était de créer une forme d’archive pluridisciplinaire et internationale. Il s’agissait donc de construire un circuit court entre les différents chercheurs pour que les publications soient diffusées et lues bien plus rapidement que lorsqu’elles passent par le circuit classique de l’édition scientifique et des revues à comité de lecture. Dès lors, en 2001, le CNRS a commencé à mettre en place cette archive qui démarre avec les sciences dures mais qui s’élargit très vite aux autres disciplines. Avec l’Institut des Sciences de l’Homme (ISH), la partie SHS démarre en 2003 et prend très rapidement de l’ampleur. Aujourd’hui, contrairement à ce que nous pensions, c’est cette partie qui reçoit le plus grand nombre d’articles. Cela s’explique par le fait que les SHS n’avaient aucune archive ouverte leur étant dédiée à l’époque alors que les sciences dures avaient, entre autres, ArXiv.

Le Centre pour la Communication Scientifique Directe (CCSD) en deux mots
Le CCSD est une unité propre du CNRS créée en 2000 qui a pour objectif de développer des Archives ouvertes.
Cette unité est basée à l’IN2P3 sur le campus de la DOUA. Le CCSD gère Hal-Archives ouvertes qui est une plate-forme pluri-disciplinaire. Le fonds est constitué aujourd’hui de 150.000 articles.

Au départ, l’idée première est partie d’un chercheur de l’ENS-Sciences avec qui le CNRS via le CCSD s’est allié. Ce dernier souhaitait mettre en place des archives ouvertes sur le modèle d’ArXiv mais il n’avait pas d’infrastructure informatique pour le faire. De mon côté, l’IN2P3 de Lyon, j’avais également envie de continuer mon travail autour des bases de données. Nous sommes rentrés en contact et nous avons proposé cet outil qui s’est construit à Lyon où il y a des compétences importantes en matière de numérique. Le centre de calcul de l’IN2P3 du CNRS peut accueillir à moindres coûts des archives telles que HAL et le centre de Lyon avait toutes les compétences pour le faire.

Au départ de l’aventure, le CNRS est parti seul mais rapidement, il a été rejoint par l’Institut National de Recherche en Informatique et Automatique (INRIA) puis peu à peu tous les établissements de recherche français : l’INSERM, l’Institut de Recherche pour le Développement (IRD), le CEA, l’Institut National de Recherche Agronomique (INRA), etc. et les universités. Il s’en est suivi un protocole national signé entre tous ces établissements. Ce dernier durera deux années puis ne fut pas reconduit. Cela n’empêche pas les établissements de continuer à travailler ensemble, les pratiques et les objectifs étant les mêmes.

Quels étaient alors les termes de ce protocole ?

Il s’agissait de construire une plate-forme commune d’archives ouvertes pour la France. Le choix s’est porté sur HAL. Toutefois, dans ce type d’accord, il peut exister des dissonances entre certains établissements de recherche ou les universités. Certains souhaitent en effet souvent garder leurs productions scientifiques chez elles ; ce qui dans le contexte de recherche dans lequel on est aujourd’hui est compréhensible. A l’époque, certains établissement ou universités voulaient mettre en place leur propre système d’archive dans lequel HAL pourrait venir chercher des documents. Ce système leur semblait plus juste car il donnait une visibilité plus importante: les productions étant ainsi rassemblées et estampillées. De plus, les universités souhaitaient également mettre d’autres formes de documents en ligne : des cours, des conférences, etc. ce que HAL ne pouvait pas forcément prendre en charge. Mais au final, les universités ont mis en place des protocoles et des plates-formes qui se sont interconnectées avec HAL (GRAAL).
HAL a donc mis en place un modèle où sont publiées des productions de recherche et où ce sont les chercheurs eux-mêmes qui déposent leurs articles.

Les articles mis en ligne sur HAL sont des articles qui ne sont pas publiés par ailleurs ?

Cela dépend beaucoup des disciplines. En mathématiques et en physique, les chercheurs mettent en ligne leurs articles dès que ces derniers sont écrits ; ce sont des « pré-prints ». Cela n’empêche pas ces articles de suivre la procédure standard et d’être proposés à des revues avec comité de lecture. Quant aux chercheurs en sciences de la vie, ils ne déposent leur article sur HAL que lorsque ce dernier a été publié dans une revue à comité de lecture. Ainsi, la majorité des articles publiés sur HAL sont des articles soit en instance d’être publiés, soit déjà publiés, soit – dans les cas les plus rares - des articles qui ne seront jamais publiés ailleurs. Dans ce dernier cas, l’auteur estime en effet qu’il ne pourrait pas être publié dans une revue, par exemple.
A ce propos, au départ, tout le monde disait que dans le domaine des SHS, les archives ouvertes ne pourraient pas marcher car les chercheurs en SHS publient des chapitres d’ouvrages ou des ouvrages. Les auteurs avaient peur que si l’information devenait libre d’accès, les monographies ne soient plus achetées. Or finalement, les SHS ont bien réagi. Toutefois, en ce qui concerne les SHS, il y a des disciplines très variées avec des us et coutumes très différents. Les chercheurs en économie ne réagissent pas de la même façon que ceux en littérature ou en histoire. Il y a des disciplines plus réactives que d’autres.

Quelle est la politique éditoriale mise en place ?

Ce n’est pas à proprement parler une politique éditoriale ; nous avons un « filtrage » ou une modération qui permet de garantir une qualité homogène de l’archive et. En théorie, il ne s’agit pas du tout d’un comité de lecture dans le sens où nous nous attachons essentiellement à la scientificité de l’article : nous veillons à ce que ce soit bien un article dit de recherche, sans évaluer le fond surtout si cela a été fait par le comité de lecture d’une revue. Mais, HAL ne peut pas se permettre de publier n’importe quel propos, aussi nous sommes très vigilants sur les productions diffusées.
Nous nous sommes rendus compte, toutefois, que les chercheurs s’auto-censurent de façon efficace et nous rejetons très peu d’articles sur HAL. Nous recevons peu de rapports de recherche, d’articles de vulgarisation ou d’articles aux propos tendancieux, non-scientifiques, etc.
Cette centralisation est un point fort pour HAL. Si chaque établissement avait réalisé ses propres archives, le système n’aurait pas si bien fonctionné. En effet, avec le système mis en place dans HAL, on peut refuser un article sans grande difficulté : il n’y a pas de lutte d’influence, pas de liens directs entre les personnes qui sélectionnent et celles qui déposent les articles. Mais dans le cadre d’une université ou d’un laboratoire, comment refuser l’article de son collègue de bureau sans créer de tension ?
Nous avons, par ailleurs, du personnel de la documentation qui examine les articles de façon précise afin de savoir si du point de vue de la forme tout est correct : les métadonnées, le résumé, les titres, etc. Du point de vue du contenu, il est difficile pour nous d’analyser systématiquement tous les articles et de savoir si tel ou tel auteur est « coupable » de révisionnisme par exemple ou s’il émet une théorie complètement farfelue. En conséquence, nous nous entourons d’un réseau de scientifiques qui expertisent les articles en cas de doute. Evidemment, cela s’applique surtout pour les « préprints ».

Avez-vous une politique d’incitation auprès des chercheurs pour qu’ils déposent davantage leurs articles ?

Il est vrai que le principe de HAL repose sur l’auto-archivage : c’est aux chercheurs de déposer eux-mêmes leurs articles. Dans certains laboratoires, les centres de documentation, qui ressentent particulièrement bien les enjeux des archives ouvertes, réalisent un travail considérable d’archivage en mettant systématiquement en ligne les articles de leurs chercheurs.
Cela dépend aussi du profil des chercheurs : les plus jeunes sont plus à l’aise avec ces outils et mettent plus spontanément leurs articles sur HAL que les plus âgés.
Actuellement, avec ce système, nous captons de 15 à 20% de la production scientifique française. C’est peu, certes. Mais c’est mieux que toutes les archives ouvertes qui existent en Europe. Dans ce domaine, la France a de bonnes performances qui peuvent s’expliquer par le fait que cette archive est centralisée. Cette centralisation lui donne une visibilité importante car elle n’est pas accolée à une université ou un établissement en particulier. De plus, HAL est interconnecté avec les grandes archives internationales telles que ArXiv ou Pub Med Central. Elle est connue en Europe. Cela provoque un cercle vertueux : comme elle est connue, les chercheurs déposent davantage leurs articles dessus, ce qui lui donne en retour une notoriété plus importante. Il y a tout de même un phénomène à prendre en compte dans le milieu des chercheurs. Si une université ou un établissement crée sa propre archive, les chercheurs auront du mal à déposer leurs productions estimant que le système est trop centré, trop local. En revanche, si vous donnez une envergure nationale à votre archive en la centralisant, les chercheurs déposent davantage leurs articles.

Quel est aujourd’hui le taux de dépôt des publications ?

La courbe de dépôt est encore exponentielle mais… par rapport aux estimations que nous avions faites, nous sommes en dessous. Nous nous sommes trompés. Nous pensions que 10 ans après la création de HAL, nous capterions 80% de la production scientifique française, ce qui n’est aujourd’hui pas encore le cas.

Quels sont les freins qui empêchent les chercheurs de déposer leurs publications sur HAL ?

Certains chercheurs ne voient pas l’intérêt de déposer sur HAL alors qu’ils publient dans des revues qui ont leur propre site web. Ils estiment que leur production est déjà disponible sur Internet. Or, ils oublient que ce service est payant et souvent très cher. D’autres chercheurs estiment ne pas avoir le temps de déposer leurs articles. Or, il s’agit là d’une poignée de minutes : le dépôt est très simple si l’article est en version électronique.
Toutefois, si le directeur du laboratoire est très actif en la matière, les chercheurs suivent généralement bien le mouvement.
Pour déposer un texte dans une archive ouverte, il faut disposer des droits d'auteurs. Si le texte a déjà fait l'objet d'une publication dans une revue, cela suppose que l'auteur négocie avec son éditeur pour disposer librement de sa "version auteur". Mais cette démarche parait légitime, surtout lorsque le texte est le fruit d'une recherche financée sur des deniers publics avec des chercheurs qui cèdent gratuitement leurs productions, elles mêmes évaluées gratuitement également. Il est difficile de comprendre que les institutions aient à racheter les abonnements contenant leur propre production ! Il convient néanmoins de respecter de possibles délais d'embargo afin de ne pas mettre en péril un travail important des éditeurs. Ceci est d'autant plus vrai dans des journaux en SHS à faible diffusion s'appuyant sur des éditeurs fragiles.

Vous n’avez pas établi de partenariats avec les éditeurs ?

Notre objectif n’est évidemment pas de les concurrencer, les archives ouvertes étant un modèle complémentaire à celui de l’édition classique. Nous les rencontrons souvent, nous travaillons avec le syndicat  national de l’édition afin d’établir des partenariats pour que les publications soient accessibles rapidement et gratuitement tout en préservant le travail des éditeurs.
Il y a projet européen nommé « PERR » dont le but est de mesurer l’impact de la mise en ligne des articles en Archives ouvertes. HAL est une « cible » de ce projet. Dans ce projet, les éditeurs eux-mêmes déposent certains articles en archives ouvertes et on leur fournit des statistiques d’usage pour qu’ils mesurent l’impact de ce dépôt sur leurs propres publications. Ils peuvent ainsi comparer ce qui se passe pour un article qui a été déposé sur des archives ouvertes et pour un article qui ne l’aurait pas été.
Le dialogue a été long à s’instaurer entre les éditeurs et nous mais aujourd’hui, nous tentons de travailler ensemble. Il y a toutefois des domaines où cela est très complexe. Dans certains domaines comme la chimie par exemple, les éditeurs peuvent aller jusqu’à refuser catégoriquement de publier un article si ce dernier a été précédemment déposé en archives ouvertes. En SHS, nous ne ressentons pas ce blocage mais c’est aussi parce que les choses sont plus floues. Lorsque vous publiez avec un éditeur, la relation que vous avez avec lui est basée sur la confiance : il est rare de signer un contrat d’édition, le contrat est moral – ce qui n’est pas le cas en physique par exemple.

En terme de consultation, arrivez-vous à voir qui vous consulte et à quelle fréquence ?

Nous nous sommes rendus compte que les publications en français sont beaucoup consultées par des chercheurs du Maghreb ou d’autres pays francophones et ceci est d’autant plus vrai pour les thèses. En effet, les thèses représentent une littérature scientifique en français et cela est précieux dans des pays où les chercheurs préfèrent lire en français qu’en anglais. Mais la consultation est en constante augmentation. Plus le fond augmente, plus la consultation augmente.
Une des caractéristiques importante est que le fond est pluridisciplinaire. Quand vous faites des recherches à la frontière entre les sciences dures et les sciences « molles » ou entre deux disciplines de sciences dures ou « molles », vous avez accès grâce aux archives à un ensemble de publications très variées. Vous pouvez ainsi élargir votre champ de recherche très facilement.
Aujourd’hui, nous avons un fonds de 150.000 articles… Cela commence à être vraiment intéressant !

Arrivez-vous à voir si la provenance des contributeurs varie ou si ce sont toujours les mêmes laboratoires, les mêmes chercheurs, les mêmes centres de documentation qui déposent des articles ?

C’est évident que lorsqu’un laboratoire ou une personne « tombe » dans le système… elle dépose. On le voit bien. Quand un chercheur découvre le système, il dépose un article, souvent le dernier qu’il a écrit. Puis, il se rend compte que c’est simple et il va déposer l’ensemble de sa bibliographie si elle est sous forme électronique. Il reste évidemment des pans entiers de laboratoires qui n’ont jamais entendu parler de HAL. Toutefois, la population « déposante » est en constante augmentation. Il nous semble qu’il faut un facteur déclenchant… ensuite, l’habitude est prise.

L’enjeu d’un dépôt sur les archives ouvertes vous semble-t-il compris par l’ensemble de la communauté scientifique ?

Pas exactement. Il y a plusieurs cas de figures. Il y a les laboratoires qui considèrent que cet outil ne sert qu’à recenser les articles afin de réaliser une « vitrine » de la production scientifique de l’établissement. Mais ce n’est absolument pas le but unique de ces archives. L’idée première de ces archives ouvertes est de construire un espace où les chercheurs peuvent échanger leurs productions, établir des collaborations et être visibles. Mais tout ça n’est pas complètement compris. D’aucuns imaginent que cela peut les aider dans le cadre du classement de Shanghai. Mais l’idée fondatrice de HAL est de construire une plate-forme d’échange de savoirs pluridisciplinaires en texte intégral et gratuitement.
Il y a aussi un autre enjeu important dans HAL qui n’est pas forcément compris. Nous avons un devoir de conservation à long terme. Un article déposé aujourd’hui devra être lisible dans cinquante ans voire cent ans ou plus ! Nous veillons à mettre à jour l’ensemble des formats des dépôts et à les « muter » en format récent si besoin. Un article ancien a de l’importance et est conservé même dans des disciplines où les durées de vie des données sont très courtes (en informatique par exemple). Chez un éditeur, ce n’est pas le cas, les articles sont éliminés du fond très rapidement.

Quelles sont les évolutions possibles pour HAL ?

Nous mettons en place des choses à la périphérie de HAL. Nous ouvrons d’autres archives. Nous mettons en place une archive de photographies de recherche. Par exemple, nous mettrons en ligne les 3000 photographies que pourraient faire un archéologue sur un site de fouilles. Puis, nous élargirons aux vidéos ou aux archives sonores. Nous possédons des enregistrements de conférences de l’Académie des Sciences ; nous les rendrons disponibles.
Nous sommes également entrain de mettre en place des outils informatiques pour aider les chercheurs à fabriquer leurs congrès : récupération des inscriptions, rassemblement des résumés ou textes intégraux.
Nous avons également un projet avec Revues.org (cf. encadré 2) qui consiste à éclater les revues rassemblées sur ce site et les intégrer dans HAL. Ainsi, les articles seraient accessibles par Revues.org et par HAL.
A ce jour le CCSD héberge l’infrastructure de Revues.org. Il existe donc d’ores et déjà un fort partenariat.

Des revues en ligne… Revues.org est le plus ancien portail de revues électroniques en sciences humaines et sociales. Créé en 1999, il diffuse des revues éditées en français et en anglais.
Ce portail offre également d’autres services calenda – calendrier en ligne des manifestations en SHS, Hypothèses, archives de carnets de recherche et Manuscrits, archives de manuscrits.
www.revues.org

Le CCSD est également fortement impliqué dans le TGE-ADONIS où il fait partie de la maîtrise d’ouvrage pour la mise en place du méta-portail d’ADONIS. ADONIS rassemble un certain nombre d’acteurs dont l’IN2P3 qui intervient pour faire du stockage de masse. Il va y avoir d’autres données issues d’Archives et de sites différents qui seront sécurisées au centre de calcul de l’IN2P3. L’idée d’ADONIS est de construire un méta-portail qui sera un point unique d’entrée pour l’ensemble de ces ressources. Ces données seront de différentes formes : bibliographies, publications, images, vidéos, etc. de recherche pure.
Les chercheurs pourront trouver des sources très diverses. Par exemple, des corpus d’images d’enluminure, des photos de bâtiments anciens et lointains, etc.
Ce portail intègrera un moteur de recherche sémantique très puissant où toutes les ressources seront décrites de façon précise.

N’avez-vous pas l’impression que l’offre est, en ce domaine, bien plus importante que la demande ? On a l’impression que la technique nous permet de construire des outils très puissants et très utiles mais que l’usage des chercheurs n’est pas adapté ?

C’est un questionnement récurrent en effet. Mais il est très important que des gens soient en avance sur les besoins des chercheurs. Par exemple, un des chercheurs que je connais et qui travaille sur la langue chinoise est allé en Chine et a scanné des écritures anciennes qu’il a ensuite conservées sur son disque dur. Il a voyagé avec son disque dans sa valise, puis il l’a stocké dans son bureau en France où il n’est pas à l’abri d’une détérioration, voire d’un vol… L’ensemble de ces données serait alors perdu…
Si on ne propose pas des modes de stockages pérennes et sécurisés, on prend le risque de perdre des données de recherche primordiales. A partir du moment où on construit des systèmes pour stocker et sécuriser les informations, il est important également que ces dernières soient disponibles en libre d’accès.
Parfois, on propose des solutions qui ne sont pas utiles dans le présents ou dans le court terme, mais qui, sur le long terme prennent tout leur sens.
Il y a des quantités d’informations en science qui se perdent chaque jour. En SHS, il y a encore des chercheurs qui travaillent en prenant des notes sur des carnets et qui lorsqu’ils partent à la retraite les laissent dans des placards. Si personne ne prend le temps de les numériser et de les stocker, l’ensemble de ces informations sera perdu.
Tout réside dans la mise en place des outils que l’on crée. Si on construit des outils trop complexes pour le chercheur, cela ne sert à rien. Au contraire, si on est à l’écoute des chercheurs et que l’on conçoit des outils efficaces, simples et en lien avec leurs besoins à court ou long terme, on a toutes les chances de réussir. C’est tout l’enjeu de HAL : construire un outil utile pour les chercheurs qui s’adapte à leurs besoins et les anticipent.

Il ne s’agit donc pas d’augmenter indéfiniment les capacités de stockage pour fournir de plus en plus d’informations en masse ?

Cela me paraîtrait plus intéressant d’ouvrir le panel de documents proposés et de laisser aux lecteurs le choix de trouver des informations de différents types : vulgarisation, niveau recherche, images, vidéos, etc. pourvu que ce soit des données liées à la recherche.
La recherche sur une thématique pourrait alors se faire via différents critères de sélection laissés au libre arbitre du lecteur. C’est une des évolutions possibles de HAL.

Cela impliquera des partenariats avec des magazines tels La Recherche, Sciences et Vie, etc. qui sont commerciales ?

C’est exact. Mais, un magazine comme La recherche fait de l’argent avec le numéro qui sort, pas avec celui qui a deux ans ou trois ans. Donc, mettre ces articles à disposition ne les handicaperait sans doute pas. Au contraire, cela leur permettrait peut-être d’augmenter leur visibilité, leur notoriété voire leur lectorat. Cela leur permettrait peut-être aussi de construire des collaborations avec d’autres magazines, avec des chercheurs ou avec des universités. C’est en tout cas une piste à suivre.

A votre sens, comment une collectivité telle le Grand Lyon peut intervenir dans le développement de ce type d’outils ?

Il y aurait beaucoup à faire. Par exemple, s’il y a un portail des savoirs construit par la collectivité. Vous pouvez faire une recherche transversale sur HAL soit manuellement soit en initiant un programme pour « sortir » l’ensemble des publications sur une thématique produites et déposées par les laboratoires lyonnais. Par exemple, vous travaillez sur les sciences de l’environnement, vous créez votre portail, votre moteur de recherche et vous l’alimentez régulièrement avec les productions déposées sur HAL. Votre portail est mis à jour régulièrement avec des publications récentes et ce, automatiquement.
Vous pouvez faire des sélections thématiques mais aussi géographiques en sélectionnant par exemple tout ce qui se produit à Lyon. Le système est aussi conçu pour reclasser l’information et la rendre plus visible, plus lisible. Vous pouvez aussi construire un portail avec toutes les publications régionales ou par universités, etc.
Le développement de ce genre de partenariats est très important. HAL stocke de l’information et son rôle est de la redistribuer à qui veut s’en servir… Les collectivités telles que le Grand Lyon sont donc les bienvenues.
Nous avons développé des partenariats avec des industriels. Danone a ouvert un portail dans HAL dans lequel les articles émanant du service R&D de Danone sont déposés.
Nous sommes également interconnectés avec ArXiv et Pub Med central qui sont les deux principales le laboratoire  archives hors institution faisant référence dans le monde. Nous avons développé des partenariats avec la Norvège, la Suède et la Finlande.

Avec ces développements, pensez-vous que le système papier va disparaître ?

Dans certaines bibliothèques, les revues papier ne sont plus déballées. On commence à ne plus conserver le papier. Les chercheurs vont de moins en moins en bibliothèque car ils ont, de leur bureau, accès via des abonnements, à des revues, à des bouquets de portails, etc. On peut imaginer que les revues vont évoluer de plus en plus en ouvrant les formats. Aujourd’hui un article scientifique est composé de texte, de schémas, de graphiques voire de photos. Mais avec le numérique, rien n’empêcherait de rajouter des images en 3D, des vidéos, des bandes sonores pour certains domaines disciplinaires tels que la physique, l’archéologie, l’histoire de l’art, etc. Il s’agit d’une ouverture incroyable même si cela complique l’archivage à long terme.

Le saviez-vous ? Né en 2001, HAL - Hyper-Archives en Ligne – tient son nom de l’ordinateur du vaisseau imaginé dans le film 2001 L’Odyssée de l’espace de Stanley Kubrick.