Plein écran
Imprimer

page foireurse






%%




%%

% CHAP 2
%%




%%




%%
\cleardoublepage
\chapter{Structures émergentes}
\label{chap4}
NaV\marginpar{éventuellement enlever le 4.1 et ne garder que les dynamiques des communautés scientifiques}
%\section{propriétés de haut niveau.}

Un ensemble de structures de haut-niveau non triviales résultant des interactions individuelles entre agents a été mis en évidence dans une grande variété de réseaux sociaux réels: réseaux de collaboration scientifique \citep{newm:stru,Newman:2004p2277,Garas:2008p2180}, d'amitié \citep{Adamic:2005p2326}, d'email \citep{Kossinets:2006p251,Zhou:2005p102}, de contact téléphonique \cite{Onnela:2007p2372}, de contact sexuel \citep{Bearman:2004p2324}, d'interaction dans des communautés en ligne \citep{Holme:2004p2327,Viegas:2007p36}, etc. \ADD{On rencontre également des structures de haut niveau similaires ou différentes \citep{Newman:2003p86} dans d'autres types de réseaux d'interaction \citep{Strogatz:2001p140,girv:comm,Barrat:2004p2384} tels que les réseaux biologiques (réseaux métabolique, trophique, neuronal ou réseau de régulation), les réseaux d'infrastructure (comme Internet ou un réseau électrique), mais aussi les réseaux sémantiques \citep{Steyvers:2005p2713}. }

Parmi ces structures, on peut signaler des motifs classiques déjà traités dans le chapitre~\ref{chap3} tels que les distributions de degré hétérogènes ou la présence d'une forte densité locale ou plus généralement la sur- ou la la sous-représentation de certains motifs triadiques \citep{newm:stru,milo:2004}, mais aussi l'organisation du réseau en petit-monde \citep{milg:smal,Watts:1998p276}, ou encore la structure dite modulaire des réseaux sociaux faite d'agrégats mésoscopiques dont les n\oe uds sont fortement connectés entre eux et peu liés vers l'extérieur \citep{girv:comm,Newman:2003p86}.

Ces propriétés structurelles sont remarquables au sens où elles sont caractéristiques des ``réseaux de terrain'' et complètement absentes du réseau aléatoire prototypique que constitue le graphe aléatoire de Erdős-Rényi \citep{erdo:rand} : $G(n,p)$, {formé de $n$ n\oe uds connectés deux à deux avec une probabilité $p$\footnote{Ces réseaux aléatoires se différencient des réseaux réels vis-àvis de l'ensemble des caractéristiques structurelles que nous venons de mentionner: leur distribution de degré est homogène (elle suit une loi de Poisson), leur clustering est faible, ils se caractérisent également par l'absence d'une structure modulaire ou hiérarchique, par contre, tout comme les réseaux réels leur diamètre (plus grande distance entre deux n\oe uds du réseau) est relativement faible (de l'ordre de $log(n)$)}}. Comme nous l'avons déjà illustré pour certaines d'entre elles dans le chapitre précédent, bien qu'émergeant d'un grand nombre d'interactions locales, ces propriétés structurelles se caractérisent par une grande stabilité.

Au delà de la mise en évidence de ces motifs, la littérature récente sur les grands réseaux d'interaction s'est orientée, notamment sous l'impulsion des approches physiciennes, vers % une mise en évidence de ces motifs \citep{Newman:2004p244,milo:2004} et
le développement de modèles de morphogenèse de réseaux à même de reconstruire ces propriétés, l'ambition étant de reproduire le plus grand nombre de ces faits stylisés de haut niveau % mise en évidence des dynamiques individuelles susceptibles de les reconstruire
à partir de modèles aussi parcimonieux que possible \citep{Watts:1998p276,Barabasi:1999p303,Holme:2002p2387,Klemm:2001p2388}.
%\marginpar{remettre tout ça en forme, et aérer}

\ADD{Ces propriétés de haut-niveau ont également une influence déterminante sur les propriétés dynamiques de ces réseaux. Une distribution de degré en loi de puissance garantit une certaine robustesse du réseau et une tolérance aux attaques non ciblées \citep{Albert:2000p247%}, des propriétés de percolation \citep{
,Callaway:2000p2385}. Elle induit également nombre de conséquence vis-à-vis des processus de diffusion\citep{Watts:2002p167,Cowan:2004p130}\footnote{Nous aurons l'occasion dans la partie~\ref{part3} de revenir sur d'autres propriétés des réseaux réels susceptibles de modifier la dynamique de diffusion.} et de synchronisabilité \citep{Motter:2005p2389,Dorogovtsev:2007p864}. La corrélation entre les structures locales (liées au clustering du graphe) et les connections à longue distance (propriété de petit-monde) peuvent produire des propriétés remarquables vis-à-vis de la naviguabilité dans ces réseaux (capacité des agents à ``router'' efficacement une information vers un autre agent avec des informations purement locales) \citep{Kleinberg:2000p2383,watt:iden}.}

%D'une part en effet, réseaux sociaux et sémantiques sont fréquemment étudiés séparément --- et, en pratique, l'analyse de réseaux sociaux s'intéresse finalement peu souvent aux relations entre structure sociale et structure sémantique \citep{emir:netw}. Or, Les réseaux de savoirs sont en effet le théâtre d'interactions à fort contenu sémantique, soulignant ainsi la pertinence de l'utilisation de motifs structurels ou de mécanismes d'interaction qui ne soient pas {strictement sociaux}, c'est-à-dire uniquement fondés sur les relations entre agents \citep{call:meth}: il devient judicieux de s'interroger sur la place du contenu sémantique dans la formation des interactions et la déformation du réseau social, car la distribution des représentations culturelles peut en effet influer sur la dynamique sociale \citep{emir:netw}. Plus exactement, les interactions ayant lieu au sein d'un tel système complexe socio-sémantique sont, au moins partiellement, déterminées par la structure des interactions passées et par les affinités conceptuelles entre agents; les nouvelles interactions modifiant aussi bien la structure même du réseau social que le réseau sémantique, à même d'influencer les interactions futures.


NaV\FTR{D'une part, l'importance du rôle des structures relationnelles formées par les interactions entre agents est une problématique plus que centenaire en sociologie. L'hypothèse structuraliste s'enracine en effet dans des intuitions anciennes (Simmel ou Durkheim). L'analyse des réseaux sociaux (SNA) se formalise peu à peu à partir des années 30 et l'école de Moreno jusqu'à maintenant en confrontant des données empiriques à des modèle mathématiques et des mesures systématiques \citep{DSNASSS2004a,wasserman94socialnetwork}.
%D'autre part, depuis une dizaine d'années, la façon d'interroger les réseaux sociaux, et les réseaux de terrain au sens large a été renouvelée par des approches de type systèmes complexes \citep{Barabasi:1999p303,Strogatz:2001p140}.
%L'analyse des réseaux sociaux a alors été abordée par des approches formelles empruntant à la physique statistique, l'informatique ou plus généralement les mathématiques appliquées.
%Les interrogations portés sur ces réseaux peuvent se diviser en deux grandes catégories: (i) morphogenèse du réseau: mise en évidence de motifs structurels globaux non triviaux (communautés par ex.) couplée à l'étude des comportements locaux susceptibles de faire émerger ces motifs macroscopiques, (ii) étude des dynamiques des processus à l'\oe{uvre} sur ces réseaux, en particulier la diffusion.
% La présence de structures de haut-niveau non triviales supposées résulter des interactions individuelles des agents a ainsi été mise en évidence dans toute une série de réseau sociaux empiriques (réseaux de collaboration scientifique, d'amitié, de contacts sexuels, d'affiliation à des communautés en ligne, etc.). On peut signaler des structures classiques telles que les distributions de degré hétérogènes, la présence d'une forte densité locale, l'organisation du réseau en petit-monde, ou en communautés localement denses \citep{Newman:2003p86}, etc... Ainsi la recherche sur les réseaux sociaux s'est orientée vers une mise en évidence de ces motifs \cite{Newman:2004p244} ainsi que sur la mesure \citep{koss:empi} et la reconstruction des dynamiques individuelles susceptibles de les reconstruire (\cite{watt:coll,Barabasi:1999p303}).}

%\FTR{De maniére générale, il s'agira d'appréhender les modalités d'apparition et de stabilisation, voire de survie, de certaines structures, au sens le plus large. L'étude de la morphogenése s'articulera ainsi autour de deux processus complémentaires:
%\ENX{(i)
% \IT {\em les mécanismes à l'origine de la morphogenése}: il s'agira essentiellement de l'étude du comportement des agents et de la formation des liens au sein des réseaux dynamiques, au niveau local.
% Il s'agira d'abord d'appréhender des comportements d'interaction simples --- c'est-à-dire simplement structurels, ou bien simplement sémantiques, voire ``simplement multi-réseaux. Plusieurs méthodes ont été développées pour évaluer les déterminants de l'évolution des structures sociales au cours du temps, comme les modéles ``p* et l'analyse longitudinale \citep{snij:stat,bara:evol,koss:empi}. Nous proposons ainsi d'adapter ces approches à notre cadre socio-sémantique. En outre, nous comptons étudier les comportements locaux en fonction de caractéristiques globales: en d'autres termes, dans un second temps, il s'agira de déterminer si certains motifs de haut-niveau précédemment identifiés sont à mÍme d'induire une rétroaction sur le comportement micro; soit faire l'étude des corrélations entre phénoménes ``macros et comportements ``micros.
% \IT {\em les motifs permettant de décrire la morphogenése}: il s'agira alors de l'étude des communautés ou de motifs pertinents, au niveau global. La reconnaissance de formes, structures, motifs au sein des réseaux est un sujet récent, exploré notamment à travers des paramétres statistiques généraux et statiques tels que la connectivité ou la transitivité globale (clustering) \citep{newm:rand,watt:coll}, ou bien gr‚ce à des approches plus élaborées permettant de diviser les réseaux en sous-réseaux ou modules \citep{girv:comm,milo:supe}. Néanmoins, les motifs exhibés sont fréquemment peu discriminants dans le contexte des réseaux de savoirs. % et ne correspondent pas systématiquement à des notions immédiatement pertinentes en sciences sociales.
% Nous nous attacherons ainsi à définir ici et distinguer communautés de sociabilité (e.g. par le biais de commentaires), d'autorité (i.e. liées aux citations et aux blogrolls), thématiques (sémantiques), et enfin socio-sémantiques. %; dans une démarche de formalisation de définitions sociologiques existantes.
% En particulier, nous proposons d'utiliser des méthodes de co-clustering \citep{roth:latt,poir:anal} qui ont montré des résultats intéressants dans l'étude de communautés de scientifiques travaillant sur certains sujets, ou bien dans l'analyse des opinions d'un site communautaire de fans de cinémas. Ce type de méthode permet de modéliser les données sous forme d'un graphe bi-partite (individus $\leftrightarrow$ termes). Le co-clustering a la particularité de construire des clusters en tenant compte simultanément des deux variables: le modéle peut s'interpréter comme un modéle de corrélation entre les valeurs de chacune des variables. Autrement dit, cela revient à chercher des corrélations entre chacun des individus avec chacun des termes et de regrouper les individus et les termes qui sont similairement corrélés.
%Nous pensons, gr‚ce à cette méthode, trouver des structures communautaires thématiques, i.e. des regroupements d'internautes ayant un vocabulaire proche et significativement différent d'autres communautés. Mais, outre cette cartographie thématique globale de chacune des deux collections de données, nous nous attacherons à caractériser les internautes en nous aidant des mots clés décrivant leur communauté thématique d'appartenance. Nous proposerons éventuellement, si l'expérimentation s'avére intéressante, une analyse du réseau social par cette mÍme technique de co-clustering en partant d'une grille (individus x individus) pour la détection de communautés, cette fois, en ne tenant compte que de la topologie, i.e. des liens entre individus sans aucune information de contenu.
NaV En outre, de maniére transversale, nous nous intéresserons particuliérement aux motifs stables au cours du temps, afin notamment de pouvoir exhiber de {\em nouvelles} classes de motifs définis précisément par leur stabilité temporelle --- et non simplement par leurs caractéristiques statiques.
% Récemment ont été introduits des paramétres statistiques dynamiques, basiques (évolution du degré maximum, du diamétre moyen) ou plus spécifiques (évolution de l'extension de la plus grande composante connexe, dite ``géante'') \citep{lesk:grap,pall:quan}: {ceci est crucial pour la morphogenése}, car il faut savoir si les formes observées sont stables ou non: par exemple, est-ce que la structure globale des communautés reste inchangée? Localement, les communautés évoluent-elles au contraire significativement?
% Cette derniére question est trés liée au théme plus général de la comparaison et l'association de motifs entre deux états d'un mÍme systéme, c'est-à-dire la possibilité d'affirmer à quel point un motif observé à un instant donné (une communauté, par exemple) est ``le mÍme'' qu'un autre observé dans un contexte différent: temporellement (par exemple, à un instant ultérieur) ou bien structurellement (par exemple, une communauté socio-sémantique, i.e. un groupe d'agents utilisant les mÍmes termes, correspondrait-elle à une communauté sociale, i.e. un groupe d'agents fortement connectés?). En d'autres termes, il s'agit là d'évaluer le recouvrement entre motifs, inter-temporellement ou inter-structurellement, ce dernier point étant particuliérement pertinent dans le cas des multi-réseaux (comment le réseau des blogrolls recouvre-t-il le réseau des commentaires? en quoi des blogs citant certaines sources sont-ils à mÍme d'aborder les mÍmes thématiques, et réciproquement?). % (social-social vs. social-sémantique).
% }

\ADD{Malgré la variété des motifs de haut niveau possibles, nous nous intéresserons particulièrement, dans ce chapitre, aux agrégats mésoscopiques d'entités formant des sous-ensembles cohésifs qui structurent nos \CDSs.}
\ADD{%Notre objet d'étude, une communauté de savoirs, n'est néanmoins pas réductible au seul réseau social entre agents.
Compte tenu de l'approche duale entre les dimensions sociale et sémantique que nous adoptons, il s'agit d'interroger la présence de ces agrégats dans les \CDS en distinguant entre ceux rassemblant soit des individus (on parlera alors de groupes ou plus précisément de sous-communautés) soit des concepts (on parlera de champs, et plus précisément de champs épistémiques dans le cas de la Science) soit les deux. Ces agrégats apparaissent comme des structures émergentes de nos trois réseaux composant notre réseau épistémique. Nous discuterons également des couplages éventuels que ces structures entretiennent les unes avec les autres. }

Dans ce chapitre, nous resterons succincts sur la dimension sociale en proposant une approche simple visant à saisir l'articulation entre \textit{communautés structurelles} et \textit{communautés thématiques} à travers une étude sur les communautés affinitaires au sein de la blogosphère fran\c caise.\ADD{ Nous ne détaillerons pas non plus les motifs d'ordre socio-sémantique qui peuvent structurer les communautés de savoirs. On peut renvoyer à ce sujet à l'ensemble du champ de \emph{l'analyse formelle de concepts} qui permet, notamment au travers du formalisme des treillis de Gallois, de cartographier dans un treillis de ``concepts des ensembles d'entités reliées à des attributs \cite{will:conc}. Concernant les \CDSs, cette approche a été notamment employée pour repérer les ``communautés épistémiques au sein d'un ensemble d'embryologistes \cite{Roth2006Latticebased}}. L'essentiel de nos efforts se sont concentrés sur la dimension sémantique à travers la mise en évidence et la cartographie de structures caractéristiques des réseaux lexicaux construits à partir de statistiques d'occurrences et de cooccurrences extraites de publications scientifiques. Cet exercice de cartographie des dynamiques scientifiques nous permettra également de mettre en évidence la rétroaction de structures de haut-niveau sur la dynamique des thématiques de recherche des scientifiques.



\section{Communautés thématiques et communautés structurelles}


Nous commençons notre exploration des agrégats d'entités structurant nos \CDS en nous concentrant en premier lieu sur l'analyse de la ``structure de communautés'' d'un réseau social construit à partir d'une partie du Web social fran\c cais que suit RTGI. Ce travail a été réalisé en collaboration avec Camille Roth, Guilhem Fouetillou, Nils Grunwald et Camille Maussang.
%\THANKS{Ce travail est basé sur une analyse du graphe des communautés du web français, il a été réalisé en collaboration avec Camille Roth et les membres suivants de RTGI: Guilhem Fouetillou, Nils Grunwald, Camille Maussang}

%Le travail de RTGI a comme objectif d'établir les bases d'une cartographie
NaVNous nous sommes appuyés sur les données de RTGI concernant
%\FTR{Kleinberg's works on agregates have since 1998 presented the problem of the hyper-textual geography of web communities \cite{kleinberg1999ash}. Websites close to one another from a thematic point of view propose hyper-links in their content allowing to navigate between them. It means individuals have a tendency to create links between themselves according to common affinities.}

%\FTR{These uncoordinated strategies of hypertextual linking inside communities created from common affinities allow them to establish their own frontiers and define their own hierarchy between their members. The problem of defining web communities by analyzing the hypertextual structure of large sets of websites has been the subject of an abundant litterature in the past few years \TB{REFS}. However the creation of a more large scale geography aiming at representing together these communities and assigning each one a place in relation to the others has not has been less studied \TB{REFS}. The works of a startup named MorningSide Analytics are particularaly relevant since 2007.}


\subsection{Une portion du web social fran\c cais}

De nombreux travaux sur l'évolution du web postulent depuis le travail séminal de \cite{kleinberg1999ash} que les sites thématiquement proches les uns des autres ont tendance à être liés les uns aux autres, formant ainsi des structures socio-sémantiques cohérentes. Comme nous l'avons illustré dans le chapitre précédent, les individus se connectent préférentiellement les uns aux autres lorsqu'ils sont proches sémantiquement.

Le travail de RTGI s'appuie sur ce postulat pour définir les bases d'une \emph{géographie} des communautés du web social basée sur l'exploration semi-automatisée du web par des documentalistes qui identifient, étiquettent et délimitent des territoires du web thématiquement cohérents. Ce travail a permis de classer $12,000$ sites actifs au sein de la blogosphère fran\c caise dans plusieurs dizaines de communautés thématiques différentes (à chaque ensemble de blogs n'est assigné qu'une ``étiquette'', un blog ne peut donc pas appartenir à deux communautés différentes et les frontières entre communautés thématiques sont univoques).


%Websites close to one another from a thematic point of view propose hyper-links in their content allowing to navigate between them. It means individuals have a tendency to create links between themselves according to common affinities.}

%\FTR{RTGI works aims at establishing the bases for a geography of the topical communities of the social web. First applied to France, this project finds its difference from other mapping effort in its rejection of the idea of mapping the whole web. We emit the hypotheses that the coherence of a community can only be perceived after the community has established itself by a sufficient production of hyperlinks. An actor in a community can assert his centrality or his role as a catalyst only by producing hyperlinks to show his interest for another website or redirect his reader to an interesting content, by commenting on websites closeby, and fostering the actions on the part of the community toward himself. It is thus possible to detect dense cores of topical communities on the web once it is it is stripped of many of its navigational, false or commercial links.}

%\subsection{Sourcing methodology}
%\FTR{ The methodology we have devised to help detect web communities is not based on the usual automated methods but uses an exploratory mechanism centered around human documentalists. The focus becomes to equip a human agent in order to help him identify communities. This equipment consists in a suite of technologies enriching the documentalist activity of navigation and search with a set of contextual data allowing him to optimize and focus his navigation. The documentalist explores the communities s/he wants to map and includes or excludes the visited websites from the community according to the contextual data provided by the tools and an empirical appreciation of the topical communities. In a subsequent prospection phase, the resulting data is used by web spiders to expand the concerned territory. Therefore, the neighborhood of the selected sites is then explored. The hypertextual graph of the exploration is stored and various indicatores of topologic proximity are computed. This graph is used by the documentalists to to finish his effort of delimiting the frontiers of the community. By focusing only on the sites which are the most linked by the initial set of explored sites, the documentalist can direct his exploration toward the most elected contents in volume by the members of the community. This method allows to precisely delimit the core of the different communities.}

%\FTR{Starting with the most linked core of the different communities and expanding recursively the territory, millions of inactive, dead or isolated sites, or sites that are not part of a communatarian and affinitive dynamic, can be avoided. Rather than using the properties of the sites, the criteria for belonging to a community is reaching a certain minimum threshold of affinitive and prescriptive links reiterated through time and received from sources qualified and validated by a human agent. This minimum threshold is a function of the structuration level of the community. It is an arbitrarily value adaptating the filter used for the whole web to determine if a given site belongs to the considered territory.}
%\FTR{This work has produced the first cartographic exploration of the French affinitive social web, classifying more than 12000 active sites into over a hundred communities.}
NaV\begin{table}\footnotesize
NaVName & Accuracy & Topological & Original\\ &&Size & Size \\
NaVdecoration-design & 0.8 & 60 & 48 \\
%cooking & 0.971 & 753 & 731 \\
%tech revolution & 0.377 & 628 & 237 \\
%home & 0.796 & 544 & 433 \\
%DIY & 0.73 & 227 & 165 \\
%freemen & 0.76 & 157 & 119 \\
%webcomics & 0.96 & 249 & 238 \\
%left & 0.92 & 377 & 347 \\
%music & 0 & 130 & 0 \\
%gardening & 0.97 & 79 & 77 \\
%right & 0 & 67 & 0 \\
%cars & 0.983 & 124 & 122 \\
%beauty & 0.72535 & 142 & 103 \\
%center & 0.86875 & 160 & 139 \\
%movies & 0.96842 & 95 & 92 \\
%fashion-lifestyle & 0.87328 & 363 & 317 \\
%liberals & 0.90244 & 82 & 74 \\
%news-opinions & 0.18605 & 43 & 8 \\
NaV\caption{{\bf Quantitative data regarding topical communities.} Compared with corresponding structural communities (the correspondance is built through a best-matching procedure) groupings resulting from a community detection algorithm. ``Accuracy refers to the proportion of nodes of the topological community which belong to the same (matched) topical community. ``Topological size and ``Topical size'' refer to the sizes of the respective kinds of community.}\label{correlation}
%\end{table}




\begin{table*}!th\begin
\small
\begin{tabular}{|l||c|c|c|c|c|c|c|c|}\hline
\multirow{2}{*}{Nom}&\multirow{2}{*}{Taille}&\multicolumn{2}{c|}{Comm. structurelles }&Degré&Clustering&\multicolumn{2}{c|}{ ratio de liens}\\\cline{3-4}
&&Taille&Similarité($\NaV\multirow{2}{*}{Nom}&\multirow{2}{*}{Taille}&\multicolumn{2}{c|}{Comm. structurelles }&Degré&\multicolumn{2}{c|}{ ratio de liens}\\\cline{3-4}
NaV$)&moyen&Entrants&Sortants\\\hline
%communaute&taille&links&density&incoming link ratio&outgoing link ratio&size&mean distnce&diamËtre&c3(orientÈ)&degre\\\hline



def 1
%{``Accuracy'' refers to the Jaccard measure between a topical community and its matched structural community (nodes not categorized in the 18 structural communities included)

%deco design &111& 57& 39& 3,27& 0,42& 0,29\\
NaVtech revolution &259 &628 &37 &4,48 &0,4 &0,23\\
NaVdeco brico &227 &227 &57 &12,33 &0,33 &0,36\\
NaVcarnet bd &267 &249 &86 &6,98 &0,22 &0,13\\
NaVmusique &129 &130 & 0&2,12 &0,34 &0,26\\
NaVdroite (pol.) &197 &67 & 0&3,09 &0,29 &0,24\\
NaVbeauté &128 &142 &62 &7,73 &0,38 &0,33\\
%centre (pol.) &160& 160& 78& 5,68& 0,22& 0,4\\
NaVmode lifestyle& 451& 363& 64& 7,49& 0,43& 0,43\\
NaVactu opinion& 195& 43& 4& 2,76& 0,67& 0,64\\ \hline



deco design &111& 57& 39& 3,27& 0,19& 0,42& 0,29\\
cuisine& 744& 753& 95& 28,03& 0,06& 0,07& 0,04\\
tech revolution &259 &628 &37 &4,48 &0,12 &0,4 &0,23\\
foyer &597& 544& 61& 16,52& 0,09& 0,23& 0,26\\
deco brico &227 &227 &57 &12,33 &0,15 &0,33 &0,36\\
freemen& 123& 157& 74& 26,96& 0,05& 0,07& 0,16\\
carnet bd &267 &249 &86 &6,98 &0,12 &0,22 &0,13\\
gauche &563& 377& 59& 4,54& 0,22& 0,2& 0,2\\
musique &129 &130 & 0&2,12 &0,21 &0,34 &0,26\\
jardinage &130& 79& 59& 3,56& 0,16& 0,43& 0,6\\
droite &197 &67 & 0&3,09 &0,22 &0,29 &0,24\\
automobile& 366& 124& 35& 2,38& 0,21& 0,13& 0,07\\
beaute &128 &142 &62 &7,73 &0,18 &0,38 &0,33\\
centre &160& 160& 78& 5,68& 0,27& 0,22& 0,4\\
cinema &248 &95 &37 &3,88 &0,2 &0,15 &0,08\\
mode lifestyle& 451& 363& 64& 7,49& 0,11& 0,43& 0,43\\
liberaux &85 &82 &81 &5,15 &0,23 &0,14 &0,22\\
actu opinion& 195& 43& 4& 2,76& 0,21& 0,67& 0,64\\ \hline


%def 2
%%{``Accuracy'' refers to the Jaccard measure between a topical community and its matched structural community (nodes not categorized in the 18 structural communities excluded)
%deco design &111& 57& 80& 3,27& 0,19& 0,42& 0,29\\
NaVtech revolution &259 &628 &37 &4,48 &0,12 &0,4 &0,23\\
NaVdeco brico &227 &227 &60 &12,33 &0,15 &0,33 &0,36\\
NaVcarnet bd &267 &249 &89 &6,98 &0,12 &0,22 &0,13\\
NaVmusique &129 &130 & 0&2,12 &0,21 &0,34 &0,26\\
NaVdroite &197 &67 & 0&3,09 &0,22 &0,29 &0,24\\
NaVbeaute &128 &142 &63 &7,73 &0,18 &0,38 &0,33\\
NaVcinema &248 &95 &55 &3,88 &0,2 &0,15 &0,08\\
%mode lifestyle& 451& 363& 64& 7,49& 0,11& 0,43& 0,43\\
NaVactu opinion& 195& 43& 4& 2,76& 0,21& 0,67& 0,64\\ \hline


%def 3
%%{``Accuracy'' refers to the proportion of nodes of the structural community which belong to the same (matched) topical community.
%deco design &111& 60& 80& 3,27& 0,19& 0,42& 0,29\\
NaVtech revolution &259 &628 &38 &4,48 &0,12 &0,4 &0,23\\
NaVdeco brico &227 &227 &73 &12,33 &0,15 &0,33 &0,36\\
NaVcarnet bd &267 &249 &96 &6,98 &0,12 &0,22 &0,13\\
NaVmusique &129 &130 & &2,12 &0,21 &0,34 &0,26\\
NaVdroite &197 &67 & &3,09 &0,22 &0,29 &0,24\\
NaVbeaute &128 &142 &72 &7,73 &0,18 &0,38 &0,33\\
NaVcinema &248 &95 &97 &3,88 &0,2 &0,15 &0,08\\
%mode lifestyle& 451& 363& 87& 7,49& 0,11& 0,43& 0,43\\
NaVactu opinion& 195& 43& 19& 2,76& 0,21& 0,67& 0,64\\ \hline
\end{tabular}
\caption{{\bf Communautés thématiques:} meilleur mapping avec les communautés structurelles détectées et propriétés topologiques. %La similarité est Compared with corresponding structural communities (the correspondance is built through a best-matching procedure). \TB{``Accuracy refers to the Jaccard measure between a topical community and its matched structural community. ``Topological size and ``Topical size'' refer to the sizes of the respective kinds of community.}
}\label{correlation}
\end
.

%Un des enjeux est également d'évaluer l'intérêt que peuvent avoir ces types d'algorithme pour rendre compte d'une organisation réaliste des territoires numériques.

\begin{figure}h\begin

\label{fig:map}
\end

\end{figure}
%\FTR{We first aim to check whether topical communities resulting from a hand-made selection and validation process achieved by documentalists are \emph{structurally relevant}, \hbox{i.e.} they correspond to topological groupings with respect to the structure of the hyperlink network.
%To do so, we compare the thematic categorization with communities obtained through automatic %community detection algorithms using the sole structure of the network.
%We specifically use the partitioning algorithm of \cite{blondel2008fuc}.}



\` A partir du réseau hypertexte symétrisé constitué de $4,980$ n\oe uds, nous avons obtenu $148$ \emph{communautés structurelles} distinctes, la plupart étant de taille très réduite (moins de $10$ n\oe uds). Pour simplifier notre procédure de comparaison entre communautés structurelles (issues de l'algorithme de détection de communautés) et \emph{thématiques} (issues du travail d'expert sur les sites), nous n'avons retenu que les $18$ communautés issues de notre catégorisation automatique, qui couvrent $4,222$ blogs (soit $84.8\%$ de l'ensemble). Nous avons ensuite effectué un appariement optimal entre nos $18$ communautés structurelles et les $18$ communautés thématiques originales, qui maximise le nombre de n\oe uds ``correctement'' identifiés. %La procédure d'appariement consiste à trouver la meilleure correspondance possible %dans le graphe biparti des communautés thématiques et structurelles.

%\FTR{From a symmetrized version of the original $4,980$-node network, we obtained $148$ structural communities, most of them being very small (under 10 nodes). As we started to focus We then to focus on the $18$ more populated communities, covering $4,222$ blogs ($84.8\%$ of the whole). We then computed the best possible mapping between our automatic, structural categorization and the hand-made topic-based partition, \TB{\scwhich optimizes the number of nodes correctly matched%c'est quoi l'algo de matching d'ailleurs, on va en parler rapidos quand meme?
%
}.}

Plus de $80\%$ des sites inclus dans les 18 plus grandes communautés structurelles ont été correctement catégorisés, au sens où ils ont été associés au même ensemble de sites qu'attendu par la catégorisation thématique. Néanmoins, les résultats sont extrêmement variables en fonction des communautés - voir tableau \ref{correlation}. Ainsi, si l'on calcule pour chaque communauté un taux de similarité (calculé par une simple distance de Jaccard) entre communauté structurelle et thématique, les résultats sont très contrastés. Certaines communautés structurelles sont très semblables à leur alter-ego thématique comme la communauté ``cuisine ou ``carnet bd dont le taux de similarité avoisine $90\%$ \footnote{Il faut rappeler que plus de $15\%$ des sites ont été catégorisés par l' algorithme dans des communautés de petites tailles qui ont été éliminées, toutes les similarités mesurées ne peuvent donc naturellement pas toutes avoisiner les $100\%$}. D'autres sont beaucoup moins bien reconstruites comme les communautés ``actu-opinion, ``musique ou ``droite'' dont les similarités sont nulles ou négligeables. Dans ces cas là, l'algorithme a sans doute opéré des partitions a un grain trop fin par rapport à la division thématique choisie par les documentalistes, les sites de ces communautés thématiques sont donc éparpillés au sein des communautés structurelles de petites tailles.
%On peut s'interroger sur la raison pour laquelle certaines communautés sont correctement catégorisées tandis que d'autres le sont moins.

%\FTR{The accuracy of the mapping is as high as $80\%$. This means that $4/5$ of the blogs from the $18$ largest communities have been associated with the same communities as expected from the topical categorization
%We have also computed for each automatic community
%(as shown on Tab.~\ref{correlation}). %, the ratio of nodes also present in the topical community. We observe that this proportion is high excepted some communities ( \textit{news-opinions}, or \textit{tech revolution} for exemple) which does not seem to exhibit strong cohesive structure.
NaV\begin{table}!hb\footnotesize
NaVcommunity & size &avg &\scriptsize incoming &\scriptsize outgoing & c3 \\
%& & degree &edge & edge & \\
%&&&ratio&ratio&\\
NaVdecoration design & 111 &3,27& 0.42 & 0.29 & 0.19 \\
%cooking & 744 &28,03& 0.07 & 0.04 & 0.06 \\
%tech revolution & 259 & 4,48 &0.4 & 0.23 & 0.12 \\
%home & 597 & 16,52 &0.23 & 0.26 & 0.09 \\
%DIY & 227 & 12,33 &0.33 & 0.36 & 0.15 \\
%freemen & 123 & 26,96& 0.07 & 0.16 & 0.05 \\
%webcomics & 267 & 6,98& 0.22 & 0.13 & 0.12 \\
%left & 563 & 4,54 &0.2 & 0.2 & 0.22 \\
%music & 129 & 2,12& 0.34 & 0.26 & 0.21 \\
%gardening & 130 & 3,56& 0.43 & 0.6 & 0.16 \\
%right & 197 & 3,09& 0.29 & 0.24 & 0.22 \\
%cars & 366 & 2,38& 0.13 & 0.07 & 0.21 \\
%beauty & 128 & 7,73& 0.38 & 0.33 & 0.18 \\
%center & 160 & 5,68& 0.22 & 0.4 & 0.27 \\
%movies & 248 & 3,88& 0.15 & 0.08 & 0.2 \\
%fashion lifestyle & 7,49& 451 & 0.43 & 0.J43 & 0.11 \\
%liberals & 85 & 5,15 &0.14 & 0.22 & 0.23 \\
%news opinions & 2,76 &195 & 0.67 & 0.64 & 0.21 \\
NaV\caption{\label{fig:tab2}Topological features of each topical community including size of the community, incoming and outgoing edge ratio, and clustering coefficient of each.}
%\end{table}

\subsection{Hétérogénéité des topologies}


Le tableau~\ref{correlation} nous informe également sur la très forte variabilité topologique des communautés thématiques. Nous avons simplement mesuré, pour chaque communauté thématique, le degré moyen des sites qui la composent, leur clustering, et le ratio de liens entrants ou sortants de la communauté. L'ensemble de ces mesures montre une très forte diversité des topologies rencontrées. Tandis que certaines communautés comme ``cuisine ou ``news-opinion semblent être très extraverties (\ie fort ratio de liens sortants de la communauté), d'autres , comme ``cuisine'', semblent nettement plus introverties. D'autres paramètres comme le clustering ou le degré moyen sont soumis à une forte variabilité qui laisse à penser que la structure topologique des territoires thématiques peut être extrêmement différente en fonction des processus de régulation ou d'organisation qui les régissent (voir tableau \ref{correlation} et figure~\ref{fig:map} pour un aper\c cu visuel).
Il semble donc que certaines communautés se construisent sur la base d'une structuration interne très forte (faible ratio de liens entrants ou sortants), ce qui les rend facilement détectable par les algorithmes de détection de communautés fonctionnant sur des bases purement structurelles. D'autres communautés, par nature plus ouvertes sur leur environnement, sont moins facilement détectables par ces méthodes. \` A ce titre, la figure~\ref{fig:map} semble indiquer que les n\oe uds les moins connectés sont également les moins bien catégorisés.


La variabilité topologique que nous observons illustre le caractère mosaïque de la blogosphère, pourtant souvent traitée comme un seul bloc indifférencié. Ces premiers résultats appellent à un prolongement vers une analyse ethnographique systématique des territoires virtuels \citep{Thelwall:2005p2714}
%Au-delà de l'aspect quelque peu descriptif et exploratoire de cette étude, ces résulats semblent indiquer la possibilité de mener des études ethnographiques
qui explicite les comportements à un niveau mesoscopique - celui de la communauté - en insistant sur les différentes pratiques éditoriales et relationnelles au sein et entre ces différentes communautés.




%\paragraph{Topological variability}
%\FTR{As can be seen from Table~\ref{correlation}, the topical communities are topologically dissimilar, even for simple structural features, which reveal a potential heterogeneity of the blogosphere between various topical communities.
%More precisely, while some communities seem to be extraverted (i.e. they display a high ratio of outgoing links leaving the community vs. those reaching another blog within the community), such as ``news opinion, others such as ``cooking behave totally differently. These inter-community discrepancies can be found in other simple topological properties indicative of cohesiveness, to some extent, such as the clustering ratio or the average degree.}







%The study presented afterward focuses on 18 randomly selected communities from our global map. These affinitive communities present both heavily linked cores and an homogeneity in the topics that are largely discussed. Among these communities, we find partisan communities affiliated with specific political groups (both left-wing and right-wing), mostly feminine communities (fashion \& lifestyle, home, which is further divided between young mothers blogs, interior decoration and craft activities for young children) or communities based on leisure activities (cars, movies, techno-addicts or cooking). The table containing data about each of these communities shows that each of them have more links coming from the inside than the outside, which validates most of the existing definitions of web communities. However, the other properties have much greater variations and present a great diversity in term of size, density, average distance or clustering coefficient.

NaV Shannon, Mathematical Theory of Communication
\subsection{Conclusion}





%\MISSING{reference Hines, Roger?---}
%\FTR{These observations call for more advanced interpretations using "netnography" to explicit and bring context to the different editorial practice between the different communities.
Pour résumer, nous avons montré que:
%In particular, contrarily to approaches dealing with blog networks as a whole, without necessarily discriminating topical niches, we emphasize here that the blogosphere is not an homogeneous whole, in several respects, notably:
NaV\item
la structure relationnelle du jeu de données analysé se caractérise par la présence de communautés au sens structurel, dont les frontières sont relativement proches des frontières thématiques dessinées par des experts. % était bien doté d'une parfois caractéristique des \item there is indeed topical diversity defining thematic communities, and these topical boundaries correspond satisfactorily to structural boundaries;
Certaines communautés thématiques ne semblent pas être suffisamment ``structurées'' pour être reconstruites à partir d'une simple analyse de la structure relationnelle. Aussi, leur détection automatique pourrait nécessiter de faire appel à d'autres critères s'attachant plus aux contenus qui y sont mobilisés. % plus la structure relationnelle du jeu de données analysé se caractérise par la présence de communautés au sens structurel, dont les frontières sont relativement proches des frontières thématiques dessinés par des experts,
Néanmoins, chaque communauté thématique semble se caractériser par des motifs topologiques spécifiques, ouvrant la voie à une exploration comparative des modes d'organisation des communautés en ligne.% community seems to exhibit peculiar and individual patterns of topological features, suggesting that there exist a variety of underlying dynamics matching the variety of editorial processes.
NaVThe table of inter-relationships between communities allows to have a better image of the relationships existing between each of the communities, it presents a global geography, with different proximity levels between communities. Two synthetic metrics describe the level of porosity and virality of each of these communities. porosity is defined as the interest for websites outside the community and virality is the interest that sites outside this community have for it.
NaV\bibliographystyle{aaai}
NaV\section{caractérisation d'agrégats socio-sémantiques: l'analyse formelle de concepts appliquées aux motions du parti socialiste}


%\MISSING{utile/inutile?}

NaV\section{motions ps}

%catéogoriser des sources de contenus et leur contenus en une même représentation.
%liens forts avec la représentation de connaissance / cartographie des réseaux socio-sémantiques



\graphicspath{{images/chapter5/}}
NaV\chapter{dynamiques multi-échelles des communautés scientifiques}
%\minitoc


\section{De l'analyse quantitative de l'activité scientifique à la cartographie des sciences}

\ADD{Dans la suite de ce chapitre nous nous concentrerons sur la reconstruction des dynamiques scientifiques en nous focalisant sur la dimension sémantique de notre schéma général~\ref{emergencecouple} (plan arrière de notre parallélogramme). Nous souhaitons (i) mettre en évidence et cartographier les structures conceptuelles qui organisent notre réseau sémantique (ii) décrire leur dynamique et les représenter. Ces méthodes de reconstruction ont été con\c cues et développées avec David Chavalarias et ont donné lieu aux publications suivantes: \citep{chava:scien,coint08multi,Chavalarias:2009p2715,Cointet:2008p2716}. Enfin, nous tâcherons, en cohérence avec notre programme de description des dynamiques multi-échelles des \CDSs, (iii) d'évaluer les rétroactions que ces structures de haut-niveau exercent sur la dynamique des profils sémantiques des chercheurs (immergence du haut niveau sémantique sur les dynamique microscopiques du réseau socio-sémantique).}



%\noteperso{ It can be demonstrated that the
%internet leaves the social order of scientific communities unchanged but affects the
%mode of production of some scientific communities by providing opportunities for
%a communalization of raw data analysis, data production, and external contributions. }


\subsection{Les mutations contemporaines de l'activité scientifique}

NaV\DOU{Les millions d'articles scientifiques publiés chaque année à travers le monde %(le volume des publications scientifiques a plus que doublé ces 12 dernières années \MISSING{SOURCES!}, et le rythme ne cesse d'accélérer)
%offrent un véritable défi à toute personne désireuse d'avoir une connaissance %des découvertes et
%des développements importants dans l'ensemble des champs scientifiques.
% Cette accroissement de la production scientifique va s'accélérant. }

Certains soutiennent qu'un nouveau régime de production de connaissances
aurait émergé consécutivement à la transformation de la nature même du processus de recherche. %\citep{nowotny2001rts}. %Ces a suscité des débats vifs ces dernières années.
%Même si l'évolution des sciences est considérée depuis longtemps comme la résultante de processus dynamiques et évolutifs complexes \citep{Hull-1988}, les débats qu'ont entraîné ces théories.
%Les débats ont été vifs De plus les débats sont animés depuis quelques années maintenant autour de
Selon \cite{nowotny2001rts,nowotny2003imr}, la Science serait entrée dans un nouveau \emph{mode} de production de connaissance %qui s'est élargi prend place dans un contexte élargi,
donnant toute sa place à une \emph{trans-disciplinarité}, définie comme la circulation d'outils, de perpectives théoriques et de personnes. Selon ces auteurs, les réflexes habituels de classification de la connaissance, suivant des taxonomies bien codifiées et clairement délimitées héritées de la structure prévalant dans le seul monde académique, seraient caduques. L'ère de la trans-disciplinarité rend toujours plus floues les frontières entre communautés scientifiques: les \emph{assemblages d'acteurs et de concepts} se multipliant, la mobilisation de connaissances techniques ou scientifiques n'est plus circonscrite à une seule communauté scientifique bien clôturée. Les acteurs engagés dans la chaîne - ou même dans le réseau - de production de connaissances proviennent d'horizons divers: ingénieurs, chercheurs, usagers, etc. \ADD{Indépendamment des débats qui ont accompagné cette théorie, % De façon générale le champ de
la sociologie des sciences et des techniques s'accorde aujourd'hui sur le fait que la production scientifique est une activité éminemment \emph{socio-technique}, et que de nouveaux modes de production de la connaissance ont émergé ces dernières décennies, entraînant des changements aussi bien épistémiques, organisationnels, que politiques. Ainsi, la notion de ``modernité réflexive'' introduite par \cite{beck1992risk} illustre la fa\c con dont le public s'est éveillé aux risques techno-scientifiques durant le $XX
{\grave{e}me}$ siècle, transformant de par la même le regard que l'on portait sur les sciences. Mais au delà de ces théories globales, des études plus micro montrent que la construction de polémiques techno-scientifiques se fonde également sur des dynamiques socio-cognitives complexes de co-constuction des concernements des acteurs et des programmes de recherche. Les frontières entre science et société sont sans cesse renégociées par des acteurs hétérogènes plongés dans de nombreuses arènes aux régimes de justifications distincts \citep{bonneuil2008dec}. %, s'éveille aux risques scientifiques nouveau régime de interactions sciences/
% modern societies are entering into a second era of modernity that
%he calls “reflexive modernity.”In this configuration, the public becomes
%aware of science no longer by being subjected to its diffusion but rather in
%an alternative mode that he calls “secondary scientization,”consisting in
%active acculturation faced with the dangers of the risk society.
% société ont-elles lorsqu'on imagine la fa\c con dont les relations entre science et société ont pu être bouleversées.\MISSING{références}
}

Ces transformations ont été accompagnées d'une mutation profonde des modes d'échange dans le monde de la recherche. %et de l'effacement des frontières entre sous-champs sans cesse plus imbriqués.
Internet a impacté à plusieurs titres les dynamiques scientifiques: (i) la fluidification des échanges entraîne une plus grande liberté dans la construction des ``équipes scientifiques qui sont de plus en plus internationales et trans-institutionnelles \citep{Jones:2008p2172}, (ii) la multiplication des supports de publication %(on est passé d'un modèle hiérarchisé dans lequel les journaux occupaient une place stratégique primordiale vis-à-vis des orientations scientifiques à un modèle plus décentralisé, de type ``réseau)
ainsi que la mise à disposition d'archives en ligne de plus en plus souvent gratuites démocratisent en partie l'accès à la connaissance et créent des ponts inédits entre les travaux de différentes disciplines, (iii) ces bases de données permettent, dans le prolongement des premiers travaux de scientométrie, d'effectuer des mesures de l'impact des publications, des chercheurs ou même des institutions au sein du paysage de la recherche internationale. Cette nouvelle donne n'a pas fini de modifier en profondeur les pratiques de recherche.


%Cette évolution des modalités de production mais également d'organisation des sciences s'est accompagné d'une révolution du processus de production et de dissémination de la connaissance scientifique. Ces dernières décennies, le transfert des publications scientifiques vers des supports numériques tel que les journaux en ligne, ou les bases de données d'archives scientifiques, a complètement modifié la façon dont nous interagissons avec cette production scientifique. Nous avons maintenant un accès presque immédiat à la quasi-totalité de la production scientifique publiée ainsi que parfois à la production scientifique encore non publiée (archivre pre-print, etc.). L'ensemble de ces ressources sont indexées et sont accessibles de la même fa\c con que toute ressource numérique, au travers des moteurs de recherche.%sous soumises aux mêmes peuvent être requêtées grâce aux méthodes classiques offertes par les moteurs de recherche traditionnels.
De fa\c con générale, le transfert des publications scientifiques vers des supports numériques tel que les journaux en ligne, ou les bases de données d'archives scientifiques, a complètement modifié la façon dont nous interagissons avec la production scientifique. Nous sommes passés d'un régime fortement hiérarchisé de circulation des contenus %largement dicté par les politiques de divulgation des éditeurs de revues,
à un régime plus horizontal et plus résiliaire dans lequel la navigation dans les bases de publications scientifiques est susceptible de mettre côte à côte des productions provenant d'univers potentiellement très différents\footnote{La principale forme de hiérarchie qui prévaut encore dans la navigation à travers ces espaces est issue d'une autorité hypertextuelle, directement liée à l'idée d'un ``ranking'' des publications en fonction du nombre de citations re\c cues, mais finalement\emph{ a priori} différente de la notion plus traditionnelle de réputation d'une revue.}.


%Conclusion: Il y a urgence à se doter d'outils de représentation et de cartographie de ce paysage mouvant

%\FTR{ accélération de la production de papiers couplées à une spécialisation des domaines scientifiques. Rappel sur les nouveaux modes de production de connaissance (Nowotny)
%dans le contexte d'une mutation des modes d'échange avec l'avénement d'internet et de l'effacement des frontières entre sous-champs sans cesse plus imbriqués. Ainsi Internet impacte à plusieurs titres sur les dynamiques scientifiques: (i) la fluidification des échanges entraîne une plus grande liberté dans la construction des ``équipes scientifiques qui sont de plus en plus internationales et trans-institutionnelles, mais aussi la multiplication des supports de publication (on est passé d'un modèle hiérarchisé dans lequel les journaux prenaient une place primordiale, à un modèle décentralisé, orienté ``réseau. (ii) la mise à disposition d'archives en lignes souvent gratuites démocratise en partie l'accès à la connaissance et crée des ponts entre les travaux de différentes disciplines, (iii) NB: ces mêmes bases de données sont à l'origine des premiers travaux de scientométrie dont un des corrolaires est l'évaluation en terme d'impact des publications, insitutions, journaux ou chercheurs. Cette nouvelle donne n'a pas fini de modifier en profondeur les pratiques scientifiques à travers le monde. Conclusion: Il y a urgence à se doter d'outils de représentation et de cartographie de ce paysage mouvant. }


%% Tandis que les frontières entre disciplines traditionnelles sont cesse redessinées au travers des nouvelles collaborations qui se tissent entre domaines jadis éloignés, %%While usual frontiers between disciplines are being redefined through new collaborations between domains, un-preceding rapprochement of ideas and tools the dynamics of science have been shown to exhibit strong interactions with the social : artefacts / human/non-human boundaries collapse - how to recollect these blurred boundaries? Things circulate! --> Redite avec le paragraphe prÈcÈdent non ?


% Les Science Studies nous ont appris à considérer la production scientifique comme une activité socio-technique, bénéficiant d’une autonomie relative, mais immergée dans des dynamiques socio-politiques qu’elle contribue à transformer. C’est un acquis fondamental pour la compréhension des dynamiques de production de connaissances en société. Pour autant, cela ne doit pas conduire à masquer les transformations des modalités d’immersion de la production scientifique dans les sociétés contemporaines. Cette question a fait l’objet de débats vifs, qui se sont cristallisés autour de la proposition de Gibbons, Nowotny et al. (1994) sur les nouveaux modes de production de connaissances. Ces auteurs considéraient qu’un nouveau mode de production (la production de connaissances dans les contextes d’application) se substitue à un ancien (la production académique). Les débats ont permis de dépasser cette vision sommaire, tout en cherchant à qualifier les éléments de nouveauté qui caractérisent les régimes de production des connaissances depuis une trentaine d’années. Pestre (2003) propose d’intégrer des changements internes –notamment épistémiques mais aussi d’ordre organisationnel- et des changements de formes de régulation –incluant notamment globalisation, changements du rôle de l’Etat, judiciarisation, marchandisation, montée de la société civile,…- pour caractériser les régimes de production émergents.

%Dans le prolongement de ces travaux, nous faisons l’hypothèse du rôle croissant des controverses, des mises en débat, des formes d’engagement ou de mobilisation d’acteurs divers dans les dynamiques de production et de mobilisation des connaissances scientifiques et techniques. Cette hypothèse se fonde notamment sur l’observation d’un double-changement:

% opening of scientific communities frontiers which are getting even more virtualized than before. %First, in ?Mode 2? knowledge, scientific ?peers? can no longer be
%%reliably identified, because there is no longer a stable taxonomy
%%of codified disciplines from which ?peers? can be drawn
%% reductionist forms of quality control can not easily be applied to
%%much more broadly-framed research questions; the research ?game?
%%is being joined by more and more players ? not simply a wider and
%%more eclectic range of ?producers?, but also orchestrators, brokers,
%%disseminators, and users. Third, and most disturbingly, clear and
%%unchallengable criteria, by which to determine quality, may no longer
%%be available. Instead, we must learn to live with multiple definitions


NaV\MISSING{parler de la question de la cartographie}

\subsection{Les bases de données de publications scientifiques, une opportunité pour la cartographie des sciences}% De la bilbiométrie à l'étude des publications comme système complexe}


L'accessibilité de ces bases de données de publications dans un format numérique nous semble être une opportunité réelle pour retracer l'évolution de la production scientifique. La contrepartie d'une telle méthode tient naturellement à la masse et à l'hétérogénéité de ces bases de données. L'idée de s'appuyer sur les marqueurs textuels de l'activité scientifique pour en retracer la dynamique n'est certainement pas neuve, l'histoire de la scientométrie est d'ailleurs étroitement liée à celle du développement des bases de données massives et des outils de traitement de ces bases. %témoigne d'ailleurs du rôle crucial de l'accessibilité aux données de ces bases et des outils de traitement % de la dépendance très d'une très forte corrélation avec l'évolution de la mise à disposition de bases de données massives couplés au développement des outils de traitement de ces bases.
Un auteur aussi crucial dans le champ de la scientométrie et de la bibliométrie qu'Eugene Garfield, créateur de l'ISI\footnote{ISI : Institute of Science Information, dès 1961 cet institut créa le ``Genetics Citation Index'' sur la demande du \emph{National Institute of Health} avant de l'étendre en 1963 à d'autres disciplines à travers le Science Citation Index (SCI). Ces indices mesurent le nombre de citations reçues par des articles publiés dans des revues académiques}, témoigne bien de la fa\c con dont la scientométrie s'est développée de concert avec ces innovations technologiques.

%\FTR{NB: l'histoire du champ est très marquée par l'histoire de l'accès aux sources de données, d'où l'importance d'un auteur comme Garfield, créateur de l'ISI, Institute of Science Information qui dès 1960 développe le Science Citation Index (SCI) qui mesure le nombre de citations reçues par des articles publiés dans des revues académiques}

Interroger l'organisation des sciences à travers ces bases de données - la façon dont disciplines et sous-disciplines se déploient et s'hybrident ou cartographier ces articulations - constituent naturellement un enjeu crucial pour les chercheurs qui doivent s'informer continûment sur les travaux plus ou moins connexes à leur spécialité. %modifier leur direction de recherche et former de nouvelles configuration de recherche
%\cite{cambrosio2004mcw},
C'est également un besoin stratégique pour les gestionnaires de la recherche, telle ou telle institution devant comprendre l'organisation et la direction prise par les communautés scientifiques existantes afin de définir de façon optimale leur politique scientifique. C'est enfin une opportunité pour la sociologie ou l'histoire des sciences d'être à même de voir se déployer les dynamiques de production de connaissance à partir d'une observation \emph{in-vivo} afin d'étayer les hypothèses et modèles que conçoivent les chercheurs.

%
% Les processus d'évolution des sciences ont été interrogés par de nombreuses disciplines {\citep{boerner2009visual}} telles que la philosophie des sciences qui a fourni nombre de descriptions et d'explications plus ou moins compatibles les unes avec les autres sur les dynamiques de changements et de révisions scientifiques \citep{Kuhn-1970,mulkay1976model}, l'ethnographie à travers des études réalisées \emph{in-situ} dans l'espace du laboratoire \citep{knorr1995laboratory,lato:vie}, les sciences de gestion \citep{Bonaccorsi2008Search} ou/et par la sociologie des sciences qui a vu dans l'analyse des ``polémiques '' une méthodologie privilégiée pour comprendre les dynamiques socio-techniques complexes qui se déploient dans les communautés scientifiques exposées à un changement \citep{Pestre:2007p2294}.



%\MISSING{cc pour dire où on va - approches quanti peut-être}
%\cite{Mullins:1972p2332}phage\cite{cambrosio2004mcw} approches mixtes
%Ces approches donnent lieu à des méthodologies très différentes pour interroger l'évolution des sciences. %Certaines proposent un
%\DOU{ pourcentage dessous sur le rôle des approches quantitatives dans tout \c ca}
% Les approches quantitatives viennent en support de certaines de ces études, aidant à l'objectivation des observations grâce aux traces laissées par les communautés scientifiques. Certains ont même proposé des approches mixtes \cite{cambrosio2004mcw} entre

%\marginpar{très moche et à reventiler} %\par Of course, these problems are not new. Philosophers of science have been theorizing for a long time the conceptual structure of science and have proposed a lot of (often conflicting) descriptions and explanations of scientific change and revision (\cite{popper1963Conjectures}, \cite{Kuhn-1970}, \cite{Bonaccorsi2008Search}).


%regarder paragraphes suivants:


%Electronic archives and other scientific databases are indeed a real opportunity to get insight into the scientific production and its evolution. The counterpart is however, that this massive access to millions of scientific papers requires specific methods to handle the global picture. In order to understand something to this huge mass of heterogeneous data about science, tools from data-mining (in the wide sense) are required in order to identify patterns or \textit{meso structures} that make sense to us(ers) (\textit{e.g.} scientific fields or "paradigms"). One of the major challenge scientometrics is to deliver scientists pictures of the knowledge landscape they face in their everyday work.

%%\FTR{rajouter Ègalement la notion de faire sa bibliographie: en s'appuyant sur Merton: la biblio sert ‡ agencer des briques de savoir sur lesquelles on construit un nouvel Èdifice qui rÈpond ‡ une nouvelle question - la multiplication des publications peut mettre en pÈril cet Èdifice.}

%Second, it is important to get a right notion of how science evolves, which new directions of research appear, and which configurations become obsolete. The same questions can be raised both at the level of scientists, who are continuously opting for new research directions and forming new and changing collaborative configurations \cite{cambrosio2004mcw}.

%; and at the level of science policy makers and scientific organization managers, who need to know how scientific domains are actually connected,\emph{ e.g.} in order to design optimally their founding policies.

%\par Of course, these problems are not new. Philosophers of science have been theorizing for a long time the conceptual structure of science and have proposed a lot of (often conflicting) descriptions and explanations of scientific change and revision (\cite{popper1963Conjectures}, \cite{Kuhn-1970}, \cite{Bonaccorsi2008Search}).


%










NaVThis evolution of science organisation have been accompanied by a deep revolution in the processes of production and dissemination of science. These last decades, the transfer of scientific publication activity toward electronic media, such as online journals or electronic archives, has completely changed the way we interact with scientific productions. We have an immediate access to almost all published articles, even the most recent, sometimes even before their publication through public preprint archives. Moreover, everybody can make her scientific production public, even without the support of a journal. All these productions are indexed, some time full text, which enable to perform accurate requests on the whole scientific production. We switched between a strongly hierarchical scheme of knowledge dissemination where journals were the intermediary between scientists to rather network-fashioned patterns of knowledge circulation.




%Today we are facing a real challenge when coping with the increasingly changing nature of science. First the millions of papers published every year makes clearly impossible for anybody to have an exhaustive knowledge of all the important breakthroughs and developments in every fields of science. This issue is made even more critical by the continuous acceleration of scientific production, which threatens every scholars of \textit{information overload } (the volume of publications per year has doubled the last 12 years). Second, although science is not carved in marble and would better be defined as an ever-changing enterprise \cite{Hull-1988}, a lively debate has been taken place for more than 10 years around the shift toward a new regime of knowledge production following the transformation of the nature of the research process. According to \cite{nowotny2001rts} science would have recently entered a new mode, into which knowledge is generated within a wider context of application, making full place to trans-disciplinarity, defined as the circulation of tools, theoretical perspectives, and people. % Le reste de la phrase n'est pas trËs clair: a prÈciser :, opening of scientific communities frontiers which are getting even more virtualized than before. NaV%Scientists are circulating into various agoras

%%First, in ?Mode 2? knowledge, scientific ?peers? can no longer be
%%reliably identified, because there is no longer a stable taxonomy
%%of codified disciplines from which ?peers? can be drawn. Second,
%%reductionist forms of quality control can not easily be applied to
%%much more broadly-framed research questions; the research ?game?
%%is being joined by more and more players ? not simply a wider and
%%more eclectic range of ?producers?, but also orchestrators, brokers,
%%disseminators, and users. Third, and most disturbingly, clear and
%%unchallengable criteria, by which to determine quality, may no longer
%%be available. Instead, we must learn to live with multiple definitions

%Whatever the causes of such transformations science frontiers indeed appear to be even faster changing and getting blurred as fields and sub-fields are cross-fertilizing, growing or dying. There is an urge to \textitWARNING: Plugin disabled map!.
%%\MISSING{je rajouterais Ègalement des ÈlÈments de sociologie des sciences: ‡ savoir quelque chose comme: les frontiËres se sont brouillÈes entre disciplines (façon nowotny ‡ la dubucs) mais aussi entre science et sociÈtÈ (façon calon, woolgar,etc.) }
%%\MISSING{Nowotny ou autre sur l'avÈnement d'une science de type III.}

%%While usual frontiers between disciplines are being redefined through new collaborations between domains, un-preceding rapprochement of ideas and tools the dynamics of science have been shown to exhibit strong interactions with the social : artefacts / human/non-human boundaries collapse - how to recollect these blurred boundaries? Things circulate! --> Redite avec le paragraphe prÈcÈdent non ?

NaVThis evolution of science organisation have been accompanied by a deep revolution in the processes of production and dissemination of science. These last decades, the transfer of scientific publication activity toward electronic media, such as online journals or electronic archives, has completely changed the way we interact with scientific productions. We have an immediate access to almost all published articles, even the most recent, sometimes even before their publication through public preprint archives. Moreover, everybody can make her scientific production public, even without the support of a journal. All these productions are indexed, some time full text, which enable to perform accurate requests on the whole scientific production. We switched between a strongly hierarchical scheme of knowledge dissemination where journals were the intermediary between scientists to rather network-fashioned patterns of knowledge circulation.













%First, from a pragmatic perspective, scholars should be able to find their way through the millions of papers published every year, either to get an idea of the place of their research in the global picture of science, or to rely more accurately on previous items of knowledge to solve current problems in science, especially when exploring bibliography or selecting a set of citations
NaV%Citations and references thus operate within a jointly
%%cognitive and moral framework. In their cognitive aspect, they are designed to pro
%%vide the historical lineage of knowledge and to guide readers of new work to sources
%%they may want to check or draw upon for themselves. In their moral aspect, they are
%%designed to repay intellectual debts in the only form in which this can be done:
%%through open acknowledgment of them. Such repayment is no minor normative re-
%%quirement. That is plain from the moral and sometimes legal sanctions visited upon
%%those judged to have violated the norm through the kinds of grand and petty in-
%%tellectual larceny which we know as plagiarism. (Karl Marx testifies to the possible
%%depth of commitment to the norm: for him, plagiarism was the one altogether
%%detestable crime against private property, as witness his preface to the first edition of
%%Capital and his further thunderings on the subject throughout that revolutionary
%NaV%\FTR{rajouter Ègalement la notion de faire sa bibliographie: en s'appuyant sur Merton: la biblio sert ‡ agencer des briques de savoir sur lesquelles on construit un nouvel Èdifice qui rÈpond ‡ une nouvelle question - la multiplication des publications peut mettre en pÈril cet Èdifice.}

%Second, it is important to get a right notion of how science evolves, which new directions of research appear, and which configurations become obsolete. The same questions can be raised both at the level of scientists, who are continuously opting for new research directions and forming new and changing collaborative configurations \cite{cambrosio2004mcw}.

%; and at the level of science policy makers and scientific organization managers, who need to know how scientific domains are actually connected,\emph{ e.g.} in order to design optimally their founding policies.

%\par Of course, these problems are not new. Philosophers of science have been theorizing for a long time the conceptual structure of science and have proposed a lot of (often conflicting) descriptions and explanations of scientific change and revision (\cite{popper1963Conjectures}, \cite{Kuhn-1970}, \cite{Bonaccorsi2008Search}).

%%Sociologists have good case studies on the building, structure and dissipation of such or such scientific network \FTR{ajouterdes ref. ou enlever cette phrase. les sociologues risquent d'insister sur les aspects ... sociaux, que nous n'abordons pas, donc c'est peut-Ítre dangereux en effet }.

%However, thanks to digitalization of scientific database, for the first time, a large scale quantitative approach about science structure and its evolution is possible, while new methods for the reconstruction and visualization of large scale science dynamics are being developed.

%Electronic archives and other scientific databases are indeed a real opportunity to get insight into the scientific production and its evolution. The counterpart is however, that this massive access to millions of scientific papers requires specific methods to handle the global picture. In order to understand something to this huge mass of heterogeneous data about science, tools from data-mining (in the wide sense) are required in order to identify patterns or \textit{meso structures} that make sense to us(ers) (\textit{e.g.} scientific fields or "paradigms"). One of the major challenge scientometrics is to deliver scientists pictures of the knowledge landscape they face in their everyday work.

%In this paper, we propose methods to reconstruct phylogenies of science. These methods will improve our global understanding of science evolution and pave the way toward the development of new tools for our daily interactions with its productions. In the long term, these methods should be able to corroborate or falsify models of science evolution.

%As case study, the paper presents a first reconstruction of a phylogeny related to scientific communities related with network studies in biological and medical research.


\subsection{Un modèle de l'activité scientifique}

L'activité scientifique résulte de la combinaison de processus complexes \citep{Hull-1988} %\MISSING{pas forcément bien placé...}
portés par de multiples réseaux d'interactions hétérogènes mêlant chercheurs, ingénieurs, objets d'expérimentation, outils, journaux, institutions (etc.) \citep{Morris:2004p2703}. Les voies de communication et d'interaction au sein de ce système sont multiples que ces liens soient formels (dynamiques de construction d'équipes de coauteurs pour publier un article, citations, etc.) ou informels (correspondance par mail entre chercheurs ou rencontres dans les congrès) \citep{Mullins:1972p2332}.

La publication scientifique, dont la validité est attestée à l'issue d'un processus d'évaluation par les pairs, est généralement considérée comme l'un des principaux produits de ces interactions multiples. Les centres d'intérêt, objets, concepts d'une communauté scientifique sont ainsi cristallisés au sein des publications qu'elle produit.
Nous ferons donc l'hypothèse que les dynamiques épistémiques d'un domaine peuvent être appréhendées au travers des publications scientifiques qui y sont produites. S'intéresser exclusivement aux publications scientifiques pour décrire l'activité sceintifique peut paraître réducteur. L'importance de cette ``inscription littéraire'' dans l'activité de recherche \citep{latour:cons} nous encourage néanmoins à faire cette hypothèse. Les publications scientifiques sont en effet omniprésentes dans la communication entre chercheurs de fa\c con directe (projet d'écriture d'un article par exemple, conférences) ou indirecte (comme élément de référence privilégié au cours des discussions entre chercheurs). %Merton



% {réductionnisme bibliométrique: } connaissance = publication
% -l'article scientifique comme marqueur privilégié de l'activité scientifique. (réductionisme de principe mais aussi de faits car les données sont tracables)
% -price se défend (grace à merton) en disant que la publication est le moyen de marquer une propriété intellectuelle et à ce titre représente bien une unité de connaissance.
% -finalement c'est assez cohérent avec la vision sociologique dans les laboratoires de Latour et Woolgar qui confèrent au document écrit une place prépondérante et définissent le laboratoire comme ``un système d'inscription littéraire'' dans lequel même la communication orale s'appuie sur des traces écrites. \marginpar{à ventiler dans l'ensemble de la section}

%The paths created by certain agents will
%attract and steer the actions of other agents, thus providing a shared coordination
%mechanism that lets the agents communicate indirectly (stigmergy).



% Cette information est néanmoins bruitée, partielle et se trouve distribuée sur les millions d'articles publiés annuellement, par des communautés parfois parfaitement déconnectées. L'ambition est de reconstruire une structure de la connaissance hiérarchisée à partir de l'ensemble de ces informations distribuées.


\begin{figure}!htbp
\center
NaV,trim=0 10 0 20]
]{artpn5.pdf}
\caption{\label{epistemic} Les chercheurs interagissent au sein d'un réseau de collaborations scientifiques liés par un réseau de citation, tandis que la distribution des connaissances est ici formalisée par un réseau de co-apparition de concepts au sein de ces publications.}

\end{figure}
%\marginpar{rajouter l'ensemble des citations}
La figure \ref{epistemic} représente de fa\c con schématique le processus de base de l'activité scientifique. Des auteurs ($A$) produisent des publications ($P$) qui mettent en relation des concepts ($C$). %Il existe sans doute un isomorphisme très fort entre la structure des communautés scientifiques, et la structure conceptuelle associée à une distribution préférentielle d'usages de termes observée dans les publications.
Ce schéma fait apparaître le réseau de co-publication (liens noirs entre auteurs), le réseau de citations (liens dirigés noirs entre publications) ainsi que le réseau de co-présence des concepts au sein des publications (liens rouges pondérés entre concepts). Il est extrêmement réducteur comparativement à la richesse des réseaux animant l'activité scientifique. Certains auteurs ont pris le parti d'une démarche exhaustive vis-à-vis de l'ensemble des entités (publications, journaux, auteurs, références, termes, etc.) ``mises en réseau'' au sein de l'activité scientifique \citep{Chen:2006p2223,Morris:2004p2703}. Nous prenons une direction différente en privilégiant une orientation cognitive s'attachant à reconstruire les dynamiques des communautés scientifiques uniquement au travers des agencements conceptuels produits au sein des publications. % produits au sein traces une approche exclusivement sémantique, c'est à dire fondée sur le seul réseau sémantique. % termes apparaissant dans les publications.
Nous nous concentrons donc sur la reconstruction de la dynamique des ``champs épistémiques'' entendus comme l'ensemble des termes (qu'ils se rapportent à des outils, des objets, des méthodologies, des théories, etc.) qui sont fréquemment employés conjointement dans les corps des publications. % et qui apparaissent comme .

\ADD{Notre objectif va donc consister à révéler les structures remarquables d'un réseau sémantique de proximité entre concepts (parfois également appelé réseau sémantique lexical) construit % également que les
à partir des statistiques sur les occurrences et cooccurrences de termes au sein des articles afin de cartographier le paysage conceptuel construit par, et dans lequel se déploie, l'activité scientifique. % sont un bon marqueur de ces structures.
}
%Notre objectif est de décrire l'évolution du paysage conceptuel formé par... dans les corpus de publications scientifiques.
% préférentiellement au sein de corpus de publications.
%On tracera les glissements thématiques des communautés scientifiques en repérant des associations inédites entre termes, ou la disparition de certaines.


%émergeant du réseau de co-occurences des termes tel qu'il se construit article après article.

%Cette définition circulaire de la communauté épistémique et du paradigme se rapproche également fortement de la notion de ``communauté épistémique'' introduite par Haas \cite{haas:intr} définie comme un réseau d'experts garant...





%Following Kuhn's observation that \cite{Kuhn:1970a} we make the assumption that there is a strong correlation between the structures of the scientific communities (on the left of the diagram) and the structures of terms co-occurrences (on the right) that represent inner constituents of the different paradigms and their articulation.




%\noteperso{ It can be demonstrated that the
%internet leaves the social order of scientific communities unchanged but affects the
%mode of production of some scientific communities by providing opportunities for
%a communalization of raw data analysis, data production, and external contributions. }

%evolution des sciences + évolution des modes de régulation des sciences
%DIRE que ça bouge et qu'on veut retracer ces changements de régime.

%une communauté scientifique c'est aussi un régime de validation et de circulation des résultats et de la connaissance. CHANGEMENT}

\subsection{un modèle multi-échelle de la connaissance}

Une autre contrainte de notre travail de reconstruction est de rendre compte du caractère naturellement multi-échelle de la structure de la connaissance scientifique. Par exemple, les universités opèrent classiquement une division des sciences en grands départements qui correspondent à autant de disciplines comme la biologie, l'économie, l'informatique, la physique, etc... Chacune de ces disciplines peut par la suite être elle-même morcelée en sous-champs: biologie végétale, animale, moléculaire, évolutive (voir figure~\ref{scheme2} pour une illustration)... \ADD{On peut certainement critiquer la pertinence de certaines de ces divisions. Certaines frontières anciennes peuvent être rendues caduques par l'évolution des sciences, ou sembler relever de critères non épistémiques. }
Ces frontières peuvent être de différentes natures et ne suivent pas nécessairement les même lignes de démarcation selon que l'on tâche de différencier un objet d'étude (biologie animale/végétale) ou un type d'approche (micro-biologie/physiologie/écologie/développement) par exemple.
Dans la plupart des cas, un ``sous-champ'' est spécifique d'un seul champ qui l'englobe, mais, dans certains cas, un sous-champ est précisément défini comme l'intersection de plusieurs champs (la bio-physique par exemple). Les frontières entre champs ne sont pas parfaitement hermétiques et nombre de ces ensembles se recouvrent.



\begin{figure}!htbp
% Requires \usepackage{graphicx}
\centering
\includegraphicswidth=160px{biologie.pdf}
\caption{Exemple schématique de l'organisation d'un champ. Les trois sous-champs représentés relèvent tous de la biologie, mais leur intersection est non vide.}
\label{scheme2}
\end{figure}



Néanmoins, on ne peut nier que la division en disciplines, champs, sous-champs (etc.) constituent une taxonomie efficace pour se donner une représentation mentale intuitive de l'organisation des sciences.
Néanmoins, la structure générale que nous aimerions pouvoir mettre en évidence n'est certainement pas celle d'une structure hiérarchique \emph{stricto sensu} prenant la forme d'un arbre, mais plutôt celle d'un treillis qui autorise des formes de ramifications plus variées entre entités.
Le premier objectif que nous nous fixons sera donc de reconstruire cette ``hiérarchie propre à l'organisation des sciences en respectant la complexité des ``motifs d'inclusion et leurs articulations, et donc en autorisant un certain degré d'héterarchie. Cette reconstruction sera réalisée à l'aide d'outils d'analyse quantitative de nature \emph{scientométrique} s'appuyant exclusivement sur la connaissance de statistiques de base sur les occurrences et cooccurrences d'un ensemble de termes extraits d'un corpus de publications scientifiques.





% Dans un premier temps, nous allons introduire une mesure de proximité entre termes qui permet de rendre compte de l'hétérogénéité des fréquences d'utilisation des termes. Nous exposerons les principales propriétés de cette mesure de proximité et ses principaux avantages par rapport aux mesures employées classiquement en bibliométrie et en scientométrie . Les méthodes de catégorisation permettant de reconstruire la structure multi-échelle et recouvrante des sciences seront également présentées. Puis nous proposerons une méthode de reconstruction des dynamiques de champs.% des communautés scientifiques dernière partie du présent document traitera avec des représentants de haut niveau d'un corpus de grande envergure. Nous proposons enfin une méthode pour représenter de manière compréhensible un grand nombre de termes au macro-niveau.
%Un cas d'étude sera plus précisément évalué dans une dernière partie ainsi que les perspectives ouvertes par la systématisation de ces méthodes.

%\noteperso{ANNONCER LE PLAN: Dans la première partie de ce papier, nous allons expliquer les principales propriétés de cette mesure de proximité et montrer ses avantages par rapport à d'autres mesures classiques. Nous allons ensuite décrire le regroupement méthode que nous utilisons pour détecter paradigmatique domaines et de définir un espace à deux dimensions qui nous aide à les représenter dans un informatif. La dernière partie du présent document traitera avec des représentants de haut niveau d'un corpus de grande envergure. Nous proposons enfin une méthode pour représenter de manière compréhensible un grand nombre de termes au macro-niveau.} % Global cartes sont données à des époques différentes étapes d'un ensemble de concepts relatifs à la science des systèmes complexes. % Rough statistiques



%
%
% \begin{figure}!htbp
% % Requires \usepackage{graphicx}
% \centering
% \includegraphicswidth=160px{schema2.pdf}
% \caption{{Exemple schématique de l'organisation d'un champ.}}
% \label{scheme2}
% \end{figure}

NaV\subsubsection{extraire la structure d'un réseau de co-occurrences.}
%Nous cherchons à détecter des motifs de co-occurrences non triviaux qui correspondent par exemple à des structures hiérarchisée (dans notre exemple figure \ref{scheme2} le terme \emph{knowledge discovery} est inclus dans le champ des systèmes complexes). Les termes scientifiques peuvent également être polysémiques et changer de sens selon le contexte dans lequel ils sont employés.













%Nous allons définir un domaine paradigmatique comme un ensemble de concepts qui reflète la structure de l'activité %des communautés scientifiques. Nous sommes ensuite la recherche de modes caractéristique de mots co-occurrences correspondant par exemple à des structures hiérarchiques (dans notre exemple de plan figure \ref (scheme2) \emph () la découverte de connaissances est intégré dans le répertoire \emph () systèmes complexes terrain). Conditions mai également faire partie d'une étroite mais s'en distingue paradigmatique domaines (comme l'illustre la figure \ref () scheme2, \emph () découverte de la connaissance de mai être utilisé par la machine communauté d'apprentissage (\emph () algorithme génétique), mais aussi par des données communauté minière (\emph () technologie minière)). Nous auront donc à développer le chevauchement des champs de détection paradigmatique.% De son éventuelle structure hiérarchique et peut-être poly.
%Nous% est ensuite définir domaine paradigmatique que les modes de concepts%, ce qui
% correspond en théorie des graphes comme un sous-denses du réseau conceptuel.
%Outre% paradigmatique domaines peuvent se chevaucher, la figure \ref () scheme1 illustre un …tat où un premier champ est paradigmatique de l'ensemble des concepts $\(C_1, C_2, c_3 \) $, le
% seconde est de $\(c_3, C_4 \) $. Nous allons volontairement ignorer la collaboration côté (sur le
% à gauche) dans ce qui suit à se concentrer sur la conception de réseau que nous construit. \begin (figure)

%Nécessite% \usepackage (graphicx)



%L'objectif de ce papier est de donner des précisions sur les principaux avantages dérivés de nous une mesure asymétrique proximité précédemment présenté A CITER(Chava:) scientifiques. Nous présenterons ensuite les méthodes et les outils pour automatique de bas en haut identification des multi-échelle de la structure paradigmatique
%domaines et d'appliquer ces sur une étude de cas concernant la science des systèmes complexes.% liée avec les communautés scientifiques des structures
% directement des articles de base de données. La force de notre approche est qu'il ne nécessite pas d'autres
% d'informations que l'une déjà
% dans la plupart des base de données existante à reconstruire dynamiquement
% multi-échelle de la structure paradigmatique domaines.
% le contenu de chacun des articles (texte intégral, des résumés ou des titres), ni une analyse de mots.




% \subsection (Méthodes / justification)
%% \subsection (Contexte et justification)



\subsection{Méthodes scientométriques de cartographie des sciences }

%\section{Scientometry: from statics to dynamics}
NaV title={{The geography of science: disciplinary and national mappings}},
% author={Small, H. and Garfield, E.},
% journal={Journal of Information Science},
% volume={11},
% number={4},
% pages={147},
% year={1985},
% publisher={CILIP}
NaV\marginpar{redondance avec la suite}
%In co-word analysis, higher level structures are derived by analyzing word co-occurrences patterns in texts (\cite{Callon1983From}, \cite{Callon1986Mapping}). The link between two words has a strength that maps their alleged similarity.%Co-word measures come in two forms: proximity and inclusion measures that differ in the formula they use for the normalization.
%Generated maps represent clusters of terms that aim at reflecting domains of science.

La scientométrie est une science récente qui prit son envol à la fin des années 70 grâce au développement combiné des outils de traitement automatisé de larges bases de données et la mise à disposition de ces bases dans des formats numériques. %doublement facilité par l'introduction de nouvelles possibilités de calcul par l'uilisation d'irdinateurs, et par par la mise à disposition des premières bases de données scientifiques sous format électronique.
Elle désigne de façon générique l'application de méthodes statistiques à des données quantitatives dans le but de caractériser un certain état de la science.


La cartographie des sciences est un des objectifs premiers de la scientométrie et figurait parmi les ambitions des pionniers de la discipline \citep{deSollaPrice:1965p2207}.
Les cartes des sciences sont généralement construites à partir de données de cooccurrences en suivant l'hypothèse qu'un couple d'entités qui apparaissent conjointement ``fréquemment (ou en tout cas plus fréquemment que ne le prédirait une distribution aléatoire) entretiennent l'une avec l'autre une certaine ``proximité. % plus de chance de co-apparaître au sein du même article lorsqu'elles partagent proches d'une manière ou d'une autre.
Ces mesures de proximité permettent par la suite de construire des réseaux de similarité entre ces entités.

Ces données de co-occurrences peuvent aussi bien s'appliquer à des auteurs co-signant le même article (réseaux de co-publication ou de collaboration \citep{Newman:2000p2640,palla}), à des références étant citées dans un même article (réseaux de co-citation \citep{Small1973Citations1}),
ou à des termes figurant dans le même titre - abstract - ou texte d'un article (réseaux dits de ``mots associés'' (ou co-word) \cite{Callon1983From}).
Dans cette dernière catégorie, des structures de haut niveau sont déduites des textes en analysant les motifs récurrents qui y figurent \citep{Callon1986Mapping}. Le lien entre deux termes est pondéré par une intensité qui correspond à leur similarité supposée. Ces mesures de similarité permettent de construire des clusters de termes, qui permettent par la suite de construire des cartes des sciences censées refléter les domaines d'activité qui organisent le domaine scientifique étudié.


%Co-word analysis is a small branch of network analysis which is largely grounded in Actor-Network-
%Theory (Callon et al., 1983) and in the implementation of specific algorithm of mapping scientific
%knowledge. Born in relation to the evaluation and policy of science (Callon et al., 1986; Law et al.,
%1988), coword analysis is a critical prolongation of the early approaches of co-citation (Small, 1973)
%and it relays largely on techniques of full text indexation. The relevance of co-word analysis for
%mapping large scientific domain has received critiques in relation to the significance of the
%relationships of word and its context of enunciation (see lately Leydesdorff & Hellstein, 2006). Thus,
%it is to be noticed that other types of characterization exists and that we only propose one possible way
%of characterizing knowledge dynamics.


%Les deux principaux axes d'analyse et de caractérisation de l'activité scientifique en scientométrie se sont concentrés sur l'analyse des réseaux de citation ou de co-citation %\footnote{Par example, dans les études de co-citation, deux articles sont liés s'ils sont tous deux cité par un nombre suffisant de papier}
% et les réseaux de mots associés.

%The two most prominent kinds of analysis in scientometrics field have been the analysis of (co-)citations networks\footnote{For example, in co-citation analysis, two articles are linked if they are cited together by a sufficiently high number of papers.} and co-words networks. In citation analysis, maps represent clusters of papers where important papers should occupy central position on the map (\cite{Small1973Citations}, \cite{Small1974Structure}).

\ADD{Réseaux de citation et de mots associés constituent les deux méthodes privilégiés pour cartographier les sciences.
Les deux techniques ont leurs inconvénients respectifs \citep{Noyons2001Bibliometric} et ont donné lieu à un certain nombre de critiques (voir notamment la critique de \cite{leyd:why} sur la pertinence de l'analyse lexicographique)}.
%relation to the significance of the
%relationships of word and its context of enunciation (see lately Leydesdorff & Hellstein, 2006). Thus
Les études fondées sur les co-citations peuvent s'avérer biaisées par l'absence de certains papiers pertinents, ou au contraire par l'inclusion de publications non pertinentes. Le décalage temporel entre l'émergence de nouvelles spécialités scientifiques et leur détection sur une carte des sciences peut également s'avérer problématique.
%Both techniques have their own drawbacks \cite{Noyons2001Bibliometric}. Co-citation studies can be biased by loss of relevant papers, inclusion of non relevant papers or time lag between emergence of specialities and their appearance in science map. %Citing behavior can also be biased by consideration outside the scientific scope.%\COR{je comprends pas la derniere phrase}
Les techniques à base de mots associés, peuvent également souffrir d'un choix inapproprié de l'ensemble initial de termes à cartographier. Mais l'objection principale qui est adressée à ce type d'analyse est que les mots peuvent être ambigus ou porteurs de plusieurs sens.% \DOU{pourcentage à ranimer}%Les études fondées sur l'analyse de co-occurrence de termes étant généralement fondées sur des méthodes de clusterisation non recouvrantes, les cartes résultant de leur ana ont longtemps été contraintes d'assigner une signification unique à un terme en le regroupant en un seul cluster de termes.

Dans la suite, nous introduirons une méthode de reconstruction des dynamiques scientifiques à partir d'une analyse de mots associés. Nous proposons un certain nombre de méthodes permettant de dépasser les limites classiques de la cartographie des sciences. Ces méthodes sont introduites à différents niveaux du travail de reconstruction: (i) introduction d'une mesure de proximité asymétrique entre termes qui tienne compte de l'hétérogénéité de leur distribution (section~\ref{section43}), (ii) utilisation d'une méthode de clusterisation des termes qui autorise les clusters recouvrants - et en corrollaire la polysémie de certains termes (section~\ref{section44})(iii) définition d'une véritable représentation multi-échelle articulant champs et sous-champs dans une structure de treillis (et qui ne se limite donc pas à un arbre hiérarchique) (iv) reconstruction du réseau phylogénétique des champs scientifiques (section~\ref{section45}).



%Dans la suite, nous nous concentrerons sur l'analyse de mots associés, et proposerons des méthodes de reconstruction des phylogénies qui s'appuient sur ces avancées, La question centrale à laquelle nous nous efforcerons de répondre sera : ... \MISSING{ à supprimer\emph{ a priori}}




%Co-word technics may also suffer from an inappropriate choice of the initial set of terms to be mapped or the existence of fads in the use of terms among scientists. But the main objection made to co-word analysis is that words can be ambiguous or can have several meanings. Since co-word analysis do not take into account the context of terms in the source articles, few information is conveyed about their real meaning. Given that most scientometrics studies so far were based on non overlapping clustering methods, co-word maps where bound for a long time to assign a unique meaning to a word, which decreases the overall significance of the map.


%\DOU{critique sur le clustering et sur les approches dynamiques}
%Les méthodes de cartographie à partir de réseau de co-citation et de mots associés sont également critiquées lorsqu'elles proposent une réduction des données de réduire les réseaux qu'elles manipulent.
%\THANKS{ICI}
%Enfin, l'objectif principal des cartes des sciences, à la fois pour les théoriciens (historiens ou philosophes des sciences), pour les ``utilisateurs'' (les scientifiques au sens large), ou les gestionnaires des sciences réside dans leur capacité à donner du sens aux dynamiques scientifiques: quels sont les champs émergents, les continuités et discontinuités épistémiques, et de quel champ épistémique tel ou tel champ émergeant hérite-t-il de son bagage intellectuel\MISSING{mal dit}. Ainsi il semble important de reconstruire les dynamique scientifiques de façon à pouvoir suivre longitudinalement les champs de connaissance. Cette nécessité nous pousse à réfléchir nous pas en terme de cartes statiques mais directement en termes d'arbres...


%Last, large part of the utility of science maps, both for theorists (history and philosophy of science), for users (scientists) or policy makers, are their capacity to give meaning to the evolution of science: what are the emergent fields, the continuities and main paradigmatic shifts, and from which scientific fields does a new field inherit its intellectual background. There is thus an important concern about reconstructing these dynamics in such a way that fields of knowledge could be tracked through time. From the theoretical point of view, this entails that the core object for representing science evolution is a \emph{phylogenetic network} while most of scientometrics studies focus on static maps.
%\DOU{on va dépasser ces limites}
NaVLes limites de l'analyse par co- sont sur le point d'être dépassées. La disponibilité des bases de données massives permet de rendre beaucoup plus robustes les tentatives de cartographie en rendant beaucoup plus robustes et en évitant les biais associés aux échantillons de trop petite taille. Des avancées récentes dues à la fouille de données et surtout aux méthodes issuées de l'analyse de réseau et plus généralement des systèmes complexes permettent de réaliser un clustering avec recouvrement à partir de très grandes bases de données, ce qui offre la possibilité d'associer des contextes multiples à une terme et de rendre compte des différents usages et sens que peut prendre ce terme.
%Enfin, des techniques de visualisation novatrices, provenant également de l'analyse de réseaux, aident à construire des cartes plus intelligibles pour les utilisateurs.


%Today the drawbacks of co-words analysis are about to be overcome. The availability of very large database about terms, citation and reference indexes results in a massive statistical effect that increases the robustness of studies and discard bias associated to small sample effects. Recent advances in data-mining and new methods from complex networks analysis enable to perform hierarchical overlapping clustering on large worldwide database. % (\COR{citer aussi boyack ici }\cite{pala et et autres}). Oui mais a-t-on des rÈfÈrences publiÈes ?
%This enables to handle multiple contexts of terms and take into account different meanings or use of a term. Last but not least, new information visualization technics, especially coming from network analysis, help to make the maps more understandable, and interactive and consequently more useful for end-users (scientists or policy makers).


NaV\FTR{A large proportion of science maps are built upon co-occurrence data, with the assumption that the more likely two elements co-occur in the same article, the more they are related, and the closer they should appear on the map. These co-occurrence data can be of different nature: co-authorship networks, \cite{newman2004who}, co-citation networks, \cite{Small1973Citations1} or co-word networks (\cite{Callon1983From}, \cite{Callon1986Mapping}). In what follows, we will focus on these latter in the framework of co-word analysis. In this approach, co-occurrences of terms are indexed in large corpora. A graph structure is then generated, where nodes represent the terms, and strength of links represents their alleged similarity. This similarity measure is computed from co-occurrences data. Higher level structures reflecting domains of science are then derived by analyzing patterns in this graph with clustering methods.}

%In the following, we will focus on co-word analysis and propose methods for automated reconstruction of science phylogenies that capitalize on these advances. The central question will thus be :\textit{How can we reconstruct science dynamics through automated bottom-up analysis of scientific publications? }

%\COR{je sais plus}\MISSING{Il y a une citation de Latour \cite{Latour:1991p2213} qui traine ici je ne sais plus pourquoi... }












%\subsection{Reconstruction et cartographie}

\section{Cartographier les sciences}
\label{section43}
Nous allons décrire dans cette section la méthodologie que nous avons développée pour \emph{cartographier les sciences} en nous contentant pour le moment d'une reconstruction statique de \emph{l'organisation} d'un ensembles de termes $\mathcal{L}$ pertinents structurant un domaine d'étude donné. Nous présenterons les trois jeux de données qui serviront à illustrer notre méthodologie. % proposant un représentation spatiale de l'organisation d'un ensemble de termes. La construction de ces cartographies se déroule en trois étapes.
La construction de ces cartes se déroule en trois étapes.
Une fois le travail d'indexation réalisé sur un corpus de textes datés, il s'agit dans un premier temps de définir un réseau de proximité entre nos termes. Nous proposons d'introduire une mesure asymétrique de proximité entre deux termes qui rendent compte des relations ``d'inclusion'' entre termes.


\subsection{Jeux de données}

\label{jeudata}
Nous décrivons dans cette partie les trois cas d'étude qui serviront à illustrer notre méthode par la suite. Chaque domaine d'étude est constitué d'un premier corpus de termes ou d'expressions noté $\mathcal{L}$ que l'on cherche à cartographier, et d'un second corpus de publications à partir duquel sont calculées les statistiques d'occurrences et de cooccurrences de notre corpus de termes.
L'analyse de mots associés peut dépendre de fa\c con critique du corpus initial de termes. Le risque est de biaiser cet ensemble (on parle de l'``indexer effect'' (\cite{Whittaker1989Creativity}, \cite{Callon1986Putting}, \cite{He:1999p2286}) en omettant des termes capitaux ou en sélectionnant des termes trop généraux. Dans notre cas, nous tâchons d'éviter ces biais en proposant d'une part une méthode semi-automatique de sélection des mots-clés, et d'autre part en développant des outils d'analyse robustes par rapport au bruit présent dans la base de termes initiale.




%\FTR{ Co-word analysis critically depends on the initial set of terms chosen for the study and can be biased by the . This effect can have several origins: terms selected by the indexers are too general, specific terms have been omitted from the satisfactory list or the indexer puts the wrong emphasis, or even a mistaken emphasis in keywording. For the case study presented in this paper, we choose a semi-automatic method that takes advantage both of powerful automated parsing of large corpora and experts skills to minimize this effect. We also choose to index terms within abstracts or full text of articles rather than in keywords lists provided by publishers or authors.}


%Nos méthodes de reconstruction et de représentation des dynamiques scientifiques seront appliquées à trois jeux de données.
Le premier cas d'étude a trait au champ des \emph{systèmes complexes}, il est constitué d'un corpus de près de $450$ termes (la liste des termes est disponible dans l'annexe~\ref{annexe21}. Ce corpus de termes a été construit à partir d'une liste de mots-clés d'un appel à projet dédié à la science des systèmes complexes de l'Union Européenne dans le cadre du $6
{\grave{e}me}$ programme cadre. On a par la suite extrait le nombre de cooccurrences (dans le texte intégral des articles) observées dans la base de données \textit{Scirus} de 1975 à 2005. %Ces publications sont également datées.
La base originale est composée de plus
de $20$ millions de publications couvrant un large éventail de
plate-forme de publications scientifiques\footnote{ScienceDirect, Society for Ind. \& App. Mathematics, BioMed Central, Crystallography Journals Online,
Institute of Physics Publishing, MEDLINE/PubMed, Project Euclid, Scitation and Pubmed Central.}.
%L'accès à la base Scirus étant public mais non ouvert, nous avons dû contractualiser avec Scirus pour obtenir ces données de cooccurrences.


La seconde base de données traite de la biologie contemporaine exposée aux évolutions paradigmatiques introduites par l'introduction de la ``métaphore réseau''. %Cette dernière sera détaillée plus précisément dans la dernière subsection.
%\FTR{In order to propose scalable methods on rough data, we considered indexes of science databases as proxies to evolution of science, \textit{e.g.} as they are already built by search engines. Our method thus cope with the constraint of working with aggregated co-occurrence data of terms in articles. Other methods bring interesting complementary perspectives in epistemic communities dynamics but require a more detailed access to data sets (like author-based data for example \cite{Roth2006Lattice}).} % \MISSING{on a d'autres réf ?}
Nous avons utilisé Pubmed-Medline comme source de publications. Cette plateforme couvre la plupart des publications en biologie (plus de $17M$ de références), dont les titres et les abstracts sont publiquement accessibles. Nous avons construit une première requête réunissant un certain nombre de termes caractéristiques de la pensée réseau en biologie (``network, evolvable, evolvability, hub, feedback) afin de sélectionner dans notre corpus de publications les articles mentionnant au moins l'un de ces termes dans leur titre ou leur abstract. Cette requête nous a permis de collecter près de $2,4$ millions d'articles s'étalant sur plus de $50$ années. La sélection du corpus de termes a été réalisée en deux étapes. Dans un premier temps, un ensemble de publications comportant le terme ``network dans leur titre a été sélectionné grâce à une requête sur l'\textit{ISI Web of Knowledge} limitée à un ensemble de journaux de premier rang\footnote{la requête précise est la suivante: (TS=Network*)AND (SO=("Science" OR "Nature" OR "Proceeding of the National Academy of Science" OR "Nature Genetics" OR "Annual Review of Genetics" OR "Annual Review of Biochemistry" OR "Annual Review of Cell and Developmental Biology" OR "Annual Review of Genomics and Human Genetics" OR "Journal of Theoretical Biology" OR "Biochimica et Biophysica Acta" OR "Nucleic Acids Research" OR "Journal of Molecular Biology" OR "Genetics" OR "Current Biology" OR "Genome Research" OR "Genome Biology" OR "Bioinformatics" OR "Biosystems" OR "BMC Systems Biology"))}. Cette première extraction a permis de construire une liste de termes caractéristiques extraits des abstracts de cette collection d'articles. Un ensemble de plus de $800$ termes (liste en annexe~\ref{annexe22}) a ainsi été sélectionné en privilégiant les termes les plus fréquents (après avoir éliminé les ``stop-words''). %Une fois le corpus de termes défini,
Une matrice de cooccurrences des termes a été construite à partir de notre corpus de publications de \textit{Pubmed}.% afin d'illustrer l'évolution les mutations profondes subies par la biologie. %La figure \ref{paysage} fournit une représentation macro de ce corpus sur la période 2004-2007.


%\FTR{The case study presented in this article targets the question of \textit{networks} in medical and biological research. We choose PubMed-MedLine as data source since it covers most of the publications in biology (more than 17M references), while titles and abstracts of articles are freely available. We then choose few concepts related to network-based approaches (network, evolvable, evolvability, hub, feedback) and retrieved all the papers mentioning at least one of these terms in MedLine (about 2,4M references). We then indexed these 2,4M abstracts with date of publication and retrieved all n-grams\footnote{Key phrases with exactly n terms.} with a number of occurrences higher than $100
\frac{1}{n}$ and $n\leq3$ over the whole period (\emph{e.g.} the term \textit{protein interaction network} has to appear at least in 5 references to be included in our set of candidate keywords). Stop words were discarded. This list of terms was then checked by science historians to further discard uninformative terms, which finally lead to a set $\mathcal{L}$ of 834 terms (given in Appendix.3).}


\ADD{Notre dernier domaine d'étude concerne le champ du \emph{développement durable}. Le corpus de publications a été construit par Marc Barbier et Andrei Mogoutov à partir de la base de données de publications CAB\footnote{\href{http://www.cabi.org/datapage.asp?iDocID=228}{http://www.cabi.org/datapage.asp?iDocID=228}}. Cette plate-forme regroupe près de $5$ millions de publications scientifiques de sciences naturelles appliquées couvrant les disciplines suivantes: sciences de l'agriculture, sciences de l'environnement, alimentation \& santé humaine, microbiologie et parasitologie, sciences des plantes.
Une requête spécifique que nous avons reproduit en annexe~\ref{reqbarb} a été construite afin d'extraire de fa\c con aussi précise que possible l'ensemble des publications rattachées au domaine d'étude, le développement durable \citep{Barbier:2008p2712}.
Ce sont finalement environ $70,000$ publications apparentées à la thématique qui ont été rassemblées. Nous avons par la suite extrait des mots-clés de ces publications (en nous référant aux mots-clés choisis par les revues) afin d'en extraire les quelques $650$ termes qui apparaissent plus de 80 fois dans le corpus (cf. l'annexe~\ref{annexe23}) }


NaV\begin{quotation}Le développement durable n’est pas une innovation classique, mais un concept qui s’est construit de façon
%dynamique dans une négociation entre des acteurs d’origines différentes. Le mécanisme de négociation
%coopérative5 qui a rapproché les thèmes de l’environnement et du développement illustre parfaitement ce
%que certains ont qualifié de diplomatie des réseaux6 où les associations, les scientifiques, les entreprises,
%syndicats et les collectivités locales… sont présents avec les représentants des Etats dans les réflexions, les
%négociations internationales et la mise en œuvre de solutions.
%\end{quotation}
%FROM Réseaux, information et transaction Par Christian BRODHAG
%\marginpar{demander renseignements techniques à marc}\FTR{La troisième = sustainable development - Marc/aguidel}



%\parag{délimitation du corpus}

%Base de données biologique

% Le calcul des ressources fournies par Scirus permis de faire face à une requête par seconde sur leur
% base de données.
%En raison des nombreux accès à la base de données, la collecte de données a été très lent et nous avons d˚
%limiter notre série de concepts à 448 termes \footnote{ L'ensemble des termes peut être consulté sur \href{http://isc-pif.csregistry.org/complex+systems+terms}{\textbf{http://isc-pif.csregistry.org/complex+systems+terms}}}. Depuis co-occurrences d'extraction a été très exigeante en termes de
%disponibilité de serveur, nous avons également décidé d'envoyer une requête pour une
%co-occurrence de deux termes que lorsque les deux requêtes sur des termes a donné un non
%zéro dans le résultat `` auteurs mots-clés''domaine (chaque concept a été
%mentionné au moins une fois un article comme mot-clé pour la
%année considérée). Par conséquent, notre base de données est constitué de toutes les demandes
%résultats termes unique pour le texte intégral de 1975 à 2005, et tous les
%résultats des requêtes sur texte intégral co-occurrences de paires de concepts
%que les deux semblaient au moins une fois comme auteur mots-clés de l'année
%pris en considération.
NaV%Cette bruts statistiques permet de calculer la proximité paradigmatique pour tout
%%fenêtre de temps de 1975 à 2005. Si nous choisissons une plage de temps entre
%ans $ $ Y1 et Y2 $ $, nous avons donc étendu la formulation suivante
%paradigmatique de proximité face à cette plage de temps:
NaV(\frac{\sum_{t=Y_1...Y_2}n_{ij}
t}{\sum_{t=Y_1...Y_2}n_{j}
t})
{\frac{1}{\alpha}}$$

%Nous allons maintenant donner quelques exemples de visualisations construit sur notre paradigmatique
%proximité mesure à différentes échelles: micro, meso et macro. \footnote{ Il ne faut pas oublier que l'ensemble des termes décrivant les domaines thématiques que nous extrait de notre base de données doit nécessairement faire partie de nos conditions initiales 448. En conséquence, certains termes importants mai figure pas dans les représentations suivantes.}



%\noteperso{on s'intéressera principalement à deux jeux de données: PUBMED et SCIRUS}



\subsection{Une mesure asymétrique de proximité entre termes }




%It is now part of everyday life. To find an article related to a term $i$ one
%enters a query in a search engine which retrieves within a second the total number of papers
%mentioning $i$.

%To be more selective, one can refine the query to ``$i$ AND $j$''. At this step, we have defined the two basic statistics we will extensively use in the following : the number of articles that mention term $i$ (set size) and the number of articles that contain both term $i$ and term $j$ ($A\cap B$). As we shall see, these two simple quantities enable to define measures of paradigmatic proximity that are highly relevant to characterize paradigmatic fields. Moreover, since articles can be clustered by year of publication, it is possible to get the dynamics of the paradigmatic
%proximity metric that happens to be relevant to track the evolution of paradigms.

Notre premier objectif est de définir une mesure de proximité entre termes en nous appuyant exclusivement sur les statistiques brutes du nombre d'occurrences et de cooccurrences calculées sur un ensemble de termes $\mathcal{L}$. Ainsi, étant donnés deux termes $i$ et $j$, l'indexation du corpus de publications permet d'extraire les valeurs: $n_{i}$, $n_{j}$, et $n_{ij}$, qui correspondent respectivement au nombre d'articles dans lesquelles apparaissent $i$, $j$ ou les deux termes $i$ et $j$. Nos statistiques sont en réalité équivalentes au nombre de pages renvoyées par un moteur de recherche auquel on adresse une requête de type: ``$i$, ``$j$ ou ``$i \text{ AND } j$''. Ces statistiques brutes sont, de plus, dynamiques. On peut les calculer chaque année afin d'obtenir leur profil d'évolution temporel comme l'illustre la figure~\ref{PG} sur une sélection de termes.

\begin{figure}h
% Requires \usepackage{graphicx}
\centering
\includegraphicswidth=\linewidth{carto/PublicGoodGameTheoryExperimEcobis.pdf}\
\caption{{Dynamiques comparées des fréquences d'occurrence et de cooccurrence des termes \emph{Public Goods}, \emph{Game Theory} et \emph{Experimental Economics}} extraites de notre base de données Systèmes complexes.} \label{PG}
\end{figure}



De nombreuses mesures du degré de similarité ou de proximité entre deux termes à partir de leurs occurrences et co-occurrences ont été utilisées en scientométrie (voir \cite{He:1999p2286} pour une revue). Nous pouvons citer entre autres l'indice d'inclusion qui s'exprime sous la forme: $\frac{n_{ij}}{min(n_i,n_j)}$ l'indice d'équivalence: $\frac{n_{ij}
2}{n_i.n_j}$ \citep{michelet1988analyse,Callon1986Qualitative}, l'indice de Jaccard $ \frac{n_{ij}}{n_{i}+n_{j}-n_{ij}}$(qui mesure un taux de recouvrement de $i$ vis-à-vis de $j$), ou encore l'indice de proximité $ \frac{n_{ij}N}{n_{i}n_{j}}$ .
%\FTR{Scientometrics has defined a great number of measures based on co-occurrence data that capture the degree of similarity or proximity between two terms (\cite{He:1999p2286} for a good review). Among others, we can mention two indexes that have been introduced early in scientometrics: the inclusion index $\frac{n_{ij}}{min(n_i,n_j)}$ and the proximity index $\frac{n_{ij}
2}{n_i.n_j}$ \cite{Callon1986Qualitative}. Here, $n_i$ (respectively $n_j$ and $n_{ij})$ is the number of articles mentioning the term $i$ (respectively $j$ and both $i$ and $j$).}
D'autres mesures ont été introduites par la suite. Néanmoins, la plupart synthétise la relation entre deux termes sous la forme d'un simple scalaire. Or, une mesure de proximité symétrique ne permet pas\emph{ a priori} de rendre compte de l'hétérogénéité des fréquences d'usage des termes.
Ces mesures ne permettent pas, étant donnés deux termes dont les fréquences sont très différentes, de distinguer entre le terme le plus ``générique et le plus ``spécifique.



%\FTR{Further measures where later introduced. However, most of them, by synthesizing the relation between two terms with a single number, fail to convey important information about their use: given two terms $i$ and $j$, is one more specific or more generic than the other? Is $i$ more specific in the sense that it tends to be used by a sub-community of the community using $j$?}

Or la structure hiérarchique théorique des champs scientifiques que nous mettions en exergue dans la section précédente nous paraît capitale pour la bonne compréhension de l'organisation des champs scientifiques. Et cette hiérarchisation se retrouve naturellement dans la distribution du nombre d'occurrences des termes apparaissant dans nos corpus qui se caractérise par une forte hétérogénéité. On peut décrire ces distribution par une loi de Zipf, comme il est classique de l'observer sur les fréquences d'occurrences de termes tirés de corpus de langage naturel (voir \citep{Steyvers:2005p2713} même si cette propriété n'est pas systématique \citep{Lieberman:2007p2679}...). Nous avons représenté pour l'un de nos jeux de données la distribution de ces fréquences d'occurrences figure~\ref{zipf}.
%Cette
%\FTR{We assume that the asymmetrical relation between terms is an essential information to get insight into the overall structure of science (fields and subfields). It can be captured by an appropriate choice of proximity measure such that the \textit{pseudo-inclusion measure} defined over a period $T$ by\footnote{$n_i
T$ (resp. $n_j
T$ and $n_{ij}
T)$ is the number of articles mentioning the term $i$ (resp. $j$ and both $i$ and $j$) over the period $T$.}: $\Proxm
T(i,j)=((\frac{n_{ij}
T}{n_i
T})
{\alpha}(\frac{n_{ij}
T}{n_j
T})
{1/\alpha})
{max(\alpha,\frac{1}{\alpha})}$.}


\begin{figure}
% Requires \usepackage{graphicx}
\centering
\includegraphicswidth=0.9\linewidth,height=5cm{carto/zipf.pdf}\
\caption{{Distribution des occurrences} des termes extraits de notre base de données biologie \& réseau} \label{zipf}
\end{figure}


Cette hétérogénéité naturelle de la distribution des fréquences des concepts d'un corpus de texte peut avoir une conséquence primordiale sur les mesures de proximité que l'on réalise. \` A titre d'exemple, sur la figure \ref{PG}, les occurrences et co-occurrences du terme \emph{Public Goods} (noté $PG$ par la suite) avec \emph{Game theory} ($GT$) et \emph{Experimental economics} ($EE$) ont été tracées. A priori, \emph{Game theory} et \emph{Experimental economics} sont deux termes pertinents par rapport aux études liées aux \emph{Public Goods}. Néanmoins le terme
\emph{experimental economics} est par nature plus spécifique et par conséquent moins fréquent que \emph{game theory} dans la littérature (ce dernier est au moins $5$ fois plus fréquent que le premier).
%Dans le contexte des \emph{Public Goodss},


%Ainsi, même si en terme de cooccurrences, les couples \emph{Public Goods}, \emph{Game theory} et \emph{Public Goods}, \emph{Experimental economics} sont comparables.

Les probabilités conditionnelles $P(GT|PG)$ et $P(EE|PG)$ qu'un article incluant déjà \emph{Public Goods} mentionne également \emph{Game theory} ou \emph{Experimental economics} sont comparables.
Par contre, les probabilités conditionnelles inverses: $P(PG|GT)$ et $P(PG|EE)$ sont très différentes, la dernière étant beaucoup plus importante que la première. Cela est directement imputable aux différences de fréquences entre les termes\footnote{Rappelons la formule de Bayes: étant donné deux événements $A$ et $B$, $P(A|B) = P(B|A) \frac{P(A)}{P(B)}$}. Le terme \emph{Public Goods} est donc très largement utilisé dans les études invoquant l'économie expérimentale alors que les études s'appuyant sur la théorie des jeux ne relèvent pas nécessairement de la question des \emph{Public Goods}. %Or, les expressions classiques de la proximité entre deux concepts $i$ et $j$ employés en analyse de mots associés sont généralement construits à partir des probabilités conditionnelles $p(i|j)$ et $p(j|i)$ (l' indice de proximité se ré et d'inclusion),

Les mesures de proximité utilisées classiquement ne permettent pas de repérer des relations proches de l'inclusion lorsque les deux termes ont des fréquences très différentes (c'est le cas de l'indice d'équivalence (d'ailleurs également appelé coeffcient d'inclusion mutuelle \citep{Turner88}) l'indice de Jaccard ou encore de l'indice de proximité) ni de distinguer entre un terme générique et un terme spécifique à partir de la simple observation de leur proximité (l'indice d'inclusion étant symétrique, même cette mesure ne permet en rien d'indiquer lequel des deux termes ``est inclus'' dans l'autre). %Si on excepte l'indice d'inclusion qui a un statut particulier, pour l'ensemble de ces mesures, la proximité entre $Public Goods$ et $Experimental Economics$ pourrait paraître faible



Nous pouvons, en complément de la figure~\ref{distancestermes} qui en donne une représentation ensembliste, résumer les différentes configurations possibles lorsqu'on entreprend de mesurer la proximité entre deux termes
$i$ et $j$:
\begin{enumerate}
\item \textbf{$p(i|j)$ haut, $p(j|i)$ haut :} $i$ et $j$ appartiennent au même champ et ont des fréquences similaires,
\item \textbf{$p(i|j)$ bas, $p(j|i)$ haut :} $j$ est générique relativement au terme $i$ (\emph{e.g.} $i$ = \emph{Public Goods} et $j$ = \emph{Experimental economics}),\label{general}
\item \textbf{$p(i|j)$ haut, $p(j|i)$ bas :} $j$ appartient à un sous-domaine spécifique de $i$ (\emph{e.g.} $i$= \emph{Experimental economics} et $j$ = \emph{Public Goods}),\label{specific}
\item \textbf{$p(i|j)$ bas, $p(j|i)$ bas :} $i$ et $j$ sont peu connectés l'un avec l'autre, indépendamment de leur fréquence respective.
\end{enumerate}



Seule la combinaison des indices d'équivalence et de l'indice d'inclusion permettrait\emph{ a priori} de couvrir l'ensemble des configurations possibles (recouvrement mutuel de termes de fréquences semblables pour le premier et configuration d'inclusion hiérarchique (direction exclue) pour le second).
Afin de pouvoir discriminer ces configurations, nous proposons une nouvelle mesure de proximité \Prox que nous appellerons également mesure de similarité. \Prox est con\c cue comme une mesure \emph{asymétrique} de fa\c con à rendre compte de la directionnalité des relations d'inclusion entre termes ($i$ spécifique/générique relativement à un terme $j$ plus générique/spécifique).%, nous proposons d'introduire une mesure de proximité
%Afin de rendre compte de ces différentes configurations possibles issues de l'hétérogénéité des fréquences d'occurrences des termes présents dans les publications scientifiques,
% Nous considérons que l'hétérogénéité de la distribution des termes requiert de construire une mesure de similarité \Prox \emph{asymétrique}. %L'idée principale qui guide notre approche est de trouver pour un terme $i$ une mesure
% qui place à proximité de $i$ l'ensemble des termes $j$ qui constituent des ``contextes raisonnables'' vis-à-vis de $i$.



%, profil d'occurrence est moins haut. In the context of Public Goodss studies, specific terms related to game theory
%would have b
%Let's illustrate our point with an example. On the figure \ref{PG} we plotted together occurrences and co-occurrences of "\emph{Public Goods}", "\emph{Game theory}" and "\emph{Experimental economics}"."Game theory" and
%"Experimental economics" are both relevant terms for the study of Public Goodss. But the term
%"experimental economics" is more specific than "game theory". In the context of Public Goodss studies, specific terms related to game theory
%would have been "ultimatum game", "prisoner's dilemma", etc... However, it is not possible to define this notion of specificity on the single basis of co-occurrences in the context of "Public Goodss":
%$P(experimental~economics|Public~goods)$ \footnote{The probability of having an article mentioning $experimental~economics$ knowing that it already mentions $Public~goods$.} and $P(game~theory|Public~goods)$
%are of the same order of magnitude. Then, if we switch the reference term, $P(Public~goods|experimental~economics)$ is
%much higher than $P(Public~goods|game~theory)$.
%This means that the term "\emph{Public Goods}" is
%widely used in experimental economics studies but is less central in game theory.

%devons l'élaborer en intégrant les deux probabilités conditionnelles. Les asymétries que nous avons observées nous amènent également à construire une expression asymétrique de cette proximité.
%If we want to
%define a paradigmatic proximity metric that could exhibit the usage discrepancy between "game theory" and "experimental economics" in the context of Public Goodss studies
%we should thus use the both kind of conditional probabilities. This notion of degree of specificity
%is important and suggests that we might want to have a parameter to tune the desired specificity.



%Moreover, whereas a significant proportion of papers in \textit{experimental economics} deals with \textit{Public Goodss}, the
%reverse is not true and there are probably scientists working on \textit{Public Goodss} that never worked on
%\textit{experimental economics} studies. The paradigmatic proximity metric should thus be \emph{asymmetric} to
%take into account these kinds of situation.



NaVEtant donné un corpus de $N$ articles % Given terms $i$ and $j$,
%we note $n_i
t$ (respectively $n_j
t$) the number of articles featuring $
NaVAs in classical scientometric studies we will use the number of terms occurrences and co-occurrences measured in a corpus within a given
%time window. Our initial corpus is a scientific articles database featuring $N$ articles. Given terms $i$ and $j$,
%we note $n_i
t$ (respectively $n_j
t$) the number of articles featuring $i$ (respectively $j$) for the time window $t$ and
%$n_{ij}
t$ the number of articles mentioning both of $i$ and $j$ for the same time range.

Notre mesure de proximité \Prox~doit remplir les conditions suivantes:

%From the previous section, we are looking for a metric \Prox~ that meets the following conditions:

\begin{enumerate}

\item $\Proxm(i,j)=f(n_{ij},n_{i},n_{j}) \geq 0$, on souhaite exprimer la similarité entre deux termes $i$ et $j$ à partir des seules statistiques sur leurs nombres d'occurrences et de cooccurrences, cette mesure est toujours positive.
\item $\Proxm(i,j)=0$ ssi $n_{ij}=0$, deux termes à recouvrement nul (aucun article ne les mentionne simultanément) ont une proximité nulle.
%\item $lim_{\frac{n_{ij}
t}{n_i
t}\rightarrow 0}(\Proxm(i,j))=0$
\item $\Proxm(i,i)=1$, la proximité maximale vaut $1$, elle est obtenue ssi lorsque les ensembles d'articles mentionnant chaque terme sont parfaitement identiques.
\item $\Proxm(i,j)$ croissant avec $n_{ij}$, un plus large recouvrement entre deux termes traduit une plus grande proximité entre termes. $\frac{\partial f}{\partial n_{ij}}> 0 $ à nombres d'occurrences ($n_{i}$ et $n_{j}$) constants.
\item $\Proxm(i,j)$ est décroissant par rapport à $n_{i}$ et $n_{j}$: toutes choses égales par ailleurs, l'augmentation de la fréquence du terme $j$ l'éloigne de $i$ vis à vis de \Prox. %% toutes choses égales par ailleurs
$f(n_{ij},n_{i},n_{j})$ est donc une fonction croissante vis à vis de sa première coordonnée et décroissante vis à vis des deux autres, toutes choses égales par ailleurs.
%growing function according to its first coordinate and a decreasing function according to the two
%others.
\item La similarité doit être indépendante de la taille de l'échantillon d'articles sur lesquels sont calculées les statistiques, ainsi la fonction $f$ doit être homogène, \ie $f(\lambda x,\lambda y,\lambda z)=f(x,y,z)$. Nous en déduisons que $f$ peut s'exprimer comme une fonction de deux paramètres: $\Proxm(i,j)= f(1,n_{ij}/n_i,n_{ij}/n_j)$. On réécrit donc $\Proxm(i,j)= f(n_{ij}/n_i,n_{ij}/n_j)$ qui s'exprime donc comme une fonction de deux variables: $n_{ij}/n_i$ et $n_{ij}/n_j$ vis à vis desquelles elle est croissante. %, g étant croissant par rapport à ses deux coordonnées d'après ce qui précède.
\item La fonction $f$ doit être continue en $(0,0)$ avec $f(0,0)=0$ d'après $2$.
\end{enumerate}

Si nous écrivons maintenant le développement de Taylor de \Prox en 0, nous avons:
% \Prox~ en 0 nous avons :
$f(x,y) = \mu_0 + \mu_{1,0}x + \mu_{0,1}y
+ \mu_{2,0} x
2 + \mu_{0,2} y
2 + \mu_{1,1} xy + \mu_{3,0} x
3 + \mu_{3,0} y
3 + \mu_{1,2} xy
2 + ...$. D'après les conditions (2) et (7) on peut déduire que $\mu_0 = 0$,
$\mu_{1,0} = \mu_{0,1} = \mu_{2,0} = 0$ etc.... Ainsi $f$ peut être écrit comme la somme des produits croisés : $$f(\frac{n_{ij}}{n_{i}},\frac{n_{ij}}{n_{j}}) = \displaystyle\sum_{k=1}
\infty
\sum_{l=1}
{i-1} \mu_{k,l-k} (n_{ij}/n_{i})
k (n_{ij}/n_{j})
{l-k}$$.

Les fonctions de type \emph{Cobb-Douglas} $f_{\alpha,\beta}(x,y)=x
\alpha y
\beta$ constituent la classe de fonctions la plus simple répondant à l'ensemble de ces contraintes. $f$ étant une fonction croissante en $\frac{n_{ij}}{ni}$ et $\frac{n_{ij}}{nj}$, $\alpha>0$ et $\beta>0$.
Afin de réduire la gamme des paramètres et garantir certaines conditions de navigabilité, nous optons pour la mesure suivante:
$$NaV\\
%, \alpha > 0
% \end{array}
%\right.
$$
Nous appellerons \emph{focus} le paramètre
$\alpha$.
Cette mesure répond à toutes les contraintes listées et possède une propriété supplémentaire dont nous discuterons les conséquences dans la section suivante: $\Proxm
\alpha(i,j)=\Proxm
{\frac{1}{\alpha}}(j,i)$.% Naturellement, cette mesure est dépendante du temps, la formule complète est donc la suivante: $\Proxm_{t}
\alpha(i,j)=\big((n
t_{ij}/n
t_{i})
{\alpha}(n
t_{ij}/n
t_{j})
{\frac{1}{\alpha}}\big)
{max(\alpha,\frac{1}{\alpha})}$ même si on préférera sa version sans indice lorsqu'il n'y a pas d'ambiguïté sur la période temporelle envisagée.%\\




%\parag{interprétation des distances en termes de géométrie de l'information}


%Si nous prenons le $log$ de notre mesure \Prox, on peut alors écrire en notant %s(pj/i, pi/j) = a log pj/i +(1-a) log pi/j (a≥1/2)

%s(pj/i, pi/j) = a log pj/i +(1-a) log pi/j (a≥1/2)
%sm(pj/i, pi/j) = log pj/i pi/j =log pij
2/(pi pj)= 2 log pij- log pj - log pi
%r(pj/i, pi/j) = (2a-1) log pj/ pi uniquement le poids relatif indépendamment des interactions

%e) ∑ pij sm(pj/i, pi/j) = 2 H(I,J)-H(I)-H(J)= 2 Im(I,J)+H(I)+H(J) = 2 ( Im(I,J)+H(I) ) si I=J
%f) ∑pij r(pj/i, pi/j) = (2a-1)∑ pij log pj/ pi= (2a-1) (H(J)-H(I)) = 0 si J=I

%AVEC Im(I,J) = information mutuelle = Distance Kulback Leibler entre p(i,j) et p(i) p(j) = ∑pij log pij/(pi pj)= H(I,J)-H(I)-H(J)
%Commentaire
%e) Im(I,J) probablement croissant (grace à CSS ! ?! falsifiable !) et H(I) assez constant (? quelle loi pour pi ?)

%e') ∑ pj/i sm(pj/i, pi/j) = ∑ pj/i (2 log(pij/(pi pj)+log pj+ log pi) = 2 DKL (P(J/i), P(J)) + ∑ pj/i log pj + log pi


%%We thus decide
%to define the paradigmatic proximity metric as :
NaVIf $\alpha=1$, our paradigmatic proximity metric has an intuitive interpretation. It has the same expression than the classical \textit{Strength} of association also called equivalence index (e-coefficient) \citep{callon91coword} or coefficient of mutual inclusion \citep{Turner88}.

%We will focus on possible cases \ref{general} and
%\ref{specific} described in the previous section for which we need our paradigmatic
%proximity metric to make a distinction between more "specific" and more "general" neighborhoods. To restrain the parameter space, we will reduce our investigations to a parameterized
%expression of $\Proxm
{\alpha,\beta}$ noted $\Proxm
\alpha$ with $\alpha>0$. Given the remarkable expressions obtained for $\alpha=\beta=1$ the final condition we choose for our metric is:
%$\Proxm
\alpha(i,j)=\Proxm{\frac{1}{\alpha}}(j,i)$ i.e. if a term $j$ is more
%specific than $i$ (case \ref{specific}), then changing $\alpha$ to
%$\frac{1}{\alpha}$ will enable to detect term $i$ as a general neighbor from the point of view
%of $j$ (case \ref{general}) the values of paradigmatic proximity being the same in both cases.

%Hence, we will further consider the following sub-class of functions that defines our paradigmatic proximity metric:
NaV\Proxm
\alpha(i,j)=(n_{ij}
t/n_{i}
t)
{\alpha}(n_{ij}
t/n_{j}
t)
{1/\alpha}\\
%\alpha > 0
% \end{array}
%\right.$$



Notre proximité permet de définir le voisinage d'un
terme cible $i$ étant donné un seuil $s$ et un focus $\alpha$ comme:
$$V_{s,\alpha}(i)=\{j|\Proxm
{\alpha}(i,j)>s\}$$

Elle peut s'interpréter géométriquement comme une mesure de pseudo-inclusion (pour un focus suffisant). Asymptotiquement on obtient une mesure d'inclusion pure: si $\alpha \rightarrow 0$, $\Proxm
{\alpha}(i,j)>0 \iff n_{ij} = n_j$ %(dans une vision ensembliste $I\in J$ si on désigne par $I$ (respectivement $J$) l'ensemble des articles mentionnant $i$ (resp. $j$)) et symétriquement:
et si $\alpha \rightarrow \infty$,
$\Proxm
{\alpha}(i,j)>0 \iff n_{ij} = n_i$. %($J\in I$).
De plus si on choisit $\alpha=1$, notre proximité redevient symétrique, et on retrouve l'indice d'équivalence $e$ \citep{callon91coword}. %encore appelé coefficient d'inclusion mutuelle \citep{Turner88}.
$e$ aura tendance à rapprocher les couples de termes $(i,j)$ dont la partie recouvrante ($n_{ij}$) est importante vis à vis des occurrences de chacun des termes ($n_{i}$ et $n_{j}$), \ie il y a inclusion mutuelle. Cette mesure est symétrique et privilégie à recouvrement égal les termes de fréquences semblables. La mesure d'inclusion pure ($\alpha=0$), inscrira dans le voisinage immédiat d'un terme $i$ l'ensemble des termes co-occurrant systématiquement avec $i$, indépendamment des valeurs respectives de $n_{i}$ ou de $n_{j}$.

\begin{figure}
% Requires \usepackage{graphicx}
\centering
\includegraphicswidth=0.63\linewidth{carto/distancestermes.pdf}\
\caption{Représentation schématique des effets de la mesure de similarité \Prox en fonction de différents agencement possibles entre deux termes, plus ou moins fréquents, et plus ou moins recouvrants, ($\alpha = 0.1$) } \label{distancestermes}
\end{figure}

%\FTR{Cette indice de similarité est symétrique: étant donné un terme $i$ et un autre terme $j$, $i$ sera à la même distance de $j$ que $j$ de $i$. Cette propriétés peut s'avérer problématique lorsqu'on mesure des termes dont les fréquences d'apparition sont très différentes, une mesure symétrique étant aveugle à cette hétérogénéité. Si l'on considère la distance qui sépare un terme $i$ à deux termes $j_1$ et $j_2$, $j_1$ apparaissant aussi fréquemment que $i$ et ayant un recouvrement faible avec $i$ $j_2$ étant beaucoup plus rare mais apparaissant systématiquement avec $i$. Une mesure classique ne permet pas de différencier $j_1$ et $j_2$ du point de vue de $i$. L'utilisation de telles métriques induit un aplanissement des relations entre termes qui se reflète dans les cartes construites.}


La mesure que nous adoptons se situe entre ces deux extrêmes (indice d'équivalence et inclusion pure), c'est pourquoi nous l'appelons également mesure de pseudo-inclusion. Dans ce cas, notre mesure de proximité permet vis-à-vis d'un terme $i$ donné, de favoriser dans son voisinage les termes $j$ qui sont fortement recouvrants avec $i$, en pénalisant ceux dont le ratio $n_{ij}/n_{i} = p(j|i)$ est faible (si $\alpha >1 $) ou dont le ratio $n_{ij}/n_{j} = p(i|j)$ est faible (si $\alpha <1 $). Ainsi notre mesure $\Proxm
{\alpha}$ paramétrée par un focus $\alpha>1$ aura tendance à privilégier (au sens où ($\Proxm
{\alpha}(i,j)$ est important, et toujours à recouvrement égal) vis-à-vis d'un terme cible $i$ des termes $j$ qui sont des bons contextes vis à vis de $i$. Inversement, si $\alpha<1$, les voisins les plus proches de $i$ seront plutôt bien contextualisés par $i$.



Pour résumer, étant donné un terme $i$ et cherchant ses plus proches voisins vis-à-vis de \Prox,
%From this expression, it is straightforward to see that given a term $i$ and looking for its closest term $j$:
\begin{itemize}
\item pour un focus $\alpha<1$, notre mesure \Prox sera importante vis-à-vis de termes qui sont plutôt spécifiques dans le contexte de $i$,
\item pour $\alpha>1$, \Prox sera importante pour des termes $j$ qui constituent des bons contextes pour $i$.
% for $\alpha<<1$ \Prox will rank first terms $j$ that are the more specific in the context of term $i$,
% \item for $\alpha>>1$ \Prox will rank first terms $j$ that are the more general in the context of term $i$,
\end{itemize}
Dans la suite le paramètre de focus est fixé et vaut $\alpha=0.1$\footnote{NB: la valeur de $\alpha$ retenue est relativement petite et nous sommes en réalité dans une situation quasi équivalente à une expression de la proximité beaucoup plus simple de la forme: $\Proxm(i,j)=n_{ij}/n_{i}$, néanmoins, notre expression étendue permet qualitativement de privilégier des couples de termes dont les termes se situent dans une gamme de fréquences ``raisonnable''. Dans la pratique, les opérations de cartographie à venir sont relativement peu affectées par la valeur de $\alpha$.}.
La figure \ref{distancestermes} permet de se représenter les valeurs respectives prises par $\Proxm
{\frac{1}{10}}(i,j)$ en fonction des différentes configurations attendues. Dans notre exemple le terme $i$ est proche de $j$ (au sens où $\Proxm(i,j)$ est important) lorsque $i$ constitue un bon contexte pour $j$ ou lorsque $i$ et $j$ ont des fréquences similaires tout en ayant un grand nombre de cooccurrences, mais pas lorsque $j$ est un bon contexte pour $i$. L'identité $\Proxm
\alpha(i, j) = \Proxm
{1/\alpha}(j, i) $ est illustrée dans la même figure par la symétrie que l'on observe en comparant les configurations mettant en jeu des termes de fréquences différentes (au haut à gauche et en bas à droite). Intervertir $i$ et $j$ dans la formule revient alors à inverser la valeur de $\alpha$, ce qui a pour conséquence de rapprocher du terme cible les termes qui constituent un bon contexte à son égard.
Comme nous le préciserons dans la section suivante, le paramètre de focus permet ``d'orienter'' la recherche de termes voisins soit vers des termes de même importance ($\alpha =1$) soit vers des termes plus spécifiques que le terme cible original ($\alpha < 1$), soit vers des termes plus génériques ($\alpha > 1$).


\subsection{Construction du réseau lexical}

Etant donné un ensemble $\mathcal{L}$ de termes et un corpus de textes dont on peut extraire les statistiques brutes d'occurrences et de cooccurrences des termes de $\mathcal{L}$. On définit alors $G_{s}=(\mathcal{L},E_{s})$, le réseau lexical dirigé dont l'ensemble des liens $E_{s}$ correspond à la matrice d'adjacence $\mathbf{S}_{s}$ telle que $\mathbf{S}_s(i,j) = %\Proxm
\alpha(i, j)
H_{s}(\Proxm
\alpha(i, j)) $ où $H_{s}(x)$ est une fonction seuil valant $1$ si $x\geq s$, $0$ sinon. %Notre réseau correspond simplement à la matrice de similarité entre termes dont on a négligé les valeurs les plus faibles (inférieures à un seuil $s$, dont on précisera le rôle ultérieurement).
Plus simplement, on peut définir $G_{s}$ comme
le réseau % pondéré
dont les liens relient les termes $i$ aux termes dans le voisinage de $i$: % avec un poids $\Proxm
\alpha(i, j) $
$ V_ {s, \alpha}(i) $.% avec un poids égal à la proximité entre $i$ et ses voisins.


Naturellement, l'ensemble des mesures et notations que nous avons introduit jusque-là, dépend d'un jeu de données couvrant une période bien définie. Ainsi, même si nous n'abordons pas les aspects dynamiques pour le moment et ne précisons pas cette dépendance dans les notations, notre mesure de distance entre termes, le voisinage d'un terme, ainsi que le réseau lexcial $G_{s}$ qui en découle dépendent naturellement de la période d'observation retenue et sont susceptibles d'évoluer lorsqu'on les applique à un corpus dynamique. Nous ne préciserons cette dépendance dans nos notations que lorsqu'il y a ambiguïté. Nous simplifierons également $\Proxm
{\alpha}$ en $\Proxm$ lorsque le focus prendra sa valeur de référence: $0.1$.



%As we shall see, this metric will enable to describe the way a term belongs to a sub-field of a
%target term or on the contrary how a target term belongs to a sub-field of another term.

%We will now use this paradigmatic proximity measure to explore a given set of terms with two
%different approaches. The first one is local and can be defined as term-centered. We will study neighborhoods
%of terms in function of $\alpha$ (specific or generic paradigmatic proximity). For
%$\alpha$ below $1$, we expect to find the closest specific terms near our target term. When rising up $\alpha$ above $1$,
%we should retrieve more generic expressions. The second approach is a global treatment of the scientific field treated which takes into account the complete terms network built upon our paradigmatic metric. Finally we address the temporal dimension of our data through a longitudinal mapping of the neighborhoods evolution through time.


%\FTR{Scientometrics has defined a great number of measures based on co-occurrence data that capture the degree of similarity or proximity between two terms (\textit{cf.} \cite{He:1999p2286} for a good review). Among others, we can mention two indexes that have been introduced early in scientometrics: the inclusion index $\frac{n_{ij}}{min(n_i,n_j)}$ and the proximity index $\frac{n_{ij}
2}{n_i.n_j}$ \cite{Callon1986Qualitative}. Here, $n_i$ (respectively $n_j$ and $n_{ij})$ is the number of articles mentioning the term $i$ (respectively $j$ and both $i$ and $j$).}
NaV\FTR{Further measures where later introduced. However, most of them, by synthesizing the relation between two terms with a single number, fail to convey important information about their use: given two terms $i$ and $j$, is one more specific or more generic than the other? Is $i$ more specific in the sense that it tends to be used by a sub-community of the community using $j$?}

%\FTR{We assume that the asymmetrical relation between terms is an essential information to get insight into the overall structure of science (fields and subfields). It can be captured by an appropriate choice of proximity measure such that the \textit{pseudo-inclusion measure} defined over a period $T$ by\footnote{$n_i
T$ (resp. $n_j
T$ and $n_{ij}
T)$ is the number of articles mentioning the term $i$ (resp. $j$ and both $i$ and $j$) over the period $T$.}: $\Proxm
T(i,j)=((\frac{n_{ij}
T}{n_i
T})
{\alpha}(\frac{n_{ij}
T}{n_j
T})
{1/\alpha})
{max(\alpha,\frac{1}{\alpha})}$.}

%\FTR{This measure has the advantage to convey information about the relative position of two terms from the point of view of their use: terms $j$ such that $\Proxm
T(i,j)$ is close to $1$ will contextualize $i$ for $\alpha \gg 1$ and will tend to be more specific in their use relatively to $i$ for $0<\alpha \ll 1$ (see \cite{chava:scien} for more details)\footnote{Note that $\Proxm
T(i,j)=P_{\frac{1}{\alpha}}
T(j,i)$ so that if $j$ specifies $i$, $i$ contextualizes $j$. Moreover, $lim_{\alpha \rightarrow \infty}(\Proxm(i,j))$ is the inclusion measure over the sets of papers mentioning $i$ and $j$.}.}




%METTRE UNE FIGURE SI PLACE
NaV\FTR{Starting from a set of terms $\mathcal{L}$ to be mapped (see the material and methods for the selection of terms and their indexation), the pseudo-inclusion measure transforms the co-occurrence matrix into an asymmetric proximity matrix $\mathcal{P}_\alpha$. This matrix defines a directed weighted graph on $\mathcal{L}$ that can be further analyzed with clustering methods to detect informative patterns. In our case, patterns will represent domains of science defined by sets of strongly related terms that contextualize each other's meaning, some being more specific, others more generic. These sets will be called thereafter \emph{scientific fields}.}

%\section{Mapping science}

%\FTR{After this first clustering operation, the next step is to give an insight into the articulation of the different scientific fields to provide a global view of the scientific landscape covered by $\mathcal{L}$.}

%\FTR{The pseudo-inclusion measure $\Proxm$ can naturally be extended to proximity between clusters at period $T$ by averaging the proximity between terms of two clusters:}

%\FTR{$$ \hat{\Proxm}
{T}(C_a,C_b)= \displaystyle \frac{1}{\mid C_a \mid} \sum_{i \in C_a}\frac{1}{\mid C_b \mid}\sum_{j\in C_b}\Proxm^T(i,j)\label{intercluster}$$}

%\FTR{It is important to note that two clusters can be close relatively to $ \Proxm
{T,2}$ even if they do not share any terms from the moment the terms they contain are related.}

%\FTR{$\Proxm
{T,2}$ defines a weighted directed graph on the set of clusters that can be mapped with network visualization tools. Automatic cluster labeling can profitably be exploited to further simply the map by merging clusters with same labels. Depending on the labeling chosen (specific labels, generic, etc.) and the number of labels per cluster, visualizations will display different view points on the scientific domain under study, with different resolutions.}

\subsection{Echelle microscopique: voisinages locaux}

%\subsubsection{Mesurer la distance entre termes}

%La détection de la structure formée par la construction d'un réseau de cooccurrences sur un ensemble de termes est un des principaux objectifs des études de la scientométrie. \cite{doyle} insistait le premier sur le fait que la navigation dans les grandes base de données scientifiques était rendue inefficace en raison du manque de pertinence des modes de recherche traditionnelle par mots-clés. L'analyse par `` mots associés ( ``co-word analysis) a tâché de répondre à ce constat \cite{callon.1,call:mapp,Noyonsb} en introduisant un indice de similarité entre termes qui s'exprime pour deux termes $i$ et $j$ comme le ratio entre le nombre de cooccurrences des termes $i$ et $j$ avec le produit des occurrences de chaque terme.

%sous la forme donnée par le rapport entre le nombre de co-occurrences entre
%les deux termes $ A $ et$ B $ divisé par le produit du nombre total de
%occurrences de $ A $ et$ B $.



%In this case, we would like to be able to derive this hierarchical relation directly from our proximity measure. This is impossible with the classical proximity index which will not allow to exhibit this kind of hierarchical structure.%with any state with two concepts with the same proximity index but featuring a very completely different structure (for example two overlapping concepts equally frequent, and corresponding to a similar level).

%Cet indice de similarité est symétrique: étant donné un terme $ a$, et un autre terme $ b $, $i$ est à la même distance de b $ $ $ que de b $ $ $. Ce \emph (a priori) symétrique contrainte peut arriver à être problématique lorsque l'on compare la différence de f1requencies. Nous allons examiner une affaire où la plupart des cas de $ b $ est suivie par un accident de $ $ mai qui est le cas si $ b $ se rapporte au sous-domaine d'un domaine plus générique $ $ (par exemple \emph (minière technologie) peut être décrit comme un sous-champ de \emph () la découverte de connaissances). Dans ce cas, nous aimerions être en mesure de tirer cette relation hiérarchique directe de notre proximité mesure. C'est impossible avec le classique indice de proximité qui ne permettra pas d'exposer ce genre de structure hiérarchique.% Avec un …tat avec deux concepts avec la même proximité avec l'index, mais très complètement une structure différente (par exemple, deux concepts se chevauchent également fréquentes, et correspondant à un niveau similaire).

%Nous définissons une mesure de similarité entre terme que nous appellerons proximité paradigmatique. Cette mesure est basée sur les statistiques de cooccurrences d'un ensemble de termes extraits d'une base de données de publications scientifiques.


NaVAfin de rendre compte de l'hétérogénéité de la distribution des fréquences dans un corpus, nous avons proposé\cite{chava:scien} une mesure alternative appelée \textit{proximité paradigmatique} et qui définit la similarité entre les termes $i$ et $j$ comme suit:
%$$\Proxm
\alpha_t(i,j)=(n_{ij}
t/n_{i}
t)
{1/\alpha}(n_{ij}
t/n_{j}
t)
{\alpha}$$ où $n_i
t$ et $n_j
t$ désignent le nombre d'occurrences de $i$ et $j$ observée au temps $t$ et $n_{ij}
t$ correspond au nombre de co-occurrences de $i$ et $j$. Le paramètre de focus $\alpha$ est un paramètre de la mesure réel et positif . Cette proximité paradigmatique a les propriétés suivantes (dans un souci de clarté, les paramètres $\alpha$ et $t$ ont été omis ):

\subsection (paradigmatique proximité définition)


Scientometric Classique statistiques utilise nombre de concepts

événements et de co-occurrence dans une fenêtre de temps donnée. A partir de

une base de données avec l'article N $ $ articles, pour certains concepts $i$ et

$ $ j, je la note n_i $
t$ et$n_j $
t le nombre d'occurrences de $i$

j et$ $ pour la fenêtre de temps $ t$ et$n_{ij} $
t le nombre de

de co-occurrences de la même plage de temps.


> De ce qui précède, il ya des propriétés que nous souhaitons que notre

paradigmatique proximité \~ Prox de contraindre:

NaV\item $\Proxm (i, j) = 0 $ si $n_{ij} = 0 $
%\item $\lim_{\frac{n_{ij}}{n_i}\rightarrow 0}(\Proxm(i,j))=0$
%\item $\Proxm (i, i) =1$
%\item $\Proxm (i, j)$ est croissant lorsque $n_{ij}$ croît, toute choses étant constantes par ailleurs. \emph{A contrario}, une augmentation de $n_i $ ou $n_j$, $n_{ij}$ restant constant, entraîne une diminution de la valeur de $\Proxm(i,j)$
%\item Dans l'hypothèse d'un échantillon représentatif, $\Proxm(i,j) $ est indépendant du nombre total d'articles dans la base de données.
NaV\subsubsection{vers une cartographie multi-niveau des sciences}

%De nombreuses approches ont également été proposées pour prendre en compte simultanément des informations lexicographiques et des réseaux de citation \cite{gaston}.
\ADD{Le paramètre de focus $\alpha$ offre un moyen élégant de naviguer avec un point de vue local à travers notre corpus grâce à la notion de voisinage.}% Partant de notre mesure \Prox nous illustrons par un exemple réel la fa\c con dont le paramètre $\alpha$ modifie le voisinage d'un terme. }
%Ici, nous nous restreignons à une approche par les seules occurrences et cooccurrences de termes, mais en t‚chant d'exploiter pleinement l'asymétrie de notre mesure paradigmatique. %La possibilité de distinguer entre les différents niveaux de spécificité/généralité doit nous permettre de construire des cartes.
%Nous proposons également de fournir une représentation d'un corpus de termes à trois niveaux différents. Dans un premier temps, nous définissons un niveau microscopique donnant accès aux voisinages locaux des termes. Puis, le niveau mésoscopique est construit à partir de la matrice de distances inter-termes, ce niveau permet de retrouver les domaines scientifiques pertinents constitués de sous-ensembles de concepts. Enfin le niveau macroscopique est construit à partir du niveau mésoscopique en employant la même méthode de détection d'ensembles cohérents que pour le passage micro-macro.
\begin{figure}t
% Requires \usepackage{graphicx}
\centering
% \includegraphicswidth= 5in{KnowledgeDiscoveryNeigh.jpg}
\includegraphicswidth=\linewidth{/carto/PublicGoodNavig.pdf}\caption{Voisinages en spécificité et en généricité du terme \textit{Public Goods}. Selon la valeur de $\alpha$, on obtient parmi les plus proches voisins de notre terme cible, l'ensemble des termes qui ont tendance à le spécifier ($\alpha = \frac{1}{10}$ en vert), ou l'ensemble des termes qui le contextualisent ($\alpha = {10}$, en jaune)\label{navig}}
\end{figure}
Etant donné un terme cible, nous cherchons à identifier ses plus proches voisins. Le paramètre $\alpha$ permet d'accéder à deux types de voisinage. Pour de faibles valeurs de $\alpha$ ($\alpha <1 $), les plus proches voisins ont tendance à avoir un caractère plus générique que le terme cible. Si le paramètre $\alpha$ est plus important ($\alpha> 1 $), on retrouvera préférentiellement des termes plus spécifiques que $i$. La figure \ref{navig}, extraite de notre cas d'étude sur un corpus de termes portant sur les \emph{systèmes complexes}, illustre cette propriété. Nous avons tracé le voisinage
$ V_{s, \alpha} $ du terme \emph{knowledge discovery} pour $\alpha = 0.1$ et
$\alpha = 10$ et une valeur de seuil $s$ fixée. Pour $\alpha=0.1$, les termes
les plus proches de \emph{Public Goods} le spécifient \emph{via} les termes utilisés dans les sous-spécialités du domaine (dans l'exemple figure \ref{navig} ``collective action, ``consumer sovereignty, etc...). \emph{A contrario}, un paramètre de focalisation supérieur à 1, ici $\alpha=10$ a tendance à assigner au voisinage du terme cible l'ensemble de ses contextes (dans notre exemple: ``policy, ``development, ``environment'', etc...).

Ce quartier structure définie pour chaque valeur d'un plan
%% relations de spécification ou généralisation. Sur l'exemple de
%% des biens publics (voir la figure \ref (port)), nous pouvons voir que $\alpha$
%% d'augmentation, les concepts dans un quartier de devenir des biens publics
%% de plus spécifique et plus proches des concepts utilisés par des spécialistes de la
%% domaines. Nous avons donc obtenir des concepts fortement bénéficier de domaines
%% enquêtes sur les biens publics). Il est à noter que cette visualisation
%% pourrait également être utilisé pour naviguer dans une carte conceptuelle avec des outils spécifiques
%% pour effectuer un zoom avant ou un zoom arrière en fonction de la spécificité ou de généralité
%% concepts recherchées.



% Une simple représentation est exposée figure \ref () navig. % Si $\alpha$ est inférieur à $ 1 $nous allons de préférence exposition termes plus génériques que le concept cible, si $\alpha$ est au-dessus de $ 1 $nous permettra de récupérer le sous-domaine de l'objectif de notre concept.
%Dans le cas particulier où $\alpha = 1 $ on exclut les termes trop génériques et trop spécifiques de notre voisinage pour sélectionner préférentiellement des termes de même fréquence dans le corpus. La proximité paradigmatique est alors égale à l'indice d'équivalence (e-coefficient) introduit par Callon \cite{callon.1}. %La propriété de symétrie par changement de $\alpha$ en $1/\alpha$: \Proxm
(\alpha)(i, j) = \Proxm
(1/\alpha)(j, i) $ garantit qu'un terme $ j $ at distance $\Proxm
(\alpha ) (j, i) $ d'un terme cible $ i $, on peut trouver $ A $ dans le quartier de $ B $ exactement à la même distance ($\Proxm
(1 / \alpha) (B, A) $ ) Tout simplement en passant$\alpha$ $ 1 / \alpha $.

\section{ Echelle mésoscopique: la notion de champ épistémique}% 2d)) Embededness
\label{section44}

\ADD{Dans cette section, nous abordons la seconde partie de notre travail de reconstruction en proposant une méthode de détection et de représentation des agrégats de termes qui structurent notre réseau lexical $G_{s}$. Nous proposons une méthode pour détecter ces ensembles de termes fortement interconnectés les uns aux autres, appelés \emph{champs épistémiques}. En nous appuyant sur la mesure de proximité asymétrique \Prox, nous introduisons également une représentation bi-dimensionnelle du contenu de ces champs ainsi que deux indices permettant de quantifier la structuration de ces champs. Enfin, nous définirons un carte conceptuelle à partir de l'articulation entre ces champs et tenterons d'en fournir une représentation intelligible. }
%\DOU{ Dans un second temps ce réseau dont nos termes forment les n\oe uds et les proximités entre termes les poids des liens, est soumis à une procédure de catégorisation afin de dégager les \emph{champs épistémiques} regroupant les sous-ensemble de termes fortement interconnectés les uns aux autres. La dernière opération consiste à construire une représentation de l'articulation entre ces clusters, en définissant à la fois une distance entre champs et en proposant une série d'indices de structuration pour caractériser chaque champ à partir de notre mesure de similarité asymétrique.}

\subsection{Définitions}
%% \subsection () Etude de cas
%% \paragraphe (échelle micro: paradigmatique quartiers)



% \paragraphe (méso échelle: l'identification des domaines paradigmatique)

% Une fois que nous avons défini une mesure de similarité, et un quartier, nous
% peut essayer d'en tirer des connaissances la carte qui est un objectif commun
%scientometric littérature% A CITER(BUTTER, bibmap).

L'opération de cartographie nécessite souvent, eu égard au grand nombre d'entités à représenter, une première étape de \emph{réduction} du réseau lexical à travers des méthodes de \emph{catégorisation} qui réunissent au sein de clusters des ensembles de termes densément interconnectés. Mais cette opération n'est pas uniquement guidée par des besoins techniques, elle vise également à identifier des \emph{domaines de spécialité} (``research specialities'') pour reprendre le terme employé par \cite{Chubin:1976p2333}. \cite{Morris:2008p2177} définissent de la fa\c con suivante ces assemblages hybrides de textes et de chercheurs: \begin{quotation}``the research specialty is
the largest homogenous unit in the self-organizing systems of science, in that each specialty tends to have its own set of problems, a cohesive core of researchers, shared knowledge, vocabulary, and archival literature.\footnote{ ``la spécialité de recherche est la plus grande unité homogène dans le système auto-organisé que forme la science, au sens où chaque spécialité de recherche tend à avoir ses propres problématiques, un c\oe ur cohesif de chercheurs, une connaissance partagée, un vocabulaire spécifique, et un ensemble de références communes.
}\end{quotation}


Cette définition peut être directement rapprochée de la (ou de l'une des) définition(s) que \cite{Kuhn:1970a} donne d'un paradigme: \begin{quotation} ``a paradigm is what the members of a scientific community share, and,
conversely, a scientific community consists of men who share a paradigm\footnote{`` un paradigme est constitué de ce que partagent les membres d'une communauté scientifique, et inversement, une communauté scientifique est peuplée d'individus partageant le même paradigme.}\end{quotation} Même si l'essentiel des études sur ces `` spécialités de recherche'' s'est concentrée en sociologie des sciences sur la structure sociale qui les anime (espaces de communication, système d'évaluation, processus d'accumulation de ressources et de capital, diffusion de connaissances au sein de collèges invisible \citep{crane1972icd} etc.), ces champs sont également déterminés et peuvent être détectés grâce aux propriétés cognitives qui les structurent \citep{Chubin:1976p2333,Chen:2002p2224}. Dans notre analyse nous nous concentrerons sur la seule dimension cognitive de la production scientifique tracée à travers le recueil des publications. Cela ne signifie pas que les structures que nous cherchons à mettre en évidence sont des constructions exclusivement cognitives, mais que nous en cherchons des traces dans le seul réseau lexical $G_{s}$.



%Most contemporary studies of science operate with some notion of scientific
%specialty communities as the basic units within which science is socially and
%technically organized. This paper presents a critique of scientific communities as
%sociological constructs which appear to be largely irrelevant to scientific work.
%Furthermore, the paper criticizes the prevailing quasi-economic models of such
%collectives for what appears to be a naive internalism and functionalism
%compared with the realities of scientific everyday life as they concern scientists
%themselves. It is argued that the arenas of action within which scientific
%(laboratory) inquiry proceeds are transepistemic - that is, they in principle
%include scientists and non-scientists, and encompass arguments and concerns of
%a 'technical' as well as a 'non-technical' nature. The paper also argues that the
%transepistemic connection of research is built into scientific inquiry (and thereby
%into the products of research) through the decision criteria invoked in laboratory
%work. The paper draws upon one year of observation in a scientific laboratory in
%Berkeley, California, which provides the grounds and the illustrations for the
%theoretical arguments presented. abstrct {Knorr}
%I will then outline a notion, based on
%laboratory observations, of transepistemic arenas of research
%organized in terms of resource-relationship

La notion de ``spécialité de recherche a été largement discutée dans la littérature. \cite{1982}, notamment, critique sévèrement le concept ``quasi-économique et fonctionnaliste de spécialité scientifique comme unité d'étude pertinente pour comprendre l'organisation technique et sociale de la science. Elle lui dénie toute forme opératoire vis-à-vis de l'activité scientifique dans les laboratoires ou même vis-à-vis des représentations mentales des chercheurs. Elle lui oppose la notion d'arènes de recherche trans-épistémiques qui mêlent problématiques techniques et non-techniques, spécialisées et non-spécialisées. % et qui se fonde sur un réseau de .
La critique avancée vise plutôt à dénoncer le caractère fermé et la croyance en une dynamique endogène des processus de production de connaissance au sein de ces espaces :
\begin{quotation}``The point here is that if we cannot assume that the 'cognitive' or 'technical' selections of scientific work are exclusively determined by a scientist's specialty membership groups, it makes no sense to search for a 'specialty community' as the relevant setting for knowledge production.\end{quotation} L'approche ``micro, suivant l'activité quotidienne du chercheur développée par \cite{1982} montre bien la multiplicité des ``transactions'' négociées entre spécialistes et non-spécialistes dans le processus d'élaboration de la connaissance.

Néanmoins ces éléments d'analyse n'interdisent pas, selon nous, l'existence de ``champs épistémiques'' qui malgré l'hétérogénéité %purement
intrinsèque de leur constituants (qu'on parle ici d'éléments purement cognitifs de tout ordre (des outils de recherche comme un programme informatique, à un animal modèle en passant par des artefacts argumentatifs mobilisés dans un article), ou d'intervenants humains (du chercheur au manager de la science en passant par le technicien)) ne forment pas moins des ensembles cohérents et signifiants pour l'ensemble des acteurs engagés.
Il ne s'agit certes pas d'assigner à un ensemble de scientifiques et de concepts une spécialité %au sein d'un champ donné
et d'en fermer la porte à double tour, mais de repérer des structures émergentes signalant à un moment donné ``la cristallisation'' (comme l'appelle Chubin) % présence
d'une singularité remarquable au sein du réseau d'interaction complexe mettant en jeu un ensemble d'acteurs et d'artefacts cognitifs. Ces structures ne sont pas des constructions sociales fantasmées, leurs formes institutionnelles dont on ne peut nier le caractère performatif en témoignent (conférences, organisation par départements des organismes de recherche, organisation thématique des appels à projet, etc.). Elles ne sont pas non plus des structures ``en vase clos'', l'activité d'un chercheur n'est pas nécessairement restreinte aux limites d'un seul champ. La circulation des personnes et des concepts est sans doute fondamentale à la viabilité d'un champ et la caractérisation des champs épistémiques est indissociable de l'identification des ponts qui les relient. La notion de multiplicité des appartenances est ici fondamentale. Et cette multiplicité se joue à nouveau aussi bien du point de vue des acteurs qui animent ces communautés que des concepts qui y circulent.

C'est pourquoi un champ épistémique ne saurait être défini de fa\c con univoque comme la monade au sein de laquelle un certain type
de connaissance est produite par un certain nombre de personnes bien identifiées, mais comme un lieu temporaire (mais suffisamment pérenne pour être observable) de cristallisation de certaines questions et de certains enjeux travaillés par un certain nombre d'individus potentiellement engagés en parallèle dans d'autres activités. %ni par la présence et inversement, un chercheur ne saurait se définir comme apparten



%members (the specialists) are identified by characteristics attributed
%to them on the basis of sociological criteria. Thus, the concept of
%a specialty community is a typical example of an outsider's similari-
%ty classification, or to borrow a convenient term from linguistics, an
%etic concept. The distinction between 'etic' (from phonetic) and
%'emic' (from phonemic) is used in linguistics and anthropology to
%denote the difference between 'context-free' (etic) descriptions of
%the real world (such as the analysis of colour provided by
%physicists), and 'context-specific' (emic) structural units and classes
%(such as those employed in folk-terminologies of colour).22 Here
%the distinction can be used to draw attention to the difference bet-
%ween taxonomic collectives23 which exist in the mind of the
%sociological classifier and those locally significant groups which ap-
%pear to be relevant to the participants themselves.


% In contrast, the perspec-
%tive advocated here insists that we specify social phenomena on a
%micro-level, and derive concepts of 'social structure' from the
%analysis of a multitude of micro-events.27
%The point here is of course
%that statements about 'social structure' which are based upon
%statements about micro-level events may well look different from
%assertions about structure that are born out of detached macro-
%perspectives. For example, they might include references to par-
%ticipants' own macro-representations, and pose the question what
%reality can 'social structure' possibly have apart from members'
%mutually related realizations?28


%De nombreuses méthodes de \emph{clustering} comme les cartes de Kohonen ont été utilisées pour
%faciliter la visualisation de très grandes bases de données en tâchant d'en extraire les principaux champs de recherche \cite{Lin91,sunmed}.


%\MISSING{expliquer ce qu'est un champ ou une spécialité - rapprocher définitions théoriques de la méthode de clusterisation}


%TRANSEPISTEMIC DEF:
% We are
%thus confronted with arenas of action which are transepistemic;
%they involve a mix of persons and arguments that do not fall
%naturally into a category of relationships pertaining to 'science' or
%'the specialty', and a category of 'other' affairs. If we were to
%divide such an arena of action in terms of these categories we would
%be hard pressed to justify our demarcation.

\subsection{Identifier les champs épistémiques}% 2d)) Embededness

Plusieurs méthodes de clusterisation ont été proposées et testées dans la littérature en scientométrie: on peut citer par exemple la méthode des ``k-means'' \citep{Zitt2006Delineating,boyack2005mapping}, les \emph{Self-Organized Maps} \citep{Skupin:2004p2187}, ou une méthode récente basée sur les flux d'information développée par \cite{Rosvall2008Maps}, etc.
Malgré la diversité de ces méthodes, la majorité d'entre elles opère, en guise de clusterisation une partition du réseau (quelque soit la nature du réseau: citations, co-publications, ou mots associés) qui cantonne par définition un n\oe ud à un seul et unique cluster.

%Dans notre analyse nous nous concentrerons sur la seule dimension cognitive de la production scientifique tracée à travers le recueil des publications. Cela ne signifie pas que les structures que nous cherchons à mettre en évidence sont des constructions exclusivement cognitives, mais que nous en cherchons des traces dans le réseau de proximité entre termes que nous avons construit à l'aide de notre mesure de proximité.

\ADD{ Or, dans la cas qui nous occupe, celui de la catégorisation d'un ensemble de termes saisis au travers du réseau de proximité $G_{s}$, on con\c coit aisément que certains termes puissent être mobilisés dans différents champs, ou même qu'ils possèdent différentes significations, ou que leur sens soit modifié selon les communautés dans lesquelles il est employé. C'est d'ailleurs la critique principale qu'adresse \cite{leyd:why} à l'analyse des mots associés:
\begin{quotation}
``The subsumption of phenomenologically similar words or other textual signals under
keywords or other concept symbols assumes stability in the meanings of the indicated concepts.''
\end{quotation}
Nous affirmons au contraire que c'est précisément l'instabilité et la volatilité des sens qui %Comme on vient de le voir, il est essentiel
nous intéressent ici car elles permettent de définir nos champs comme des agencements \emph{plastiques}, susceptibles d'autoriser des appartenances multiples. Notre objectif est donc d'intégrer cette variabilité intrinsèque à notre entreprise de modélisation mais cette exigence %Ainsi un terme polysémique devrait pouvoir être distribué sur l'ensemble de ses usages possibles en fonction des contextes privilégiés auxquels il est fréquemment associé. Nous souhaitons donc que notre algorithme de détection de champs soit en mesure de classer un terme dans plusieurs groupes différents s'il est susceptible de prendre des sens variés ou simplement d'être employé par des communautés différentes.
%nous ne souhaitons en aucun cas à clôturer nos champs épistémiques par Certains termes appartiennent donc à priori à plusieurs champs épistémiques.
implique de faire appel à des méthodes de catégorisation permettant la détection de clusters recouvrants.}


Pour détecter les clusters au sein de notre réseau dirigé de proximité entre termes, nous faisons appel à l'algorithme de détection de percolation de cliques développé par \cite{Palla:2005p285}.
Cet algorithme fait partie de la famille récente des méthodes de détection de clusters recouvrants
(comprenant entre autres les approches de \cite{Zhang:2007p76} ou de \cite{lancichinetti2009doa}). Ainsi les méthodes de détection de communautés classiques ( \cite{Danon:2005p1591}) visent à trouver la meilleure partition d'un graphe possible (comme le font les méthodes classiques d'optimisation de la modularité \citep{girv:comm,Blondel:2008p1906} ou d'autres méthodes fondées sur la construction de partitions à partir de l'analyse spectrale des graphes \citep{Capocci:2005p129,Newman:2006p1960} ou à partir de la dynamique de marches aléatoires \citep{latapy2008bna,Rosvall:2008p909}).

La méthode que nous employons ici, \emph{ a contrario} de ces dernières méthodes algorithmiques, est une méthode purement algébrique et déterministe.
Elle se déroule en deux étapes. En premier lieu, l'ensemble des cliques (dirigées, dans le cas d'un graphe orienté \citep{Palla:2007p839}) du graphe considéré sont détectées. Puis l'algorithme construit les communautés de $k$-cliques pour toutes les tailles de cliques $k$ possibles en opérant une percolation de $k$-cliques.
Plus précisément, une communauté de $k$-cliques est définie comme un ensemble de $k$-cliques (sous-graphes de taille $k$), qui partagent la propriété suivante: il est possible, depuis n'importe quelle $k$-clique d'une communauté de $k$-clique donnée, d'atteindre n'importe quelle autre $k$-clique de cette communauté en suivant une série de $k$-cliques adjacentes (deux $k$-cliques étant adjacentes si elles partagent $k-1$ n\oe uds). La méthode employée permet de réunir en une même ``communauté'' un ensemble de termes fortement inter-connectés les uns aux autres, ce qui nous semble être un critère pertinent pour repérer les structures cognitives régulières dans l'activité scientifique reflétant l'usage d'un vocabulaire, d'outils techniques ou conceptuels communs à un champ épistémique donné.%\marginpar{préciser à nouveau tout \c ca}


%(complete subgraph of size k) can be reached only from the k-cliques of t
%same community through a series of adjacent k-cliques. Two k-cliques ar
%adjacent if they share k 2 1 nodes.


%This implies that some terms could belong to different scientific fields, a fact which technically requires the use of clustering methods allowing clusters overlap. In order to keep the information conveyed by the asymmetry of $\mathcal{P}$ and allow clusters overlap, we choose to consider the detection of directed cliques \cite{palla:dir} as basis for our clustering algorithm. Extraction of directed cliques is one of the recent and convincing algorithm that produces overlapping clusters on directed graphs. \footnote{Moreover, in the limit case where links represent inclusion relations ($\alpha=0\vee\alpha=\infty$), conditions to obtain directed cliques from a complete subgraph can be geometrically interpreted as the expression of non-contradiction in sets inclusions (if $A\neq C$, it is not possible to have $A\subset B \subset C \subset A$)}

%\FTR{Several clustering methods have been proposed in literature and extensively tested for science mapping, \textit{e.g.} k-means clustering \cite{Zitt2006Delineating,boyack2005mapping}, \emph{Self-Organized Maps} \citep{Skupin:2004p2187}, information flows based \cite{Rosvall2008Maps}. However, terms can be used by different scientific communities with different meanings. This implies that some terms could belong to different scientific fields, a fact which technically requires the use of clustering methods allowing clusters overlap. In order to keep the information conveyed by the asymmetry of $\mathcal{P}$ and allow clusters overlap, we choose to consider the detection of directed cliques \cite{palla:dir} as basis for our clustering algorithm. Extraction of directed cliques is one of the recent and convincing algorithm that produces overlapping clusters on directed graphs. %\footnote{Moreover, in the limit case where links represent inclusion relations ($\alpha=0\vee\alpha=\infty$), conditions to obtain directed cliques from a complete subgraph can be geometrically interpreted as the expression of non-contradiction in sets inclusions (if $A\neq C$, it is not possible to have $A\subset B \subset C \subset A$)}.
%In what follows, the set of directed cliques (or scientific fields) is noted $\mathcal{C} = \{C_i\}_{i \in I}$.}


% Si l'on examine la partie inférieure de la figure \ref{navig}, on observe que
% plusieurs domaines partageant la proximité avec le terme \emph{ knowledge discovery} semblent co-exister . Une partie de ces termes est orientée vers les outils d'apprentissage (``machine learning) tandis qu'une autre est centrée sur la fouille de données (``data mining). Pour détecter de façon automatique ces nuances, il faut faire appel à des contextes plus larges que les simples informations locales de proximité deux à deux. L'objectif est d'exploiter les informations sur l'ensemble des relations entre termes pour extraire de façon bottom-up les différentes pratiques desquelles peuvent relever un terme donné. On cherche donc à classer automatiquement les données en fonction des valeurs de la proximité paradigmatique $\Proxm
{\alpha} $ calculées entre chaque paire de termes.

%
% La littérature sur les algorithmes de détection de communautés dans les réseaux est pléthorique (pour un examen de quelques méthodes récentes et leur évaluation voir \cite{Danon:2005p1591}), les plus récents d'entre eux visent à effectuer la meilleure partition possible des noeuds d'un réseau en t‚chant d'optimiser un facteur de qualité appelé la modularité \cite{Newman:2006p163}. Une simple partition de l'ensemble des termes ne permet de dégager que des structures de type purement binaire (un terme est classée de façon non ambiguë dans une unique catégorie) sous la forme d'arbres. Aussi, une telle méthode ne permet pas de rendre compte de la multiplicité des usages que peut prendre un terme. C'est pourquoi nous préférerons employer un algorithme de ``détection de communautés'' qui autorise un certain taux de recouvrement entre champs. Ainsi un terme polysémique devrait pouvoir être distribué sur l'ensemble de ses usages possibles en fonction des contextes privilégiés auxquels il est fréquemment associé. Nous souhaitons donc que notre algorithme de détection de champs soit en mesure de classer un terme dans plusieurs groupes différents s'il est susceptible de prendre des sens variés ou simplement d'être employé par des communautés différentes.
% %Il faut également que cet algorithme soit à même de traiter des graphes dirigés, l'asymétrie de notre mesure se reflétant dans le réseau lexical.
% Plusieurs algorithmes ont été récemment proposés à cette fin, une méthode déterministe remplissant l'ensemble des critères recherchés est la méthode de détection de communautés par percolation de cliques récemment introduite par Palla et al. \cite{Palla:2005p285}.
% Pour éviter un lien
% très générique mots n'importe quel mot pour nous limitons le nombre maximal de
% voisins à $ 20 $, en prenant les 20 $ le plus proche voisinage lorsque la taille est
% supérieur.
%Muni de ce réseau lexical, on appliqué l'algorithme de percolation de k-clique (k désignant la taille de la clique)
%qui nous permet de décrire les ensembles de termes les plus cohérents.
%Ensuite, on peut appliquer la k-clique algorithme de percolation qui décrit
%communautés de termes qui qualifient distinctes domaines de la connaissance
%la production.

%Le fonctionnement précis de l'a
%La sortie de cet algorithme est constitué de groupes de termes
%de telle sorte que dans chaque groupe, on peut effectuer une k-clique de percolation (avec $ k \geq3 $).
%Les grappes d'entreprises sont une propriété générale du graphique (si elles mai dépendent de $\alpha$ et$ s $), ils ne dépendent pas sur un objectif prédéterminé.



Nous appliquons cet algorithme dans sa version orientée\footnote{Les améliorations les plus récentes de cet algorithme de percolation de cliques \citep{Farkas:2007p826} permettent théoriquement d'étendre la procédure à des réseaux dirigés \emph{et} pondérés. Cela nous permettrait de travailler directement sur la matrice de proximité entre termes et donc sur un réseau lexical pondéré sans avoir à définir un seuil $s$. Néanmoins, la version simplement dirigée fournit d'ores et déjà des résultats convaincants.} \citep{Palla:2007p839} à notre réseau lexical $G_{s}$\footnote{Nous avons donc effectué une opération de réduction sur notre graphe lexical $G_{s}$ en retirant les poids portés par l'ensemble de ses liens.}. L'algorithme\footnote{dont l'implémentation des auteurs librement accessible a été utilisée: \href{http://www.cfinder.org/}{http://www.cfinder.org/}} permet de détecter un ensemble de clusters $\mathcal{C} = \{C_{i}\}_{i\in I}$ que nous appellerons \emph{champs épistémiques} \footnote{Il faut noter que l'algorithme ne catégorise pas nécessairement l'ensemble des termes $\mathcal{L}$, certains pouvant se trouver trop distants de l'ensemble de leurs voisins pour figurer dans quelque clique que ce soit.}. Un champ $C_{i} \subset \mathcal{L}$ correspond donc à l'ensemble des termes appartenant à la même communauté de $k$-cliques. % catégoriser notre ensemble de termes $\mathcal{L}$ en un ensemble de clusters que nous appellerons champs épistémiques $\mathcal{C} = \{C_{i}\}_{i\in I}$ et qui sont simplement définis comme l'ensemble de termes qui appartiennent au $i
{eme}$ cluster : $C_{i} \subset \mathcal{L}$.

Le choix d'un seuil $s$ pertinent, en-de\c ca duquel les liens sont considérés comme négligeables, est directement lié à l'algorithme de percolation de cliques. Si l'on se concentre sur l'ensemble des communautés de $k$-cliques obtenues pour différentes valeurs de seuil $s$, on constate pour un seuil $s_{0}(k)$ donné un phénomène de percolation qui produit une ``communauté géante'' agrégeant une grande partie des n\oe uds du réseau. En diminuant le seuil $s$ légèrement en-dessous de $s_{0}(k)$, la structure de communautés obtenue est la plus informative possible. Plutôt que de nous cantonner à une taille de clique $k$ fixée pour définir nos champs épistémiques, nous faisons l'inventaire de l'ensemble des communautés de $k$-cliques pour $k \geq 3$, en choisissant un seuil $s_{1}$ proche mais inférieur à $s_{0}(3)$. L'indice $k$ d'une communauté de $k$-clique $C_{i}$ donnée fournit alors un premier indice de cohésion de la dite communauté.
Dans la suite on considérera ce seuil comme fixé, et on notera notre réseau lexical $G = G_{s_{1}} $.

Nous avons représenté figure~\ref{overlapex} un exemple de catégorisation obtenue en appliquant l'algorithme de percolation de cliques qui illustre la possibilité de multi-appartenance d'un terme à un champ épistémique. Nous avons représenté deux champs auxquels le terme ``Public Goods'' appartient dans la base de données sur les systèmes complexes: un premier cluster est orienté \emph{théorie des jeux} ; le second est plus proche des \emph{sciences politiques}.

\begin{figure}tp
% Requires \usepackage{graphicx}
\centering
% \includegraphicswidth= 5in{KnowledgeDiscoveryNeigh.jpg}
\includegraphicswidth=0.85\linewidth{/carto/PublicGoods.pdf}\caption{Deux clusters comprenant le terme \emph{Public Goods}, en vert à gauche, un premier champ orienté \emph{sciences politiques}, en mauve à droite, un champ orienté \emph{théorie des jeux}. Les deux termes (\emph{Public Goods} et \emph{Finance}) partagés par les deux champs épistémiques sont en rouge (image extraite du logiciel CFinder). \label{overlapex}}
\end{figure}


NaV at the highest k value for which a giant community may emerge, the w
%is decreased just below
%the critical point. The actual values of these parameters in our studies were k = 3, w
%∗
%= 0.1 in case of
%the co-authorship network, and k = 4, w
%∗
%= 1.0 in case of the phone-call network.

%La détection des communautés et la spécification d'un seuil $s$ pour construire le réseau $G_{s}$

%\FTR{The pseudo-inclusion measure also enables a natural representation of the internal structure of a cluster $C$. To each term $w$ in $C$, two coordinates $(I_s
\alpha(w),I_g
\alpha(w))$ can be assigned to qualify its degree of specificity and genericity relatively to other terms in $C$. \textit{The specificity index} indicates to what extent $w$ is specific to $C$ and is defined by: $I_s
\alpha(w)=\frac{1}{card(C)}\sum_{w'\in C} P_{max(\alpha,\frac{1}{\alpha})}(w,w')$. The \textit{genericity index} indicates to what extent a term $w$ contextualizes $C$. It is defined by: $I_g
\alpha(w)=\frac{1}{card(C)}\sum_{w'\in C}P_{min(\alpha,\frac{1}{\alpha})}(w,w')$. With this representation, the labeling of each cluster finds a natural solution since each of its component is characterized on a specificity / genericity scale. According to what is looking for, one can label the clusters with its most generic terms, its most specific ones, an so on (see \cite{coint08multi} for more details).}

%

\subsection{Plongement des clusters dans un espace bi-dimensionnel}

\label{bidim}
Une fois l'ensemble des champs épistémiques $\mathcal{C}$ construit, nous proposons de plonger chacun des champs dans un espace bidimensionnel. Etant donné un champ $C$ et un terme $w$, on définit l'indice de généricité $I_g$
et l'indice de spécificité $I_s$ comme suit:
\begin{description}
\item indice de spécificité Il fournit une mesure du positionnement du terme $ w $ dans un de ses champs d'appartenance $C$ en tant que contexte vis-à vis de l'ensemble des termes du champ. Il est défini comme la somme des distances entrantes des termes de $C$ vers $w$ % la
%groupe
% $ C $ à l'égard de la paradigmatique
%proximité $\Proxm
{\alpha} $ considérée (\textsl c'est-à-dire) ($ w $ pertinentes pour les termes en $ C $?). Il est la moyenne de $ w $ ``-paradigmatique dans la proximité "--
%terme de $w'\in C$ to $w$ - and is defined as :
%$$I_s(w)=\frac{1}{card(C)}\sum_{w' \in C}\Proxm
{\alpha}(w',w)$$
$$I_s
\alpha(w)=\frac{1}{card(C)}\sum_{w'\in C} \Proxm
{max(\alpha,\frac{1}{\alpha})}(w,w')$$
\item indice de généricité Il définit dans quelle mesure les éléments du champ $ C $ sont bien contextualisés par le terme $ w $. On le définit comme la moyenne des distances sortantes de $w$ à l'ensemble de ses voisins dans $C$: _display'>NaV C}\Proxm
{\alpha}(w,w')$$
$$I_g
\alpha(w)=\frac{1}{card(C)}\sum_{w'\in C}\Proxm
{min(\alpha,\frac{1}{\alpha})}(w,w')$$

\end{description}

Ces deux indices permettent de représenter de façon intuitive les champs dans un espace à deux dimensions. \` A chaque terme, on attribue une coordonnée $(I_s
\alpha(w),I_g
\alpha(w))$ et une taille proportionnelle à son importance dans le champ (calculée comme la somme du nombre de ses co-occurrences avec les autres termes du champ). La couleur de chaque terme traduit le taux de croissance de son importance dans le champ entre deux périodes consécutives (du bleu pour les croissances négatives au rouge foncé, pour les croissances supérieures à $50\%$ en passant par le blanc signalant une croissance nulle).

Pour l'illustrer, nous présentons figure \ref{cfinder} deux domaines qui partagent les
termes ``knowledge discovery''. Tout comme le terme \emph{Public Goods}, ce terme peut relever de
plusieurs domaines distincts: un premier orienté \textit{systèmes d'apprentissage automatique}, le second plus focalisé sur les enjeux propres à la \textit{catégorisation} (cf figure \ref{cfinder}). La représentation dans le référentiel des indices de spécificité et de généricité permet d'organiser l'ensemble des éléments d'un champ selon une hiérarchie intuitive. Ce plongement dans un espace bi-dimensionnel correspond à une mesure au niveau mésoscopique tenant compte de l'ensemble des relations entre termes du champ. Elle est donc complémentaire mais différente de la représentation figure~\ref{navig} qui offrait un point de vue purement local sur les voisinages de termes.

\begin{figure}!htbp
\centering
\includegraphicswidth=5in,height=120px{FieldsKnowledge.jpg}\
\caption{{Deux champs épistémiques mentionnant le terme \textit{Knowledge Discovery} sur la période 2002-2005 dans la base de données portant sur les systèmes complexes}.
\textit{Knowledge Discovery} appartient à deux sphères de production de connaissance distinctes: à gauche un champ orienté vers le \textit{machine learning}, à droite l'accent est mis sur les questions de \textit{``categorisation''}. Dans cette représentation, $I_s$ croît de droite à gauche, et $I_g$ croît de bas en haut. %La taille des sphères représentent le nombre de maps according to the number of co-occurrences of the associated term with all the other terms in the cluster. The color of spheres represents the use growth rate of this number of co-occurrences between the two periods 1999-2002 and 2002-2005. A full red point means that the term co-occurrences have increased of at leat
%150\% between these two periods
}\label{cfinder}
\end{figure}

%Il convient de souligner ici que cette méso-échelle de visualisation est
%complémentaire mais distincte du niveau microscopique de visualisation.
%Les champs détectés regroupent des termes qui vérifient des critères de relation globaux sur l'ensemble de leurs éléments. D'autres exemples de reconstruction automatique de champs sont consultables à l'adresse suivante: \href{http://cssociety.org/CSM}{http://cssociety.org/CSM}.

%Compte tenu de la définition de l'ensemble des champs il est désormais possible d'établir une carte dont l'unité de base soit le champ et qui condense l'information à un niveau macroscopique.


\subsection{Qualifier les clusters}


On peut associer un certain nombre de mesures pour qualifier les clusters obtenus. On s'orientera vers un type de caractérisation ou un autre en fonction de la fa\c con dont on souhaite interroger ces cartes%et qui anime l'utilisateur
: quels sont les grands champs structurant un domaine scientifique, quels sont les champs qui émergent à un moment donné, quels sont les clusters interdisciplinaires, etc. ?



%La qualité empirique introduite ci-dessus est une première forme de mesure des champs scientifiques détectés.
Nous introduisons deux types d'indices permettant de caractériser les champs épistémiques détectés: la \emph{densité}. et \emph{l'indice de pseudo-inclusion}.
La densité a été introduite par \cite{callon91coword}: \begin{quotation} ``It characterizes the strength of the links that tie the words making up the cluster together. The stronger these links are, the more the research problems corresponding to the cluster constitute a coherent and integrated whole. It could be said that density provides a good representation of the cluster's capacity to maintain itself and to develop over the course of time in the field under consideration."\footnote{``Elle caractérise la force des liens qui lient les termes les uns avec les autres, plus forts sont ces liens, et plus cohérentes et plus intégrées seront les problématiques de recherche associées à ce cluster, on peut dire que la densité mesure la capacité d'un cluster à se maintenir et à se développer au fil du temps dans le champ en question.''} \end{quotation}
Formellement, la densité d'un champ $C$, notée $D(C)$, s'écrit avec nos notations:
\nolinebreak$D(C)=\frac{1}{Card(C)}\sum_{(w,w')\in C
2, w\neq w'} \Proxm
1(w,w')$.
D'autre part, on définit un autre indice de la cohésion d'un cluster%: l'\emph{index de pseudo-inclusion} .



XXXXX
Notre objectif étant de détecter des clusters dont les termes satisfassent soit la contrainte d'être de bons contextes pour leurs voisins, soit la contrainte de bien spécifier leurs voisins, on définit l'\emph{indice de pseudo-inclusion } d'un cluster: $I_{\subset}
\alpha(C)=\displaystyle\min_{w \in C}\frac{1}{2}\big(I_s
\alpha(w)+I_g
\alpha(w)\big)$. Cet quantité indique le degré de structuration de $C$. %Contrairement à l'indice de densité, il n'est pas soumis à la même dépendence aux fréquences que l'indice de densité \emph{ a priori} pas direcrtementThis index indicates the degree of structuration of $C$.
Les clusters avec un index de pseudo-inclusion peu élevé ont au moins un terme qui n'est ni bien contextualisé ni un bon contexte pour l'ensemble des autres termes (il n'est ni spécifique ni générique par rapport aux autres). %Au contraire, un indice de pseudo-inclusion élevé garantit qu'aucun terme du cluster n'est ni un bon contexte pour leurs voisins, soit bien contextualisés par l'ensemble des leurs voisins. %, index have at least one term that does not fit well with other terms, being neither specific nor generic. As we shall see, the pseudo-inclusion opens some perspectives to the interpretation of science dynamics.


%Relevance is not a binary judgment but rather lays on a continuum, potentially multidimensional, reflecting what is looked for: well-recognized domains of investigation, emergent domains, highlights on interdisciplinary domains, etc. Empirical quality is one of the indexes that make it possible to qualify identified scientific fields. Furthermore, we studied two other indexes that help to give meaning to science evolution.
NaV\item \textbf{Density.} One of the first index introduced to assess scientific fields evolution is the density of a field \cite{callon91coword}.``It characterizes the strength of the links that tie the words making up the cluster together. The stronger these links are, the more the research problems corresponding to the cluster constitute a coherent and integrated whole. It could be said that density provides a good representation of the cluster's capacity to maintain itself and to develop over the course of time in the field under consideration." It is computed by: $D(C)=\frac{1}{Card(C)}\sum_{(w,w')\in C
2, w\neq w'} P_1(w,w')$,
%\item \textbf{Pseudo-inclusion index.}



XXXXX
% Since our goal is to find clusters where all terms are satisfying contexts or well contextualized by other terms in the cluster, we defined the \emph{pseudo-inclusion index} of a cluster: $I_{\subset}
\alpha(C)=\min_{w \in C}\frac{1}{2}(I_s
\alpha(w)+I_g
\alpha(w))$. This index indicates the degree of structuration of $C$. Clusters with low pseudo-inclusion index have at least one term that does not fit well with other terms, being neither specific nor generic. As we shall see, the pseudo-inclusion opens some perspectives to the interpretation of science dynamics.
NaV\marginpar{indice et filtres...}
%L'ensemble de ces indices peuvent servir à filtrer les champs en fonction des critères privilégiés dans la représentation.
%\FTR{Along with empirical quality, these two indexes will be useful to filter science maps and focus on some particular parts of the phylogeny. Note that whereas pseudo-inclusion and density can be computed without supplementary information, empirical quality needs additional queries to a corpus database. One issue will thus be to see the extent to which it is possible to use the first two indexes as proxies to evaluate the empirical quality.}



%Empirical validation is related to the adequacy of the reconstruction of scientific fields compared to the actual productions of scientific communities. To reflect the activity of a scientific community, it is important that scientific fields be composed with terms that are indeed mentioned altogether in the literature. The principle of the proposed empirical validation is thus to check, for each cluster, that there is some significant number of papers mentioning all the terms of the clusters in their full text. Moreover, a cluster composed by very common terms (\textit{e.g.} {disease ,molecule,cell,division}) are not as much informative as a cluster composed of more specific terms (\textit{e.g.} {cancer ,dna damage, apoptosis, checkpoint}). This nuance can be caught by the notion of self-information \cite{shannon1948mathematical} conveyed by the observation of an event composed of independent items $a_1$ ... $a_n$ which have a probability $p_1$ ... $p_n$ to be observed individually. Self-Information is then defined by $I(a_1,...,a_n)=\sum_{i=1...n}-log(p_i)$. These two constraints can be synthesized into the \textit{empirical quality} of a cluster $C$, defined as the products of its self-information with the normalized number $\frac{n_C}{N}$ of papers mentioning all the terms of $C$ in their full text: $Q_e(C)= \frac{n_C}{N}.\sum_{i \in C}-log(\frac{n_i}{N})$, where $N$ is the total number of papers in the reference corpus.
%The empirical quality could be used as a parameter to filter phylogenies so as to display most relevant scientific fields.




\subsection{Représentation macroscopique}



Nous avons défini les champs épistémiques comme des ensembles de termes qui cooccurrent préférentiellement les uns avec les autres, ces termes pouvant appartenir à plusieurs champs épistémiques différents. L'étape suivante consiste à donner un aperçu de l'articulation des différents champs épistémiques les uns avec les autres afin de fournir une vision globale et structurée du paysage scientifique formé par notre ensemble de termes au sein du corpus de publications. Cette représentation macroscopique de l'activité scientifique prend la forme d'une carte \citep{buter.1,bibmap} qui reflète le paysage conceptuel.% observé à travers les bases d'articles scientifiques

Une procédure possible pour représenter la façon dont ces champs s'articulent les uns avec les autres est de définir un réseau dont chaque n\oe ud correspond à un champ, et dont les liens sont pondérés par les valeurs de proximité entre champs. Afin de définir une mesure de similarité au niveau des champs épistémiques, nous étendons donc notre mesure de pseudo-inclusion entre deux termes en calculant cette fois la moyenne des similarités entre les termes respectifs de chaque cluster.
On exprime ainsi la proximité $\hat \Proxm$ entre deux champs $ C_{a}$ et $ C_{b}$ sous la forme suivante: %The pseudo-inclusion measure $\Proxm$ can naturally be extended to proximity between clusters at period $T$ by averaging the proximity between terms of two clusters:

$$ \hat \Proxm(C_a,C_b)=\frac{1}{\mid C_a \mid} \sum_{i \in C_a}(\frac{1}{\mid C_b \mid}\sum_{j\in C_b}\Proxm(i,j))\label{intercluster}$$



Cette mesure permet de définir le réseau orienté
entre champs épistémiques $\hat{G}_{s} = (\mathcal{C},{E}_{\hat s})$ dont l'ensemble des liens ${E}_{\hat s}$ pondérés correspond à la matrice d'adjacence pondérée $\mathbf{\hat{S}}_{s}$ telle que $\mathbf{\hat S}_{s}(i,j) = \hat \Proxm
\alpha(i, j) H_{s}(\hat \Proxm
\alpha(i, j)) $ où $H_{s}(x)$ désigne à nouveau une fonction seuil valant $1$ si $x\geq s$, $0$ sinon. \` A nouveau le seuil $s=s_{2}$ est choisi de fa\c con à obtenir la structure la plus informative possible (en choisissant $s_{2}$ de fa\c con à obtenir un réseau ni trop dense, ni trop déconnecté) \footnote{NB: lorsqu'il s'agit de comparer deux cartes, calculées à deux moments distincts par exemple, il faut naturellement veiller à ce que les seuils retenus pour la construction des cartes soient identiques.}).
Dans la suite on considérera ce seuil comme fixé $s_{2}$, et on notera le réseau des champs épistémiques $ \hat{G} = \hat{G}_{s_{2}} $.



Mais la définition du réseau des champs épistémiques $\hat{G}$ ne suffit pas nécessairement à fournir une description satisfaisante de l'activité scientifique d'un domaine. En effet les champs épistémiques peuvent être composés d'un grand nombre de termes, et les opérations précédentes paraîtraient superflues s'il s'agissait \emph{in-fine} de faire figurer sur nos cartes l'ensemble des termes en guise de légendes des champs détectés, aussi ingénieux leur agencement spatial soit-il. Pour simplifier notre représentation il nous faut donc étiqueter de la manière la plus pertinente et économique possible chaque champ. % L'idée essentielle est d'étiqueter les champs avec les termes qui le représente le plus fidèlement, mais

\begin{figure}!t
\centering
\includegraphicswidth=\linewidth{CSScienceMap2002-2005.jpg}\
\caption{Carte macroscopique du champ des \emph{systèmes complexes}. La taille des champs correspondent à l'activité des champs (échelle logarithmique), la couleur, du jaune le plus clair au rouge le plus foncé représente le taux de croissance de cette activité entre la période courante (années 2002-2005) et la période précédente (1998-2001). Chaque champ peut être décomposé en l'ensemble des termes qui le constitue et représenté dans notre référentiel bidimensionnel (voir encart, l'axe $I_{g}$ a été inversé par rapport à la figure précédente) % Les couleurs sombres correspondent aux champs dotés des taux de croissance les plus importants. Chaque champ peut être ``déplié dans son référentiel bidimensionnel comme l'illustre l'insert sur le champ ``imitation \& social leaning.}
}\label{sciencemap}
\end{figure}

Plusieurs stratégies sont envisageables pour donner à chaque champ la légende qui le représente le plus fidèlement.
Une première possibilité est d'employer une méthode basée sur l'analyse des fréquences des termes au sein de l'ensemble des champs afin d'extraire les termes les plus prototypiques de chaque champ. Nous exposerons précisément cette méthode ultérieurement dans un contexte plus favorable qui est celui des représentations de plus haut niveau mettant en jeu des clusters de champs épistémiques (cf section \ref{recmulti}).
\` A ce stade, nous nous appuierons directement sur la décomposition des champs dans notre espace d'indices de spécificité/généricité pour réaliser notre opération de labellisation.
En fonction de ce qui paraîtra le plus pertinent au destinataire de la carte, on peut privilégier différentes stratégies %nous sont offertes dans le choix des termes qui peuvent
pour représenter le contenu d'un champ: \begin{itemize}
\item sélectionner les termes les plus spécifiques vis-à-vis du champ, \ie ceux dont les indices de spécificité $I_{s}$ sont les plus importants,
\item sélectionner les termes les plus générique vis-à-vis du champ, \ie ceux dont les indices de généricité $I_{g}$ sont les plus importants,
\item sélectionner les termes ``médians'' qui sont les plus centraux vis-à-vis de la dimension dont la variance est la plus grande,
\item ou encore adopter des solutions mixtes entre ces trois premières méthodes.
\end{itemize}
\DOU{verifier dans le code la formule exacte}





% au sens où ils sont caractéristiques d'un cluster ( ou essentiellement peu utilisés ailleurs). Mais cette méthode peut entrer en



%Notre réseau correspond simplement à la matrice de similarité entre termes dont on a négligé les valeurs les plus faibles (inférieures à un seuil $s$, dont on précisera le rôle ultérieurement). Plus simplement, on peut le définir comme
% le réseau qui relie le terme $i$ au terme $j$% avec un poids $\Proxm
\alpha(i, j) $
% si et seulement si $j \in V_ {s, \alpha}(i) $ étant donné un seuil $s$ fixé.



%au recouvrement entre champs. D'autres moyens de définir un lien entre deux champs sont envisageables, notamment en calculant la moyenne des distances deux à deux entre l'ensemble des termes constituant deux champs donnés. %Depuis paradigmatique à l'intérieur de chaque domaine nous permet de calculer pour un terme de sa spécificité contextuelle $I_s $ et la généricité $I_g $ indices, on pourrait, en principe, utiliser ces deux indices pour calculer le chevauchement entre les deux domaines paradigmatique.
%Cependant nous nous contenterons dans une première approche de définir le poids d'un lien entre deux champs comme le nombre de termes partagés par ces deux domaines.


%Les indices de spécificité et de généricité: $I_s $ et$ I_g$ sont néanmoins utiles pour définir une fonction de labellisation efficace et informative des champs (




Nous avons représenté une carte du domaine des \emph{systèmes complexes} pour la période 2002-2005 figure~\ref{sciencemap}.
La représentation de cette carte (ainsi que les suivantes) a été réalisée grâce au logiciel d'analyse et de représentation de graphes Pajek \citep{batagelj1998pajek} qui s'appuie sur des algorithmes classiques de spacialisation (Fruchterman--Reingold ou Kamada-Kawai). Les champs ont été étiquetés par leurs deux termes les plus génériques.
La description des champs est alors suffisamment condensée pour fournir une représentation macroscopique du domaine, permettant de repérer très facilement les grands sous-domaines qui le compose (ceux-ci ont été rajoutés à la main sur la carte (\emph{I.T.}, \emph{A.I.}, \emph{Physique statistique}, etc.)).
La taille d'un n\oe ud est proportionnelle à l'activité $a$ du champ définie comme la moyenne des occurrences normalisées ($p
T_{i}) = \frac{n
T_{i}}{\sum_{j\in \mathcal{L}}n
T_{j}}$) des termes exprimés au sein d'un champ (l'activité d'un champ $C$ à une période $T$ s'exprime donc sous la forme: $a
{T}_{C} = \frac{1}{card(C)}{\sum_{i \in C} p_{i}
{T}}$).
Nous pouvons également visualiser sur cette carte la croissance $A
T_C$ de l'activité de chaque champ $C$ à $T$, % Encore une fois, index complexes peuvent être définies en utilisant I_s $ et$ $ $ I_g et la dynamique des différentes variables.
simplement définie comme
la croissance moyenne des occurrences normalisées des termes d'un champ donné entre la période précédente $T
{-}$ et la période actuelle $ T$:
$A
T_C=\frac{1}{card(C)}\sum_{i\in C}\frac{p_i
T}{p_i
{T
{-}}}$.
%où $a_i
T$ est défini comme $a_i
T=\frac{n_i
T}{\sum_{j}n_j
T}$

%permettant intelligible pour pouvoir nous avons choisi d'étiqueter les champs par leur deux termes les plus génériques). % L'heuristique retenue pour nommer un champ constitué d'un ensemble de termes est de choisir le terme le plus générique et le plus spécifique.%$I_s $ et$ I_g$ sont néanmoins utile d'étiqueter automatiquement les champs paradigmatique par leur plus générique ou plus spécifique.





%A titre d'exemple, la figure \ref{sciencemap} est une représentation macroscopique d'un corpus de termes associées au domaine des ``systèmes complexes'' pour la période 2002-2005.
%Les champs de couleur bleue ont un taux de croissance négatif, jaune, rouge, et brun un taux de croissance positif et d'autant plus fort que la couleur s'assombrit.
%de une cartographie de la moyenne normalisée nombre d'occurrences des termes dans le groupe correspondant et les couleurs indiquent la moyenne de l'activité sur le terrain. Blue couleurs correspondent à un taux de croissance négatif, jaune, rouge et brun à un taux de croissance positif. On peut remarquer ici que tous les champs sont de plus en plus et que les champs sont organisées dans les domaines connexes à forte densité qui peuvent être eux-mêmes qualifiés de grands domaines thématiques à savoir: biologie, sciences cognitives, la théorie des jeux, les sciences de l'environnement, les sciences sociales, la physique statistique, mathématiques, artificielle l'intelligence, de l'informatique et les technologies de l'information.
%Une carte interactive qui permet de zoomer dans les endroits d'intérêt et de naviguer à travers les champs paradigmatique peut être consultée en ligne à l'adresse suivante: \href{http://cssociety.org/CSM}{http://cssociety.org/CSM}.




\subsection{Reconstruction multi-échelle}
\label{recmulti}
Pour illustrer cette partie nous nous appuyons sur une base de données de publications décrivant les activités de recherche autour du thème du \emph{développement durable} (voir description du jeu de données section~\ref{jeudata}).
Nous avons appliqué nos méthodes de reconstruction statique sur ce jeu de données en nous concentrant sur les 10 dernières années du corpus, soit tous les articles parus publiés entre 1998 et 2007. La carte correspondante est présentée figure~\ref{fig:carte}.




\begin{figure}!t
\center
NaV,trim=0 10 0 20]
NaV,trim=0 10 0 20]
%]{carto/carte_density_denistydiffcropm.pdf}
]{carto/carte_density_denistydiffm58.pdf}
\caption{\label{fig:carte}Carte du ``domaine développement durable sur la période 1998-2007. Le détail de la constitution du champ 58 (\emph{intellectual property rights} \& \emph{indigeneous knowledge}) est représenté en encart. Cette fois-ci nous avons représenté la taille des champs en fonction de leur densité tandis que leur couleur traduit la différentiel de densité par rapport à la période précédente (ce taux de croissance augmente des couleurs froides (bleu) aux couleurs chaudes (rouge)). Les champs ont été labellisés par les deux termes les plus ``médians. }
\end{figure}

Le réseau $\hat{G}$ articulant les champs scientifiques les uns avec les autres a été construit grâce à la distance inter-cluster $\mathbf{\hat{S}}$ précédemment définie.
Notre objectif est maintenant de soumettre $\hat{G}$ à une nouvelle {opération de réduction} en catégorisant les champs épistémiques au sein de classes de champs.
Nous appliquons à nouveau la méthode de détection de communautés de cliques afin de construire les ensembles de \emph{communautés de champs épistémiques} $\{\mathbf{C}_{i}\}_{i}$ que nous appellerons par la suite meta-communautés (nous utilisons la même notation que les champs épistémiques mais en gras), qui sont formés d'ensembles de champs: $ \mathbf{C}_{i} \subset \mathcal{C}$ (pour rappel $\mathcal{C} = \{C_{j}\}_j $ désigne l'ensemble des champs épistémiques détectés).
Une représentation de l'ensemble des communautés obtenues par une percolation de $k$-cliques ($k\geq5$) est représentée figure \ref{fig:high}.
Elle présente à nouveau un fort taux de recouvrement entre les communautés de champs détectées et n'est pas directement intelligible en l'état.
Au niveau précédent, nous avions adopté une stratégie de labellisation des champs en fonction des indices de spécificité et de généricité des termes présents dans chaque champ. Dans le cas des agrégats de champs, une telle méthode n'est pas envisageable car elle consisterait à labelliser les communautés de champs avec des étiquettes déjà complexes et éventuellement variables (car dépendantes de la stratégie de labellisation retenue pour définir les champs épistémiques au premier niveau). Nous préférons employer une méthode plus classique qui permet de reconstruire les étiquettes de haut-niveau à partir de la distribution des termes se retrouvant dans la même meta-communauté.

%On applique à nouveau la méthode du \emph{tf.idf} afin d'extraire pour chaque communauté de champs les 5 termes les plus caractéristiques du cluster \ref{fig:high2}.

Chaque méta-communauté peut être décrite par l'ensemble des termes qui composent les champs épistémiques qu'elle recouvre. Certains termes pouvant être communs à plusieurs champs, on associe donc à chaque communauté de champs $\mathbf{C}_{i}$ un vecteur d'occurrences $W_{\mathbf{C}_{i}}$ qui dénombre pour chaque terme $j$ le nombre de champs épistémiques dans $\mathbf{C}_{i}$ comprenant le terme $j$. % contenant des termes dans les champs catégorisés au sein de cette communauté.
Ainsi, pour un terme $j$, la coordonnée $\displaystyle W_{\mathbf{C}_{i}}(j)$ vaut: $\displaystyle | \{ C_{k} \in \mathbf{C}_{i}, \text{ tel que } {j} \in C_{k}\}| $ %associe à chaque terme le nombre de champs d'appartenance

Ces vecteurs ``d'occurrences'' de termes dans les communautés de champs permettent d'appliquer une procédure de type \emph{tf.idf} afin d'extraire, pour chacune, les termes les plus significatifs à même de qualifier de fa\c con pertinente leur contenu. On choisit ainsi d'étiqueter chaque communauté par les cinq termes dont les \emph{tf.idf} sont les plus importants. \footnote{Pour rappel et dans notre contexte, le \emph{tf.idf} d'un terme $j$ pour une meta-communauté $i$ vaut: $\text{tf.idf}_{i}(j) = \displaystyle \frac{\displaystyle W_{\mathbf{C}_{i}}(j)}{\sum_{k=1}
{n}{W_{\mathbf{C}_{i}}(k)}} log \Bigg(\frac{| \{ \mathbf{C}_{k}\}_{k}|}{| \{ \mathbf{C}_{k} , \text{ tel que } W_{\mathbf{C}_{i}}(k) \geq 1\}_{k}|}\Bigg)$}

\begin{figure}!htbp
\center
\includegraphics[width=1.07\linewidthNaV,trim=0 10 0 20]
]{carto/sustainablehigh.png}
\caption{\label{fig:high}Méta-communautés du champs ``développement durable'' sur la période 1998-2007. Les communautés de champs épistémiques sont représentées par des ensembles colorés. Les n\oe uds du réseau sont des champs épistémiques.}
\end{figure}

\begin{figure}t
\center
\includegraphicswidth=0.75\linewidth,%,trim=0 10 0 20
]{carto/cartemacro.pdf}
NaV,trim=0 10 0 20]
%]{carto/color.pdf}
\caption{\label{fig:high2}Méta-communautés du champs ``développement durable'' sur la période 1998-2007. Les communautés de champs épistémiques sont étiquetées par leurs cinq termes les plus cararctéristiques (plus haut tf.idf). La taille correspond à la somme des fréquence des mots-clés, la couleur, à la différence par rapport à la période précédente. Les n\oe uds du réseau sont des communautés de champs épistémiques.}
\end{figure}


Une fois définies les étiquettes de chaque communauté de champs, on peut représenter le réseau de proximité entre les méta-communautés. Les liens entre méta-communautés sont construits comme une agrégation des liens entre champs au niveau inférieur. Nous appliquons la même procédure de passage au niveau supérieur que celle employée précédemment\footnote{Plus précisément on définit la distance entre deux méta-communatés $\mathbf{C}_{a}$ et $\mathbf{C}_{b}$ sous la forme suivante: $ \displaystyle\hat{\hat{ \Proxm}}(\mathbf{C}_a,\mathbf{C}_b)=\frac{1}{\mid \mathbf{C}_a \mid} \sum_{i \in \mathbf{C}_a}(\frac{1}{\mid \mathbf{C}_b \mid}\sum_{j\in \mathbf{C}_b}\hat{\Proxm}(i,j))\label{intercluster}$
}. % construite en utilisant la distance généralisée entre clusters.\marginpar{il faut introduire cette distance plus tôt, ou le multi-échelle plus tard}.
%\MISSING{avant/après...}
La figure~\ref{fig:high2} représente une carte de haut niveau du champ du développement durable tel qu'il se structure dans notre jeu de données. $11$ communautés de champs distinctes ont été identifiées, leurs légendes forment des ensembles semblant conceptuellement pertinents. Ainsi de haut en bas et de droite à gauche, on reconnaît les sous-domaines suivants:
\begin{itemize}
\item économie de l'environnement et catastrophes naturelles,
\item changement climatique (activité faible mais croissance très rapide),
\item gestion forestière et développement durable,
\item commerce international (très forte activité, croissance moyenne),
\item biodiversité et propriété intellectuelle indigène,
\item gestion forestière (aspects économiques),
\item gestion de l'eau,
\item gestion des zones agricoles,
\item agronomie et nuisibles,
\item aménagement du territoire, et occupation des sols,
\item SIG.
\end{itemize}







\subsection{Procédures de validation}
\label{validation}

Nous définissons l'indice de \emph{qualité empirique} sur les clusters, noté $Q_{e}$, pour nous donner un critère de validation des champs reconstruits.
La validation empirique est liée à l'adéquation des champs scientifiques reconstruits avec l'activité de publication à proprement parler. Pour représenter l'activité des communautés scientifiques, les champs scientifiques que nous mettons en exergue se doivent de rendre compte d'une littérature correspondant aux assemblées de termes repérées. Le principe de validation empirique que nous proposons est donc le suivant: pour chaque champ, nous contrôlons simplement, à l'aide d'une requête dans notre base de données de publications, qu'un nombre significatif d'articles réunit l'ensemble des mots-clés. Compte tenu de l'hétérogénéité des fréquences d'usage des concepts, nous proposons d'utiliser la notion de \emph{self-information} \cite{shannon1948mathematical} qui permet de mesurer la quantité d'information associée à un tirage d'une variable aléatoire $X$, dont les probabilités d'apparition valent $p_i$. \` A l'observation d'un événement $X_{i}$, on peut alors associer $I(X=X_{i})=-log_{2}(p_i)$ qui est une mesure en bits de la quantité d'information. Une quantité d'information importante correspond donc à une mesure de la ``surprise'' associée à un événement plus ou moins improbable.

Nous souhaitons évaluer la quantité d'information associée à la présence d'un nombre $k$ d'articles mentionnant l'ensemble des termes d'un champ $C$. Nous pouvons mesurer à l'aide d'une requête dans notre base de données le nombre réel d'articles contenant l'ensemble des termes de $C$, on note $n_{C}$ ce nombre.
Pour calculer la quantité d'information associée à cet événement ($n_{C}$ articles regroupent l'ensemble des termes de $C$), on fait l'hypothèse d'un modèle nul dans lequel les probabilités d'occurrence des termes sont indépendantes les unes des autres\footnote{les probabilités d'occurrences de nos termes ne sont en réalité naturellement pas indépendantes les unes des autres, nous nous servons néanmoins de la formule de la quantité d'information en traitant les fréquences d'usages des termes ``comme si'' elles correspondaient à des variables indépendantes dans le but de fournir une hypothèse nulle simplifiée par rapport à laquelle apprécier combien ces agencements de termes sont non aléatoires.}. Ainsi la probabilité théorique qu'un des $N$ articles emploie l'ensemble des termes vaut $\prod_{i \in C} p_{i}$. On en déduit que la probabilité théorique d'observer l'ensemble des termes de $C$ conjointement mobilisés dans $k$ articles vaut $ \nolinebreak{N\choose k} (\prod_{i \in C}p_{i})
k \nolinebreak(1-\prod_{i \in C} p_{i})
{N-k}$.
L'indice de \textit{qualité empirique } d'un cluster $C$ est donc défini comme la quantité d'information, notée $Q_e(C)$, %(associée à la mise en commun de l'ensemble des termes de $C$)
associée à l'événement ``$n_{C}$ articles regroupent l'ensemble des termes de $C$'', soit $$\displaystyle Q_e(C) = - log_{2}\big[{N\choose n_{C}} (\prod_{i \in C}p_{i})
{n_{C}} (1-\prod_{i \in C} p_{i})
{N-n_{C}}\big]$$. %: et de la proportion de publications $\frac{n_C}{N}$ mentionnant l'ensemble des termes de $C$% (dans leur texte complet)
%, soit: $Q_e(C)= \frac{n_C}{N}.\sum_{i \in C}-log(\frac{n_i}{N})$, où $N$ désigne le nombre total de papiers dans le corpus de référence.

%\marginpar{verifier ce qui suit en commentaire}
%La validation empirique est liée à l'adéquation des champs scientifiques reconstuits avec la littérature reflétant réellement les agrégats repérés. Pour représenter l'activité des communautés scientifiques, les champs scientifiques que nous exhibons se doivent de rendre compte d'une activité de publication avérée. Le principe de validation empirique que nous proposons est donc le suivant: pour chaque cluster, nous vérifions simplement si un nombre significatif d'articles réunissent l'ensemble de ces mots-clés. Compte tenu de l'hétérogénéité des fréquences d'usages des concepts, nous proposons d'utiliser la notion de \emph{self-information} \cite{shannon1948mathematical} qui permet de mesurer la quantité d'information associée à un tirage de variables aléatoires indépendantes $a_1$ ... $a_n$, dont les probabilités individuelles d'apparition sont données par $p_1$ ... $p_n$. $I(a_1,...,a_n)=\sum_{i=1...n}-log(p_i)$. Une quantité d'information importante correspond donc à une mesure de ``surprise'' vis à vis d'un événement plus ou moins improbable.
%L'indice de \textit{qualité empirique } d'un cluster $C$, est défini comme le produit de sa quantité d'information associée à la mise en commun de l'ensemble de ses termes avec la proportion de papiers $\frac{n_C}{N}$ mentionnant l'ensemble des termes de $C$ (dans leur texte complet), soit: $Q_e(C)= \frac{n_C}{N}.\sum_{i \in C}-log(\frac{n_i}{N})$, où $N$ désigne le nombre total de papiers dans le corpus de référence.\footnote{les probabilités d'occurrences de nos termes ne sont en réalité naturellement pas indépendantes les unes des autres, nous nous servons néanmoins de la formule de la quantité d'information en traitant les fréquences d'usages des termes ``comme si'' elles correspondaient à des variables indépendantes dans le but de fournir une hypothèse nulle crédible par rapport à laquelle apprécier combien ces agencements de termes sont non aléatoires.}

%Empirical validation is related to the adequacy of the reconstruction of scientific fields compared to the actual productions of scientific communities. To reflect the activity of a scientific community, it is important that scientific fields be composed with terms that are indeed mentioned altogether in the literature. The principle of the proposed empirical validation is thus to check, for each cluster, that there is some significant number of papers mentioning all the terms of the clusters in their full text. Moreover, a cluster composed by very common terms (\textit{e.g.} {disease ,molecule,cell,division}) are not as much informative as a cluster composed of more specific terms (\textit{e.g.} {cancer ,dna damage, apoptosis, checkpoint}). This nuance can be caught by the notion of self-information \cite{shannon1948mathematical} conveyed by the observation of an event composed of independent items $a_1$ ... $a_n$ which have a probability $p_1$ ... $p_n$ to be observed individually. Self-Information is then defined by $I(a_1,...,a_n)=\sum_{i=1...n}-log(p_i)$. These two constraints can be synthesized into the \textit{empirical quality} of a cluster $C$, defined as the products of its self-information with the normalized number $\frac{n_C}{N}$ of papers mentioning all the terms of $C$ in their full text: $Q_e(C)= \frac{n_C}{N}.\sum_{i \in C}-log(\frac{n_i}{N})$, where $N$ is the total number of papers in the reference corpus.
%The empirical quality could be used as a parameter to filter phylogenies so as to display most relevant scientific fields.


%Les outils développés ont donc permis d'objectiver et d'accompagner les hypothèses sur une transition du tout génétique à une vision moins déterministe des mécanismes biologiques. Les questions propres à la représentation de connaissance multi-échelle et en dynamique sont ici cruciales autant à cause de la complexité des données à mettre en forme que par la nécessité d'intégrer les spécialistes dans la boucle de modélisation. Cette dernière contrainte a été prise en compte en mettant à disposition des experts un outil de navigation spécifique qui prend la forme d'un site web, permettant de naviguer à travers les différentes périodes et à travers les différents niveaux selon la résolution souhaitée. Enfin, des possibilités d'annotation permettent de partager les interprétations et remarques (cf. figure \ref{navig}).
NaVNous avons déjà esquissé les méthodes qui fournissent des multi-level description
%de notre premier ensemble de termes. La prochaine étape consistera à mai poursuivre l'étude des propriétés dynamiques de ce multi-level description. Conditions événements et de co-occurrences évoluer dans le temps qui déclenchent mai raisonnable changement dans la façon dont ils sont structurés. Si nous voulons décrire la dynamique globale du système à chaque niveau, nous devons définir la dynamique de ces méso-modèle qui nous avons demandé paradigmatique domaines. Décrivant cette méso-dynamique, il faudra définir la dynamique de ces ensembles de termes avec le gain ou la perte de certains de ses constituants, la fusion de différents domaines, scission, mais aussi la mort ou la naissance de nouveaux domaines. La question de la dynamique communautaire a déjà été appliquée avec succès à la collaboration et les réseaux de téléphonie cellulaire A CITER(Palla: 2007p229) et mai arriver à une direction prometteuse de la recherche lorsqu'elle est appliquée à la science analyse de l'évolution.


%\subsection*{Conclusion}

%De plus ces méthodes ne se restreignent pas nécessairement au monde scientifique. Toute autre base de textes est susceptible d'être traitée selon la même procédure (brevets, presse, contenus en ligne, etc...).}

%Hiérarchique et le chevauchement des structures complexes ont été exposés et pratique représentées dans l'espace. Another advantage of this measure is the possibility to perform
%multi-scale browsing over a set of terms from the more general to
%the more specific, which may happen to be of great help for scientists as well as for other audiences (\textit{e.g. }science policy maker).
%Besides the methods exposed are not entirely specific to scientific world ; one can imagine to draw these kinds of knowledge map from any other sources of content (such as patents, press, blogs, etc...).



%For acknowledgements subsection, please don't number the subsection, you need to begin with
NaVCe papier a été développé dans le cadre du projet COBINA soutenu par le programme OGM de l'ANR. Il a bénéficié de l'expertise précieuse de Christophe Bonneuil et Jean-Paul Gaudillère, des conseils avisés de Pierre-Benoît Joly ainsi que du concours de David Chavalarias.
%\subsection*{Acknowledgements} This study was supported by the CREA - Ecole Polytechnique, the
%IST-FET coordinated action ONCE-CS (http://once-cs.csregistry.org) and the Paris
%Ile-de France Institute for Complex Systems (http://iscpif.fr).
%We would like to thank Scirus.com for their partnership and particularly Craig Scott
%for his kind help with the data processing, as well as Arc System research for
%their keywords list. We also warmly thank our
%referees for their valuable comments and suggestions.

\section{Méthode de reconstruction dynamique}

\label{section45}
Nous avons essayé de montrer dans la section précédente la manière dont la cartographie des sciences pouvait bénéficier d'une mesure asymétrique de proximité entre termes qui, associée à une méthode de catégorisation avec recouvrement, nous a permis de reconstruire une structure multi-échelle ``hiérarchisée'' des sciences robuste à la polysémie des termes et aux enchâssements complexes des communautés scientifiques. Ces méthodes de reconstruction ouvrent la voie à de nouveaux modes de navigation et d'interrogation des corpus de publications à travers des interfaces proposant de parcourir des paysages conceptuels multi-échelles qui pourraient s'avérer utiles pour les chercheurs, les théoriciens des sciences ou encore les gestionnaires.


\ADD{Mais l'analyse statique de la structure des champs paradigmatiques n'est qu'une première étape vers la caractérisation et la représentation de l'activité scientifique. Nous poursuivons notre étude par la reconstruction des dynamiques des champs épistémiques. L'ensemble des méthodes décrites dans la section précédente permet de reconstruire la structure multi-échelle d'un domaine scientifique à n'importe quelle période. On peut ainsi aisément imaginer rajouter une dimension temporelle à notre analyse visant à la caractérisation des dynamiques scientifiques. }


\ADD{La reconstruction des dynamiques des communautés scientifiques présente des enjeux théoriques forts. Appréhender l'évolution des sciences à partir de données réelles présente un intérêt particulier en épistémologie, ou en histoire des sciences. L'objectif est double: d'une part, caractériser finement les évolutions des champs épistémiques, d'autre part, à une échelle de temps plus grande, observer les mutations opérées dans la dynamique d'évolution des sciences afin de caractériser des transitions des régime de régulation des communautés scientifiques elles-mêmes. Est-il possible de repérer une tendance à la balkanisation des sciences associée à une spécialisation croissante des communautés% à l'internationalisation des communautés
? Peut-on mesurer l'impact des nouveaux outils de communication introduits par Internet sur l'organisation des communautés ? Est-il possible de reconstruire l'évolution des changements paradigmatiques majeurs ? peut-on identifier de façon automatique les champs émergents ? Peut-on également retracer les grandes mutations dans les régimes de régulation et d'organisation des communautés scientifiques? %Si Internet n'a,\emph{ a priori}, pas vocation à modifier l'ordre social des communautés scientifiques, il peut affecter le mode de production des savoirs en offrant des moyens d'échanges, de collaboration et de partage des données inédits.
Sans avoir prétention à répondre à toutes ces questions, des outils de suivi des dynamiques scientifiques observées in-vivo pourraient nous informer sur les conséquences de ces mutations.
%, elles forment néanmoins un horizon d'application possible de ces méthodes.
}

\ADD{La question de la dynamique des sciences a largement animé le champ de la scientométrie. On peut se référer, en ce qui concerne l'analyse par réseau de co-citation, aux historiographes de \citep{garf} ou à l'analyse de la continuité des ``bases intellectuelles'' propres à une spécialité \citep{braam.1}. L'analyse de mots associés a également été employée pour cartographier le développement d'un champ sur une longue période \cite{Cambrosio:1993p2212} %the utilization of co-word analysis as a tool for mapping the development of
%a given problem area over a long period of time, thus opening up the field of
%historical research for scientometric analysis.
ou pour étudier les relations au cours du temps (influence, circulation) qu'entretiennent recherche académiques et recherche appliquée autour d'un même domaine \citep{Callon:1991p2209}.
%The goal of this paper is to show how co-word analysis techniques can be used to study
%interactions between academic and technological research. It is based upon a systematic
%content analysis of publications in the polymer science field over a period of 15 years. The
%results concern a.) the evolution of research in different subject areas and the patterns of their
%interaction; b.) a description of subject area "life cycles"; c.) an analysis of "research
%trajectories" given factors of stability and change in a research network; d.) the need to use
%both science push and technology pull theories to explain the interaction dynamics of a
%research field. The co-word techniques developed in this paper should help to build a bridge
%between research in scientometrics and work underway to better understand the economics of
%innovation.
Des approches mixtes ont proposé de représenter les tendances émergentes et les motifs transitoires dans la littérature scientifique en s'appuyant aussi bien sur les ``fronts de recherche (analyse lexicale) que sur les ``bases intellectuelles des spécialités
\cite{Chen:2004p2226,Chen:2006p2223}. Enfin, on peut mentionner les réseaux de citation animés entre journaux de \cite{Leydesdorff:2008p2198} qui illustrent les dynamiques émergentes de domaines inter-disciplinaires.
%The approach followed in this study, thus, enables an
%investigation of the continuity in the specialty, concern-
%ing its “intellectual base” in relation to its current re-
%search topics, as judged from different viewpoints.
%Continuity in “intellectual base” appeared to be at a
%lower level than continuity in topics of current re-
%search, the latter both to the opinion of authors as in-
%dexers. Continuity in topics of research was particularly
%reflected in title and abstract words, and thus by au-
%thors, but perhaps a little overemphasized.
%Small &Sweeney, 1985;
%Historiographic Mapping of Knowledge Domains Literat
%braam.1.
}



Naturellement, les processus d'évolution des sciences ont également été interrogés par d'autres disciplines {\citep{boerner2009visual}} telles que la philosophie des sciences qui a fourni nombre de descriptions et d'explications plus ou moins compatibles les unes avec les autres sur les dynamiques de changements et de révisions scientifiques \citep{Kuhn-1970,mulkay1976model}, l'ethnographie à travers des études réalisées \emph{in-situ} dans l'espace du laboratoire \citep{knorr1995laboratory,lato:vie}, les sciences de gestion \citep{Bonaccorsi2008Search} ou/et par la sociologie des sciences qui a vu dans l'analyse des ``polémiques '' une méthodologie privilégiée pour comprendre les dynamiques socio-techniques complexes qui se déploient dans les communautés scientifiques exposées à un changement \citep{Pestre:2007p2294}.

Nous découpons notre analyse des dynamiques scientifiques selon les différents niveaux, microscopique, mésoscopique et macroscopique, auxquels nous appréhendons nos données.






\subsection{Dynamiques de voisinage}
\begin{figure}!h
\center
%\hspace{-2cm}
\includegraphicswidth=0.95\linewidth,trim = 0mm 25mm 10mm 0mm%,trim=0 10 0 20
]{PublicGood168.jpg}
\caption{\label{dynloc} Représentation dynamique de l'évolution du voisinage du terme ``Public Good de 1987 à 2005 pour un focus $\alpha = 1$ (base de données: \emph{systèmes complexes}). Une zone noire signifie que le terme associé n'est pas dans le voisinage de ``Public Good durant l'année considérée. Les cases les plus claires correspondent par contre aux voisins les plus proches.}
\end{figure}

Au niveau local, on peut s'interroger sur l'évolution des voisinages associés à un terme. Etant donné un seuil $s$ fixé et un terme $i$, on peut représenter l'ensemble des termes qui appartiennent au voisinage de $i$ à différentes périodes. Cette représentation offre un premier mode d'observation du glissement de sens d'un terme au cours du temps comme illustré figure \ref{dynloc}. On observe sur cet exemple que les études sur les biens publics ont été appréhendées récemment à travers des approches de type théorie des jeux. Parmi les termes émergeant dans le voisinage de ``Public Good, on trouve notamment ``heterogeneous agents ou ``procedural rationality''. Cette dynamique correspond bien aux transformations actuelles du domaine.


%\MISSING{analyse des deux exemples}





NaV\begin{figure}!htbp
NaVNaV\includegraphicswidth=\linewidth%,trim=0 10 0 20
NaV\caption{\label{dynloc} Représentation dynamique de l'évolution du voisinage du terme ``dévelopment de 1983 à 2005 pour $\alpha = 0.1$ tirée de la base de données biologie \& complexité. %Une zone noire signifie que le terme associé n'est pas dans le voisinage de ``Public Good une année donnée. Les cases les plus claires correspondent par contre aux voisins les plus proches. On observe sur cet exemple que les études sur les biens publics ont été appréhendées récemment à travers des approches de type théorie des jeux. Parmi les termes émergeant dans le voisinage de ``Public Good on trouve notamment ``heterogeneous agents ou ``procedural rationality''. Cette dynamique correspond bien aux transformations actuelles subies dans ce domaine.
NaV\end{figure}


%\subsection{dynamiques paradigmatiques}

\subsection{Dynamique d'un champ épistémique}

\ADD{Nous interrogeons maintenant la dynamique d'un champ épistémique en le considérant en isolation complète du reste du réseau. Etant donné un ensemble de termes participant à un champ épistémique à une période donnée, nous souhaitons retracer les conditions d'émergence de ce champ en visualisant l'évolution de la structure de ses termes dans la représentation bidimensionnelle que nous avons introduite précédemment (section~\ref{bidim})\footnote{Il est également possible de s'intéresser au devenir d'un champ si l'on souhaite tenter d'apprécier ses transformations ultérieures. }.
Un exemple d'une telle représentation est donné figure~\ref{dyn-unchamp}. Il représente un de nos champs épistémiques détectés dans notre base de données dédiée à la métaphore réseau en biologie sur la période 2003-2007. Ce champ est lié à la morphogenèse et au rôle des réseaux de régulation au cours de l'embryogenèse.}


\begin{figure}!ht
\begin

\newcolumntype{S}{>{\centering\arraybackslash} m{.1\linewidth} }
\begin{tabular}{ccc}\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm
{dyn-dev/_6.jpg}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{{dyn-dev/_7.jpg}}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_8.jpg}\\
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{{dyn-dev/_9.jpg}}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_10.jpg}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_11.jpg}\\

\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{{dyn-dev/_12.jpg}}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_13.jpg}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_14.jpg}\\

\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{{dyn-dev/_15.jpg}}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_16.jpg}&
\includegraphicstrim = 40mm 20mm 40mm 0mm, clip, width=4.6cm{dyn-dev/_17.jpg}\\
\end{tabular}
\caption{Evolution de la strucutre d'un champ épistémique détecté durant la période 2003-2007. Les années croient de de gauche à droite et de haut en bas (depuis la période 1970-1974) par fenêres glissante se décalant de 3 ans à chaque représentation. L'indice de spécificité $I_{s}$ est en abscisse, l'indice de généricité en ordonnées $I_{g}$. La taille d'un terme correspond à son importance dans le champ, la couleur représente son taux de croissance}
\label{dyn-unchamp}
\end

\end{figure}


\ADD{Cette évolution, qui se représente plus naturellement comme un film, permet d'apprécier la structuration progressive du champ avec l'aide des mesures \emph{d'importance} et de croissance de l'importance\footnote{L'importance mesure la somme des cooccurrences qu'un terme a avec les autres termes du champ, sa croissance correspond simplement au taux d'accroissement de cette quantité} associées à chaque terme dans le cluster couplées à la ``forme'' prise par les termes de notre champ dans notre référentiel. En effet, un champ bien structuré se caractérise par une certaine linéarité des termes dans cet espace, un terme bien ancré au sein de son champ étant vis-à-vis de ses voisins soit bien contextualisé par certains % (et donc doté d'un bon indice de spécificité vis-à-vis de certains termes)
soit un bon contexte pour les autres. % (et donc doté d'un bon indice de généricité vis-à-vis de ces termes)
La combinaison de ces deux voisinages garantit que la somme de ses indices de spécificité et de généricité est élevée. De plus cette somme est relativement stable en fonction des termes. Empiriquement, on a ainsi observé que les clusters détectés prenaient une forme caractéristique: celle de termes alignés le long d'une diagonale qui rend constant la somme des indices de spécificité et de généricité ; c'est d'ailleurs cette propriété de bon alignement que tente de traduire notre indice de pseudo-inclusion.
Nous observons donc figure~\ref{dyn-unchamp} que l'ensemble des termes s'aligne progressivement alors que l'importance de chaque terme au sein du champ croît dans les périodes qui précèdent la détection effective du cluster par nos algorithmes.
}

\ADD{Cette représentation dynamique permet également d'observer la dynamique de termes au sein de cet espace. Par exemple, le terme ``segmentation paraît très distant de l'ensemble des autres termes ($I_{s}$ et $I_{g}$ faibles) durant les premières périodes, il a de plus une très petite taille et donc une importance mineure dans la structure du champ. On peut observer son déplacement progressif et la croissance de son importance dans le cluster au fil des ans. Nous en restons au stade d'une simple observation, mais il semble possible de développer une cinématique des termes au sein de ces espaces, qui permette éventuellement d'extraire un certain nombre de régularités voire de prédiction vis-à-vis de l'évolution d'un terme. On observe la même dynamique ``d'alignement avec le reste du cluster pour les termes ``gene network et ``regulatory relationships. Le terme ``pattern'' quant à lui, bien que relativement bien situé au sein du cluster dès les premières périodes, voit son importance et sa généricité augmenter durant les années 60 et 70, ce qui traduit un usage accru du terme en biologie du développement durant cette période.}



\subsection{Vers les dynamiques macroscopiques}

%\MISSING{intégrer cette citation de \cite{Morris:2008p2177}}
%The researchers perform their work using base
%knowledge, i.e., theories, experimental data,
%techniques, validation standards, worrisome
%contradictions, controversies, and theory limitations,
%that comprise shared knowledge that is often used by
%researchers in the specialty. This definition of base
%knowledge does not address either consensus or
%proven knowledge. It is strictly limited to concepts
%that are shared and often used. Terms that are usually
%used to denote the concept of base knowledge, such
%as paradigm and consensus, are quite difficult to
%define (Kuhn, 1970; Knorr, 1975). Base knowledge
%often changes discontinuously, either, according to
%Kuhn (1970), as a paradigm shift generated by a
%crisis, or according to Mulkay (1976), as the result of
%discoveries that generate new specialties as branches
%from existing specialties.



Une première approche ``naïve du suivi des dynamiques scientifiques consisterait à mettre bout à bout l'ensemble des cartes macroscopiques obtenues à des périodes successives. Une analyse de ce type (schématisée figure \ref{paysaged}) n'est informative que du point de vue de la structuration globale du domaine. Observe-t-on une augmentation ou une diminution du nombre total de champ ? Est-ce que la cohésion de l'ensemble des champs a tendance à augmenter ou à diminuer ? La comparaison des cartes obtenues à différentes périodes nécessite donc un travail d'interprétation de la part de ``l'utilisateur. Dans le cas présent, ces cartes ont été annotées et interprétées par deux sociologues et historiens des sciences (Jean-Paul Gaudillière et Christophe Bonneuil), sous la forme d'ensembles de champs épistémiques regroupés au sein de domaines plus larges, se répétant ou non d'une période à l'autre. La délimitation et la labellisation de ces domaines est le résultat d'une analyse plus fine et ``manuelle'' des champs épistémiques qui les constituent.

%• La diffusion du nouveau discours : l’effet dissémination de 2004-2007; un
%signe d’extension de la problématique : le cluster cancer





L'analyse des cartes réalisées sur 4 périodes courant de 1976 à 2007 à ainsi permis de révéler les traits saillants suivants dans l'évolution des travaux autour de la notion de réseau et de complexité en biologie.
%• Les évolutions des réseaux « pré-génomique » : 1976-1990 versus 1999-2003
%= continuité sans intégration (cluster immunologie, réseaux neuronaux) ;
%intégration avec changement de sens (clusters « régulation de l’expression »,
%« feedback », « kinase et phosphorylation »)
On voit notamment émerger de fa\c con très nette à compter de la période 1999-2003 la confirmation d'un discours réseau, centré sur les aspects instrumentaux de la génomique qui se traduit par l'apparition de clusters autour des termes \emph{micro-array \& expression}, ou \emph{protein-protein interactions \& data bank}. Ces clusters remplacent les champs caractéristiques de l'ère pré-génomique dont les rapports aux réseaux sont plus incidents. Avant cette période, on constate également une forme de continuité du vocabulaire réseau sans réelle intégration des approches contemporaines de l'analyse des grands réseaux d'interaction dans les clusters liés à l'immunologie, ou aux réseaux neuronaux ;
et des intégrations mais avec changement de sens dans les clusters liés à ``expression regulation, ``feedback ou ``kinase \& phosphorylation''.


La percée des approches réseau en biologie semble donc reposer fondamentalement sur des bases matérielles (expérimentale et bio-informatique) issues notamment de la biologie à haut débit. % Au centre, les champs 164-169-177 correspondent ainsi à l'analyse de profils d'expression des gènes (puces à ADN et ARN=microarray), tandis que plus bas les champs 135-139-15
Ces cartes révèlent également que les aspects plus théoriques liés aux réseaux en terme d'architecture du vivant ne commencent à se constituer en un champ de recherche à part entière que plus tardivement, essentiellement après 2002 (vocabulaire autour de l'architecture, la modélisation, les propriétés de connectivité ou de robustesse des réseaux) - à la suite de la multiplication des études sur les grands réseaux d'interactions en physique (popularisation des notions de ``scale-free, ``small-world, etc. à partir de 1999-2000). Le discours réseau, se généralisant et s'affirmant autour de 2000, on assiste maintenant à sa diffusion vers d'autres champs de la biologie auxquels il n'était pas traditionnellement lié. Par exemple, un \emph{effet de dissémination} est visible lorsqu'on examine l'amas de clusters portant sur le cancer apparaissant sur la période 2004-2007 qui est fortement lié aux approches réseaux d'interaction et données d'expressions génétiques à haut débit.





NaV\FTR{La carte figure \ref{paysage} fait par exemple clairement apparaître un noyau central en rouge foncé (taux de croissance du champ supérieur à 100\% par rapport à la période antérieure) qui correspond à des outils et techniques d'analyse. %Cette position de c\oe ur montre que la percée récente de l'approche réseau repose essentiellement sur la base matérielle de la biologie à haut-débit (expérimentale et bio-informatique). Au centre, les champs 117-147-164-169-177 réunissent les analyses de profils d'expression des gènes(microarray, puces à ADN et ARN) et dans une position plus périphérique un peu plus bas, les champs 135-139-158 correspondent aux données de réseaux d'interactions protéiniques, et à l'annotation de bases génomiques.
%Cette position centrale dans la période la plus récente illustre le rôle
%%On voit par exemple clairement apparaître sur la carte de la dernière période
% prépondérant des outils et instruments dans l'analyse de réseau tendant à confirmer que la percée récente de l'approche réseau repose fondamentalement sur des bases matérielles (expérimentale et bio-informatique) issues de la biologie à haut débit. Au centre, les champs 164-169-177 correspondent ainsi à l'analyse de profils d'expression des gènes (puces à ADN et ARN=microarray), tandis que plus bas les champs 135-139-158 sont liés aux données d'interactions protéines et annotations de bases génomiques.
% Les aspects écologie/évolution (en haut à gauche) ne sont encore connectés que de façon superficielle au coeur instrumental dur, même si on peu observer l'émergence de communautés absentes des périodes précédentes (118: evolvability, 113: gene regulatory network/evolution, 69: evolution/scale-free, voire 85: variance/simulation...) qui font le lien entre la communauté instrumentale centrale et les communautés plus classiques de l'évolution et du développement. On retrouve également des approches nouvelles dans les outils théoriques mis en oeuvre ( en bas à gauche, champs 35, 143 et 144 réseaux de neurones artificiels, SVM, algorithme génétique...). Les approches écosystémiques sont également très actives, et voient leur composition évoluer (champs 77, 112: présence de réseaux trophiques).}




%L’émergence d’un discours sur les réseaux confirmée : la convergence de
%1999-2003 produit des dynamiques instrumentales de la génomique = clusters
%‘micro-arrays et expression’, ‘interactions protéine-protéine et banques de
%données’
%• Une apparition tardive du vocabulaire sur l’architecture, la modélisation, les
%propriétés de connectivité et de robustesse : ex. « scale free » après 2002
%• Les évolutions des réseaux « pré-génomique » : 1976-1990 versus 1999-2003
%= continuité sans intégration (cluster immunologie, réseaux neuronaux) ;
%intégration avec changement de sens (clusters « régulation de l’expression »,
%« feedback », « kinase et phosphorylation »)
%• Un vecteur d’entrée privilégié : la régulation du développement = histoire des
%voisinages du terme


\begin{figure}t
\begin

\newcolumntype{S}{>{\centering\arraybackslash} m{.1\linewidth} }
\begin{tabular}{cc}
\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
]{carto/1976-1990.pdf}&
\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
]{carto/1991-1998.pdf}\\
%\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2002.pdf}\\
{1976-1990}&1991-1998\\
\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
]{carto/1999-2003.pdf}&
\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
]{carto/2004-2007.pdf}\\
%\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2002.pdf}\\
{1999-2003}&2004-2007\\
% $\mathcal{T}_1$&
% \includegraphicswidth=\linewidth,height=4cm{ER.pdf}&
% NaV \includegraphicswidth=\linewidth,height=4cm{REshu.pdf}\\
% $\mathcal{T}_2$&
NaVNaV\includegraphicswidth=\linewidth,height=4cm{REshu_normalized.pdf}
NaV\textbf{RE-event}&\includegraphicswidth=\linewidth,height=4cm{REevent.pdf}&
NaV\textbf{RE}&\includegraphicswidth=\linewidth,height=4cm{RE.pdf}&
%\includegraphicswidth=\linewidth,height=4cm{RE_normalized.pdf}\\
\end{tabular}
\caption{\label{paysaged} Evolution de la structuration des champs de notre jeu de données \emph{biologie \& réseaux} sur quatre périodes: 1976-1990 ; 1991-1998 ; 1999-2002 ; 2003-2007. (la couleur des champs correspond à leur croissance d'activité, leur taille à leur activité (échelle logarithmique))}
\end

\end{figure}

\ADD{ Cette méthode d'analyse requière néanmoins un investissement coûteux puisqu'il est nécessaire d'explorer en profondeur le contenu détaillé des champs détectés à chaque période. Les n\oe uds figurant les champs dans chaque carte sont\emph{ a priori} différents entre deux périodes successives, et il semble délicat de juger de la transformation de la structure globale d'un réseau dont les n\oe uds sont eux-mêmes modifiés à chaque pas de temps.}
Notre objectif est donc d'accompagner le travail d'interprétation des cartes en fournissant une procédure de détermination des dynamiques scientifiques au niveau mésoscopique, c'est à dire directement liées aux mutations subies par les champs épistémiques.
L'observation des changements dans les associations de mots-clés qui modifient la nature de nos champs épistémiques constitue sans doute un niveau d'analyse pertinent pour observer les dynamiques de l'activité scientifique.
L'évolution de ces ensembles de termes permettent en effet de retracer les processus, parfois discontinues \citep{Kuhn-1970, mulkay1976model}, de fertilisation croisée entre champs, la circulation de concepts à travers les domaines, ou encore les augmentations et diminution d'activité propres à un champ. Nous appelons \emph{méso-dynamique} les transformations qui affectent les champs épistémiques. La reconstruction de ces méso-dynamiques revient en fait à spécifier la fonction déterminant les ``relations de parenté intellectuelle'' entre les champs épistémiques obtenus entre deux périodes successives.% equivalent to find a matching function between clusters of science maps between successive periods of time.



NaVThis definition of base
%knowledge does not address either consensus or
%proven knowledge. It is strictly limited to concepts
%that are shared and often used. Terms that are usually
%used to denote the concept of base knowledge, such
%as paradigm and consensus, are quite difficult to
%define (Kuhn, 1970; Knorr, 1975). Base knowledge
%often changes discontinuously, either, according to
%Kuhn (1970), as a paradigm shift generated by a
%crisis, or according to Mulkay (1976), as the result of
%discoveries that generate new specialties as branches
%from existing specialties.
NaV

%\footnote{The variety
%of knowledge
%produced
%and its capacity
%to shake up networks
%made irreversible
%by the market will depend on the composition of these
%collectives. We could get an idea of the multiplicity
%of possible dynamics
%by
%looking at two opposing
%extremes.
%In the first case, the large
%networks
%present
%in the collectives via their interposed intermediaries
%are already in close
%contact and linked to each other. The local collective does some minor
%reconfiguration
%work, but this will not shake up existing connections. A bit
%of patchwork
%has to be done-a few stitches resewn-but the fabric itself is
%not greatly changed.
%The current
%state of play is consolidated.
%In the second
%case, the large networks
%present via their interposed
%intermediaries
%are not
%yet connected. In this case, the local collective is in a position to propose
%some very original, innovative reconfigurations
%linking together networks
%that had been separate.
%This leads to the proliferation
%of new states of the
%world.
%The variety
%of knowledge
%produced
%and its capacity
%to shake up networks
%made irreversible
%by the market will depend on the composition of these
%collectives. We could get an idea of the multiplicity
%of possible dynamics
%by
%looking at two opposing
%extremes.
%In the first case, the large
%networks
%present
%in the collectives via their interposed intermediaries
%are already in close
%contact and linked to each other. The local collective does some minor
%reconfiguration
%work, but this will not shake up existing connections. A bit
%of patchwork
%has to be done-a few stitches resewn-but the fabric itself is
%not greatly changed.
%The current
%state of play is consolidated.
%In the second
%case, the large networks
%present via their interposed
%intermediaries
%are not
%yet connected. In this case, the local collective is in a position to propose
%some very original, innovative reconfigurations
%linking together networks
%that had been separate.
%This leads to the proliferation
%of new states of the
%world.
%The variety
%of knowledge
%produced
%and its capacity
%to shake up networks
%made irreversible
%by the market will depend on the composition of these
%collectives. We could get an idea of the multiplicity
%of possible dynamics
%by
%looking at two opposing
%extremes.
%In the first case, the large
%networks
%present
%in the collectives via their interposed intermediaries
%are already in close
%contact and linked to each other. The local collective does some minor
%reconfiguration
%work, but this will not shake up existing connections. A bit
%of patchwork
%has to be done-a few stitches resewn-but the fabric itself is
%not greatly changed.
%The current
%state of play is consolidated.
%In the second
%case, the large networks
%present via their interposed
%intermediaries
%are not
%yet connected. In this case, the local collective is in a position to propose
%some very original, innovative reconfigurations
%linking together networks
%that had been separate.
%This leads to the proliferation
%of new states of the
%world. }
\cite{Callon:1994p2642} oppose deux dynamiques extrêmes des dynamiques des collectifs ``locaux qui animent l'évolution des sciences. Il distingue d'un côté des dynamiques \emph{conservatives} qui ``consolident un état des choses formées par ``des collectifs locaux qui opèrent des reconfigurations mineures sans bouleverser les connections existantes\footnote{``The local collective does some minor
reconfiguration
work, but this will not shake up existing connections. \citep{Callon:1994p2642}}, à des dynamiques de ``prolifération de nouveaux états du monde, qui se caractérisent par l'émergence de ``collectifs locaux à même de proposer des reconfigurations très originales et innovantes de réseaux non connectés jusqu'à lors''\footnote{``the local collective is in a position to propose
some very original, innovative reconfigurations
linking together networks
that had been separate.
This leads to the proliferation
of new states of the
world. '' \emph{ibid}, p. 415}.

Dans notre perspective, nous n'envisageons les dynamiques des champs que comme la transformation des ensembles de ``concepts, censés refléter les ``connaissances de bases \citep{Morris:2008p2177} partagées par les participants d'un champ épistémique. Nous n'intégrons pas dans notre analyse la même richesse descriptive que celle que \citep{Callon:1994p2642} accorde aux collectifs locaux ; nous pouvons néanmoins nous en inspirer pour tâcher de retracer les conséquences de ces transformations en termes de dynamiques de nos champs.

La composition d'un champ scientifique peut en effet être soumise à un certain nombre de transformations qui en modifieront les frontières et la forme. Le répertoire de ces dynamiques comprend les événements potentiels suivants. Un champ peut \emph{croître} en acquérant de nouveau concepts, ou bien \emph{décroître} s'il en perd. Les deux versions extrêmes de ces cas de figure correspondent à une \emph{naissance} \emph{ex-nihilo} ou à la \emph{disparition} du champ. Un champ peut également \emph{fusionner} avec d'autre champs pour former un un nouveau champ épistémique ou encore se \emph{diviser} en plusieurs sous-champs.


% \begin{figure}!htbp
%\centerline{\includegraphicswidth= 8cm,height=5.5cm{imagepalla.pdf}}
%\caption{Représentation schématique du répertoire d'événements dynamiques liant des champs entre deux pas de temps successifs. Dans notre cas, les événements de fusion et de scission peuvent naturellement affecter un nombre plus important de clusters et même être combinés. %On distingue à la période $t1$, les champs $A$ (en bleu) et $B$ (en orange) puis à la période suivante: les champs $C$ (en vert) et $D$ (en rouge)
%figure extraite de \cite{Palla:2007p1978}. }\label{intertemppalla}
NaV%De façon symétrique un champ considéré à un moment donné peut naître ex-nihilo, ou ``descendre'' d'un champ antérieur (croissance, décroissance ou événenement de scission) ou de champs antérieurs (fusion).

% The answer to this problem is far from straightforward. A scientific field, represented by a cluster $C$ at a given period of time, can undertake several kinds of transformation in its composition that will entails a different representation in the next periods: it can gain new concepts, loose others, merge with an other field, split or die. Consequently, two successive maps can have very different sets of scientific fields. However, even if scientific fields were all different between two periods, they could nevertheless share some terms and potentially share a common scientific background. A scientific field can have several ``offsprings'' in the next period and its conceptual legacy may come from several domains of investigation from the previous period.



%C'est pourquoi nous proposons une méthode de reconstruction des
% In this paper we will address the question of science dynamics. One of the most essential feature of science evolution is the way new associations between terms are performed and how these new associations change composition of scientific fields. These changes in the use of terms are the main visible evidences of shifts in scientific activity. Sets of terms are the adequate level to study cross-fertilization of different fields of science, circulation of concepts through domains, bursts of activity in a given branch, and so on. They are widely used by scientists, to define with few keywords, their research, a journal topics or a conference scope. We will call the dynamics of science studied at the level of sets of terms the \textit{meso-dynamics} of science. Reconstructing these meso-dynamics is equivalent to find a matching function between clusters of science maps between successive periods of time.

% The answer to this problem is far from straightforward. A scientific field, represented by a cluster $C$ at a given period of time, can undertake several kinds of transformations in its composition that will entails a different representation in the next periods: it can grow, shrink, merge with an other field, split or die. Consequently, two successive maps can have very different sets of scientific fields. Scientific fields can all be different but nevertheless share some terms and potentially share a same scientific background. A scientific field can have several ``offsprings'' at the next period and its conceptual legacy can come from several domains of investigation from the previous period. The reconstruction of these inheritance patterns will be very useful to get a global overview of the activity and evolution of large scientific domains.

\subsection{Reconstruction de la phylogénie des sciences}

En nous adonnant à la métaphore biologique, nous pouvons faire un parallèle entre la dynamique des champs épistémiques et l'évolution des espèces.
En biologie, un arbre phylogénétique représente l'histoire évolutive des espèces et des organismes. Une large gamme de méthodes est utilisée pour reconstruire les relations phylogénétiques entre entités \citep{Nei:1996p2205}, ces méthodes s'appuient, généralement, sur la comparaison de séquences génétiques. Une méthode classique consiste à faire appel à des algorithmes de clustering basés sur des mesures de distances génétiques entre espèces (\emph{Fitch-Margoliash} par exemple). D'autres méthodes comme le \emph{maximum de vraisemblance} ou \emph{l'inférence bayésienne} s'appuient sur des hypothèses évolutives spécifiques (principe de parcimonie par exemple) afin d'inférer l'arbre le plus vraisemblable \citep{Huelsenbeck:1997p2204}.


Ces méthodes de reconstruction d'arbres ont été critiquées comme limitées voire inadaptées lorsqu'on souhaite intégrer la possibilité de dynamiques plus réticulées comme des recombinaisons génétiques, ou des transferts de gènes horizontaux. Confronté à ces épisodes d'hybridation, il est nécessaire de passer d'une modélisation des liens de parenté par des \emph{arbres phylogénétiques} à une modélisation par des \emph{réseaux phylogénétiques}.
%More importantly for our study, these methods of phylogenetic tree reconstruction have been coined as too limited when considering complications such as a reticulate evolutionary history featuring horizontal gene transfers or genetic recombinations. When confronted to these hybridization events, one need to switch from phylogenetic trees to \textit{phylogenetic networks}.

Contrairement aux biologistes qui peuvent avoir accès à un certain nombre de connaissances sur les mécanismes microscopiques qui sous-tendent le processus évolutif (taux de mutation de certains gènes, mesures de pression de sélection, etc.) nous devons adopter une perspective agnostique et ignorer les mécanismes susceptibles de guider l'évolution des sciences\footnote{Même si certains auteurs ont soutenu que les changements conceptuels en science pouvaient être guidés par des principes similaires à ceux qui s'exercent sur les systèmes biologiques \citep{hull2001sas}}.
Nous pouvons néanmoins supposer que l'évolution des sciences est animée ``d'événements d'hybridation''. Les lignages conceptuels ne progressent sans doute pas linéairement, la fertilisation croisées de champs parfois distants est fréquente, et il serait naïf de supposer que l'évolution des sciences puisse être représentée comme un arbre dont les branches s'étendraient infiniment sans jamais se croiser. %Il semblerait plus correct de parler de l'évolution des science non pas comme un arbre qui pousse, mais comme d'une forêt qui se développe, les chênes d'antan abritant la croissance de jeunes pousses, avant que ces jeunes pousses ne privent les racines de ces derniers de ressources, etc.

% comme si la croissance du degré de spécialisation des champs se spécialisaient sans plus .% simple dont les branches s'épaissiraient progressivement vers des spécialités toujours plus pointues et isolées les unes des autres.
NaVContrary to biologists who may have some prior knowledge about mutation rates of certain genes, we will take an agnostic perspective and will ignore any possible mechanisms or organizing principles guiding science evolution, even if some authors have suggested that conceptual change in science could be lead by similar evolutionary mechanisms than acts for biological systems\cite{hull2001sas}. We will thus rely on simpler methods like distance matrix methods.
%We can also expect from science evolution to be populated with many ``hybridization events''. Science lineage is not progressing linearly, cross-fertilization of domains is common place, and it would be misleading to give a idealized picture of science made of a simple tree continuously growing into finer and finer specialities.

En l'absence d'un principe de parcimonie, qui permettrait par exemple de fournir un critère global à minimiser (tel que le nombre de mutations nécessaires) pour reconstruire les relations de parenté, nous adopterons une approche purement locale.
La reconstruction du réseau phylogénétique des sciences revient alors à répondre à la question suivante: étant donné à un moment $t$ un champ épistémique $C
{t}$, de quels champs à la période précédente, $C
{t}$ hérite-t-il conceptuellement?
NaVDOU{Malheureusement rien ne permet\emph{ a priori} de décrire une dynamique fine sur les champs paradigmatiques eux-mêmes. Pour ce faire il faudrait être capable, à la manière de notre \oe il qui identifie des structures remarquables et est capable d'en prédire les déformation et les mouvements, d'identifier de manière non ambiguë la façon dont un champ paradigmatique à un moment donné se transforme en un autre champ à un moment ultérieur \cite{Wang:2008p1958,Palla:2007p229}.} %Cette problématique revient à postuler une forme de stabilité relative entre deux périodes de temps succesives, stabilité qu'il faut alors définir et quantifier.

%\DOU{\textbf{Dynamics: } The proposed methodology capitalises on the availability of diachronic data to reconstruct the phylogeny of scientific fields, and takes into account multiple filiations, contrary to what could have been done in other related fields like social group evolution \cite{Palla:2007p229} or }\




%Since we have no global objective function that we could optimize, we cannot rely on a parsimony principle like minimizing the number of mutations. We have to adopt a local approach. Reconstructing the phylogenetic network of science can then be construed to answering this simple question: given a scientific field $C
t$NaV at time $t$ and an ``homology'' matrix $\mathcal{H}(t)$ between the set of fields at two consecutive time: $t-1$ and $t$, from which fields at time $t-1$ $C
t$
%derives its conceptual legacy ?


%

NaVNaV%\includegraphicswidth=1.05\linewidth, height=2.9cm%,trim=0 10 0 20
%NaV\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
NaV\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
NaV\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
NaV\includegraphicswidth=0.49\linewidth%,trim=0 10 0 20
%]{carto/2004-2007.pdf}

NaV\caption{\label{paysaged} Evolution de la structuration des champs de la biologie \& réseaux sur cinq périodes: 1950-1975 ; 1976-1990 ; 1991-1998 ; 1999-2002 ; 2003-2007 .}
%\end{figure}






NaV\FTR{ The reconstruction of these inheritance patterns will be very useful to get a global overview of the activity and evolution of large scientific domains. Moreover, contrary to what is often encountered in biology, we should expect some hybridization events between fields of research, which requires switching from phylogenetic trees to \textit{phylogenetic networks}. Reconstructing the phylogenetic network of science consists in answering this simple question: given a scientific field $C
{T'}$ at period $T'$ and a period $T$ prior to $T'$, from which fields at $T$ does $C
{T'}$ derives its conceptual legacy?}

\subsubsection{Méthode de reconstruction des lignages entre champs épistémiques}

Pour réussir cet appariement inter-temporel entre champs, nous devons trouver pour chaque champ $C
{t}$ à $t$, le ou les champs dont il hérite. Nous faisons l'hypothèse que l'échelle de temps de transformation des champs est suffisamment lente pour nous permettre d'en suivre la dynamique à l'aide d'une simple mesure de similarité entre champs calculée entre deux périodes successives (l'échelle de temps étant l'année). \ADD{Nous nous appuyons donc sur un principe de continuité de la composition des champs qui n'est pas sans rappeler celui proposé par \cite{Simmel:1898p1980} pour suivre la ``persistence'' des groupes sociaux}. Nous cherchons ainsi à identifier le champ ou la combinaison de champs à $t-1$ (puisque nous souhaitons intégrer la possibilité d'événements de fusion) qui sont les plus semblables et donc le plus probablement parents de $C
{t}$.
Plus formellement, étant donné $C_i
{t}\in\mathcal{C}
{t}$, nous créons un lien de parenté dans le réseau phylogénétique entre $C_i
{t}$ et le sous-ensemble des champs de la période précédente $\Phi
{t}(C
{t}_i) %$\Phi_i
{t}
\in \mathcal{P}(\mathcal{C}
{t-1})$ (pour rappel $\mathcal{C}
{t-1}= \{{C}_{k}
{t-1}\}_{k\in K
{t-1}}$ où $K
{t-1}$ désigne l'index de l'ensemble des champs à $t-1$) vérifiant:
%$$ \Phi
{t}(C
{t}_i) = \{C_{j}
{t-1} \}_{j \in \displaystyle \kappa
t_{i}} \text{ que } \kappa
t_{i} =\displaystyle \argmax_{\kappa \subset K
{t-1}} d\big( C
{t}_i , {\displaystyle \bigcup_{k \in \kappa} C
{t-1}_k}\big) \text{ ssi } d\big( C
{t}_i , {\displaystyle \bigcup_{k \in \kappa_{i}
{t}} C
{t-1}_k}\big) > d_{0}$$

$$ \Phi
{t}(C
{t}_i) = \left\{ \begin{array}{ll}
\{C_{j}
{t-1} \}_{j \in \displaystyle \kappa
t_{i}} \text{ , } \kappa
t_{i} =\displaystyle \argmin_{\kappa \subset K
{t-1}} d\big( C
{t}_i , {\displaystyle \bigcup_{k \in \kappa} C
{t-1}_k}\big) & \mbox{si $\displaystyle d\big( C
{t}_i , {\displaystyle \bigcup_{k \in \kappa_{i}
{t}} C
{t-1}_k}\big) < d_{0}$};\\
\emptyset & sinon.\end{array} \right. $$


Il semblerait abusif de faire se correspondre deux ensembles de champs trop distants l'un de l'autre, même en l'absence d'un meilleur appariement. Nous définissons donc un seuil $d_0$ de distance entre clusters inter-temporels au-dessous duquel nous considérerons l'appariement comme satisfaisant. %Nous noterons $d_0$ ce seuil.
Comme nous le verrons il existe un large intervalle de valeurs pour lesquelles ce seuil ne modifie pas de façon critique les motifs apparaissant au sein du lignage.


Une fa\c con simple de choisir une distance $d$ est d'opter pour la distance de Jaccard qui mesure le ratio: nombre de termes non-recouvrants entre deux champs divisé par le cardinal de l'union des champs. Cette mesure est également l'inverse de ``l'indice de transformation'' introduit par \cite{callon91coword} dans une perspective identique. \ADD{\cite{Palla:2007p1978} ont proposé une méthode de reconstruction de l'évolution des groupes sociaux (basée sur l'analyse d'un réseau de contact téléphonique) en s'appuyant sur une même mesure de distance entre clusters inter-temporels ; néanmoins leur méthode est distincte de la nôtre au sens où les lignages qu'elle construit sont limités à des chaînes purement linéaires (\ie le degré entrant et sortant d'un cluster à un moment donné vaut au plus $1$). Notre méthode en autorisant une plus grande variété de dynamiques (et notamment un degré sortant et entrant dans le réseau phylogénétique non limité) permet la construction de structures plus riches}. \ADD{D'autres auteurs ont proposé des indices de stabilité des domaines de spécialité, obtenus avec des analyse de type co-citation, en s'appuyant sur une mesure de similarité entre clusters de type cosinus \citep{braam.1}, ou sur d'autres types de mesure similaires \citep{Hopcroft:2004p2019}.} \DOU{ alluvial diagram de \citep{Rosvall:2008p2206}} Dans le cadre de la reconstruction des filiations entre champs épistémiques, nous considérons que la stabilité des ensembles de termes régulièrement appariés constitue un bon critère de continuité entre champs. Avec une telle mesure, on obtient alors la définition suivante (en posant $\delta_{0} = 1-d_{0}$)
:
%$$ \Phi
{t}(C
{t}_i) = \{C_{j}
{t-1} \}_{j \in \displaystyle\kappa
t_{i}} \text{ tel que } \kappa
t_{i} = \displaystyle \argmax_{\kappa \subset K
{t-1}} \frac{ C
{t}_i \bigcap {\big ( \displaystyle \cup_{k \in \kappa} C
{t-1}_k}\big)}{ { C
{t}_i \bigcup \big ( \displaystyle \cup_{k \in \kappa} C
{t-1}_k}\big) }$$

$$ \Phi
{t}(C
{t}_i) = \left\{ \begin{array}{ll}
\{C_{j}
{t-1} \}_{j \in \displaystyle \kappa
t_{i}} \text{ , } \kappa
t_{i} =\displaystyle \displaystyle \argmax_{\kappa \subset K
{t-1}} \frac{\big | C
{t}_i \bigcap {\big ( \displaystyle \bigcup_{k \in \kappa} C
{t-1}_k}\big)|}{ \big | { C
{t}_i \bigcup \big ( \displaystyle \bigcup_{k \in \kappa} C
{t-1}_k}\big) \big | }& \mbox{si $\displaystyle \frac{\big | C
{t}_i \bigcap {\big ( \displaystyle \bigcup_{k \in \kappa_{i}
t} C
{t-1}_k}\big)|}{ {\big | C
{t}_i \bigcup \big ( \displaystyle \bigcup_{k \in \kappa_{i}
t} C
{t-1}_k}\big) \big |} >\delta_{0}$};\\
\emptyset & sinon.\end{array} \right. $$

%\FTR{To achieve inter-temporal matching between fields, we have to find for each field at $T$ the field or union of fields from which it inherits. We assume that the time scale of the evolution scientific fields is slow enough to allow simple similarity measures between two close periods to track the meso-dynamics of a given field. We thus seek to find the field \emph{or} combination of fields that are most similar and therefore the most likely matchable. One of the most straightforward measure is a Jaccard similarity measure\footnote{This function is the inverse of the ``transformation index'' introduced for similar purposes by Callon in \cite{callon91coword}} on fields terms, thereafter denoted $d$. Given two fields $C_1$ and $C_2$, $d(C_1,C_2)=\frac{| C_1 \cap C_2 |}{| C_1 \cup C_2 |} $. $d$ can be interpreted in terms of the probability that a term belonging to $C_1 \cup C_2 $ also belong to $C_1 \cap C_2$. This is simply a measure of the overlap between $C_1$ and $C_2$.}
NaV\FTR{Given a conceptual field $C_l
{T'}\in\{C_b
{T'}\}_{b \in B}$ at time $T'$, we propose to perform inter-temporal matching by choosing its ``fathers'' $\Phi_l
{T'}$ among the set of paradigmatic fields of the previous period $\{C_a
T\}_{a \in A}$ as: $$ \Phi
{T'}(C_l) = argmax_{K \subset A} {\bigcup_{k \in K} C
{T}_k ,C
{T'}_l }?$$}

%\FTR{With the Jaccard similarity measure we can write:
%$$ \Phi
{T'}(C_l) = argmax_{K \subset A}\frac{|(\cup_{k \in K} \mathcal{C}
{T}_k ) \bigcap C
{T'}_l |}{| (\cup_{k \in K} C
{T}_k ) \bigcup C
{T'}_l |}$$}



NaVNous proposons une procédure simple pour réaliser cet appariement inter-temporel entre clusters. L'argument de départ est simple. Etant donné un champ au temps $t+1$, on cherche à détecter le champ ou les combinaisons de champs dont il ``descend en se basant sur un critère de ressemblance. Nous définissons donc un critère simple sur l'ensemble des pères possibles d'un champ $C
{t+1}_i$ au temps $t$. Les champs ``pères de $C
{t+1}_i$ sont définis comme l'ensemble $\mathcal{F}
{t+1}_i$ des champs épistémiques calculés à la période précédente ($t$) qui sont les plus semblables au champs fils $C
{t+1}_i$.

NaVPar mesure de simplicité on choisit une distance de Jaccard classique pour mesurer cette similarité. Ainsi on définit l'ensemble des fils du champ $i$ au temps $t+1$ comme:
%$$ \mathcal{F}
{t+1}_i = \displaystyle \argmax_{K \in \mathcal{P}(C
t)}\frac{|C
{t+1}_i \bigcap (\cup_{j \in K} C
{t}_j )|}{|C
{t+1}_i \bigcup (\cup_{j \in K} C
{t}_j )|}$$


La procédure d'identification est illustrée figure \ref{intertemp}. Etant donnés deux champs $A$ et $B$ à une période $t$, on détecte à un moment ultérieur $t+1$, deux autres champs $C$ et $D$ (qui partagent un terme en commun). La question est donc de savoir de quels champs descendent le plus vraisemblablement les champs $C$ et $D$.


\begin{figure}!htbp
\centerline{\includegraphicswidth= 5cm{figure1color.pdf}}
\caption{Exemple d'évolution de deux champs entre deux pas de temps successifs basé sur \citep{Palla:2007p1978}. On distingue à la période $t$, les champs $A$ (en bleu) et $B$ (en orange) puis à la période suivante: les champs $C$ (en vert) et $D$ (en rouge) }\label{intertemp}
\end{figure}

Compte tenu de notre contrainte de continuité, on voit immédiatement que la communauté $C$ descend directement de la communauté $A$, même si deux noeuds ont disparu, tandis qu'un autre a été ajouté, la distance entre les champs $A$ et $C$ vaut: $d(A,C)=1-\frac{2}{5}$ et constitue la meilleure correspondance possible. En ce qui concerne $D$, l'appariement optimal est un peu moins évident. Si nous calculons pour chacun des cas possibles (le champ $D$ peut descendre de $A$, $B$ ou de $A\cup B$) les ratios correspondants: $d(A,D) = 1- \frac{2}{8}$, $d(B,D)=1- \frac{3}{6}$ et enfin $d(A \cup B,D)=1-\frac{5}{7}$, on constate que la meilleure
correspondance possible pour le champ $D$ est donc offerte par $A \cup B$. Si $d_{0}>\frac{5}{7}$ (ou de fa\c con équivalente si $\delta_{0}<1-\frac{5}{7}$), on considérera alors que $D$ est un produit de la la fusion des champs $A$ et $B$.
%Le seuil $d_{0}$ permet de filtrer les filiations pertinentes en fonction du degré de similarité entre parents et fils. La valeur pratique choisie pour ce paramètre sera discuté par la suite.






% Figure 1. illustrates the matching procedure. We plotted two successive sub-networks with the same set of nodes between two time steps. The two successive period present distinct cluster sets : $i$ and $j$ at time $t$ and $C$ and $D$ at time $t+1$. Note that one node belongs to two different clusters at time $t+1$. The aim is to determine from which fields or union of fields $C$ and $D$ may be descending. It is straightforward to check that field $i$ is the closest to cluster $C$ (\emph{i.e.} $\Phi
{t+1}(C) = A$). Even if two nodes were removed from $i$while one node was added, the similarity between $i$ and $C$ ($d(A,C)=\frac{2}{5}$) is still the best possible and offers the best matching. The case of $D$ is more delicate since three cases are possible: $D$ may inherit from $i$, $j$ or $A\cup B$. Computing the distances according to each cases we get: $d(D,A) = \frac{2}{8}$, $d(D,B)=\frac{3}{6}$ and finally $d(D,A \cup B)=\frac{5}{7}$. We will thus conclude that $D$ most likely inherits from the merging of the two preceding fields $i$ and $j$ and thus conclude that $\Phi
{t+1}(D) = A\cup B$.

NaV\begin{figure}!htbp
NaVNaV\includegraphicswidth=8cm, height=6cm%,trim=0 10 0 20
NaV\caption{ Comparaison inter-temporelle de motifs.}
% \end{figure}


NaVSince it would seem incorrect to match two fields that have very few terms in common even though no better matching is possible, we need to define a threshold above which the matching is satisfying. We shall call this threshold $d_0$. One can tune this threshold requiring a minimum amount of similarity. As we shall see, activity patterns in the phylogeny (areas of activity burst, areas with emergent fields, branches death, etc.) are robust to variations of $d_0$ provided that $d_0$ does not get too close from 0 or 1.

\subsubsection{Exemples de phylogénies}




%\marginpar{sans doute à enlever}
Pour reconstruire la phylogénie d'un domaine, nous calculons pour l'ensemble des champs épistémiques à une période donnée, l'ensemble de leurs antécédents grâce à la formule décrite ci-dessus. L'ensemble des relations de filiation peuvent être réunies au sein d'un graphe dirigé acyclique formant ce que nous appelons la phylogénie du domaine. Ce graphe peut alors être représenté à l'aide d'un logiciel de représentation de réseau (nous avons choisi Graphviz\footnote{\href{http://www.graphviz.org/}{http://www.graphviz.org/}}, logiciel spécialisé dans la représentation d'arbre, qui minimise le nombre de croisements entre branches). La figure \ref{figurephylo} fournit un exemple de phylogénie calculée sur notre base de données \emph{biologie \& réseau} retra\c cant la dynamique des champs entre 1994 et 2007. % L'ensemble des champs contenant le terme \textit{network} a été colorié en rouge. La polysémie du terme apparaît ici clairement.
Il nous a été impossible de représenter l'ensemble de la phylogénie tout en rendant son contenu lisible, on peut néanmoins observer, sur cette représentation, la diversité des motifs de parenté existants. Certaines branches paraissent très linéaires, d'autres donnent lieu à un certain foisonnement avec de nombreux événements d'hybridation (un champ épistémique descendant de plusieurs communautés) et de diversification (une branche est à l'origine de plusieurs sous-branches).

\begin{figure}!ht
%\centerline{\includegraphicswidth=8.7cm{figure4.pdf}}
\centerline{\includegraphicswidth=1\linewidth{carto/extrait-phylo3.pdf}}
\caption{Extrait de la phylogénie des champs épistémiques liés aux approches \emph{biologie \& réseau} %(cette phylogénie regroupe environ $1400$ clusters)
de 1994 à 2007. Nous avons uniquement sélectionné les champs constitués de quatre termes ou plus. %, et dont la qualité empirique était au-dessus d'un seuil fixé.
Chaque ligne de la phylogénie correspond aux champs détectées sur une fenêtre de deux ans. On fait ensuite glisser cette fenêtre d'année en année (de ligne en ligne) pour remonter la phylogénie vers le passé (de bas en haut).
Cette phylogénie est tronquée, pour des raisons de présentation. Les liens de parenté entre champs sont colorés soit en rouge en cas de croissance (gain net de concepts) soit en bleu en cas de décroissance (perte nette de concepts) en noir sinon. La taille (nombre de rectangles concentriques) des champs représente leur densité (D), leur couleur leur croissance d'activité. %Les grands domaines annotés dans la bande bleue ont été ajoutés à la main.% of the full phylogeny of domains related to networks studies in biology and medical research ($\sim$1400 clusters). We kept fields made of more than four terms, set a threshold on the empirical quality and removed shortest branches for editorial purposes. Colors map the pseudo-inclusion index of the fields. High Resolution figure available on http://www.maps.sciencemapping.com/phylo/figure4.pdf} (external link)
}
\label{figurephylo}
\end{figure}


Afin d'avoir une représentation plus resserrée, nous avons tracé une autre partie de la phylogénie sur une période de temps plus réduite (2001-2007) et en choisissant une fenêtre temporelle limitée à une année. On a ensuite sélectionné uniquement le sous-réseau constitué par les champs mentionnant les termes ``cancer ou ``tumor. Le résultat de cette extraction est présenté figure~\ref{cancer}
Sur ce détail de la phylogénie, on a annoté les ``branches en fonction de trois grandes familles de contextes dans lesquelles les problématiques liées au cancer sont étudiées.%, on peut observer certaines ``régularités sur cette figure comme la croissance générale de l'indice de pseudo-inclusion, malgré un ralentissemen progressif, on observe également, que

\ADD{On observe clairement 3 ensembles distincts dans cette phylogénie.
Deux ensembles donnent lieu à des dynamiques complexes entre champs et traitent, d'une part, des relations entre le \emph{cancer} et l' \emph{ADN}, d'autre part, des problématiques liées aux termes \emph{cancer, tumor} et \emph{proliferation}. Ces sous-domaines semblent avoir multiplié leur interactions ces dernières années autour des concepts: \emph{apoptosis}, \emph{suppressor} et \emph{cell cycle}. Le troisième ensemble, qui se distingue par un lignage conceptuel très linéaire, se rapporte aux relations entre \emph{tumor} et \emph{immune system}. Ces deux catégories de dynamiques ont également des indices de structuration (indice de pseudo-inclusion et densité, non représentés ici) très différents et qui semblent corrélées aux configurations locales prises par le lignage conceptuel de la phylogénie.}


%On remarque sur cet extrait que certaines régularités apparaissent également entre notre autre indice de structuration (l'indice de pseudo-inclusion ou plutôt sa dérivée) et les configurations locales prises par le lignage conceptuel de la phylogénie.

\begin{figure}!ht
\centerline{\includegraphicswidth=8.7cm{figure5.pdf}}
\caption{Détail du sous-réseau phylogénétique lié aux études sur le cancer. Les couleurs des cercles figurent la croissance de l'indice de pseudo inclusion $I_{\subset}$ (de faible à forte du bleu au rouge). %Red links indicate the introduction of at least one new term. Note that this index is increasing along most of the branches (warm colors) although its growth rate is decreasing with time.
Les champs sont étiquetés avec leurs termes les plus génériques (à part les débuts et les fins de branches dont le contenu intégral des champs est rappelé). Les flêches reliant les champs sont annotés des termes gagnés ou perdus par un champ entre deux deux périodes successives. Dans chaque cluster, on fait également figurer entre parenthèses le nombre d'articles mentionnant tous les termes du cluster. %High Resolution figure available on http://www.maps.sciencemapping.com/phylo/figure5.pdf (external link)
}\label{cancer}
\end{figure}



\subsubsection{Motifs phylogénétiques}


Afin d'étudier les couplages éventuels entre les indices de structuration des champs et les motifs de la phylogénie, nous proposons dans une première approche exploratoire, d'établir certaines statistiques corrélant la densité et l'indice de pseudo-inclusion aux ``formes'' prises par la phylogénie.
Nous avons calculé une phylogénie\footnote{Sur cette carte, nous avons directement défini les champs épistémiques comme des k-cliques de $G$ sans utiliser l'opération de percolation de cliques, cette méthode simplifiée garantit toujours la possibilité de clusters recouvrants. Elle consiste en réalité à reconstruire les noyaux ou les c\oe urs des champs épistémiques. C'est la raison pour laquelle nous avons obtenu un très grand nombre de champs.} sur la même base de données (\emph{réseaux \& biologie}) entre 1990 et 2007 en choisissant une fenêtre temporelle d'une année. La qualité empirique (cf section~\ref{validation}) de l'ensemble des champs a été calculée, et nous n'avons sélectionné que les champs dont la qualité empirique était satisfaisante. Le réseau phylogénétique ainsi obtenu est composé de $7,758$ n\oe uds distribués sur les $21$ années.
Cette représentation permet de retracer finement l'histoire des champs en identifiant les influences croisées entre sous-domaines, et les périodes charnières d'émergence ou de disparition de champs par exemple.
Une portion de cette phylogénie est représentée figure~\ref{figure4}. %We can also notice that there is much more hybridation between scientific fields in the domain of formal methods and tools than in the branches corresponding to topics in biology. This transversal domain is also over-represented due to the fact that the targeted thematic (networks) is itself a transversal methodology.

\begin{figure}!htbp
\centerline{\includegraphicswidth=8.7cm{figure4.pdf}} % la grosse phylogénie
%\centerline{\includegraphicswidth=1\linewidth{carto/extrait-phylo3.pdf}}
\caption{Extrait de la phylogénie des domaines liés à l'approche réseau en biologie (cette portion regroupe environ $1400$ clusters) de 1990 à 2007. Nous avons uniquement sélectionné les champs constitués de quatres termes ou plus, et dont la qualité empirique était au-dessus d'un seuil fixé. Cette phylogénie est tronquée, pour des raisons de présentation. Les couleurs des champs correspondent à leur indice de pseudo-inclusion. Les liens de parenté entre champs sont colorés en rouge en cas de croissance et en bleu en cas de décroissance. Les grands domaines annotés dans la bande bleue ont été ajoutés manuellement.% of the full phylogeny of domains related to networks studies in biology and medical research ($\sim$1400 clusters). We kept fields made of more than four terms, set a threshold on the empirical quality and removed shortest branches for editorial purposes. Colors map the pseudo-inclusion index of the fields. High Resolution figure available on http://www.maps.sciencemapping.com/phylo/figure4.pdf} (external link)
}
\label{figure4}
\end{figure}





Une première fa\c con d'apprécier les motifs phylogénétiques consiste simplement à faire le décompte pour chaque champ du nombre de ``fils'' (ou nombre d'enfants) qui en descendent. Le nombre de fils correspond dans notre réseau phylogénétique au degré sortant d'un champ. Alors que la plupart des champs ont moins de deux fils, $44\%$ d'entre eux n'en ayant qu'un, environ $14\%$ en ont au moins trois. Nous avons calculé pour l'ensemble des champs ayant $k$ fils leur densité et leur indice de pseudo-inclusion moyen. %Les motifs de filiation peuvent également être étudiés en classant les champs en fonction de leur nombre de fils dans le réseau phylogénétique.
Pour interroger la fa\c con dont nos indices de structuration se distribuent par rapport à cette observable, nous avons également souhaité intégrer le paramètre $\delta_{0}$ (similarité minimale d'un lien de filiation) comme paramètre de notre analyse afin d'évaluer la robustesse de notre reconstruction par rapport à ce seuil. Les distributions correspondantes ont donc été calculées pour différentes valeurs de $\delta_{0}$ qui correspondent à autant de réseaux phylogénétiques différents. La figure~\ref{outstru} regroupe l'ensemble de ces courbes.

NaV \begin{figure}!htbp
NaV \includegraphicswidth=0.49\linewidth{OutDensity.pdf}\
% \includegraphicswidth=0.49\linewidth{Outincl.pdf}\
%% \includegraphicswidth=13cm{SI2.pdf}\
%% \includegraphicswidth=13cm{figure3.pdf}\
%\caption{Dependencies of the mean of the pseudo-inclusion (a) over the position of the fields in the phylogeny as well as over its number of sons (b) suggest trends in the ``life cycle'' of scientific fields: these indexes grow while a new field emerges in bushy branches, and then loose their strength when it begins to be neglected by the community. As shown, these patterns are robust against variations in the domain $0.3\leq d_0 \leq0.6$. Error bars indicate the 95\% confidence interval.}\label{figure2}
%\end{figure}
\begin{figure}!tbp
%\centerline{\includegraphicswidth=8.7cm{figure4.pdf}} % la grosse phylogénie
{\includegraphicswidth=.48\linewidth{carto/OutDensity2.pdf}}
{\includegraphicswidth=.48\linewidth{carto/OutIncl2.pdf}}
\caption{Densité moyenne (à gauche) et indice de pseudo-inclusion (à droite) en fonction du nombre de descendants d'un champ épistémique au sein de la phylogénie pour quatre valeurs $d_{0}$ distinctes: $0.3; 0.4; 0.5; 0.6$.
}
\label{outstru}
\end{figure}

On observe en premier lieu une grande robustesse de la distribution des indices de structuration par rapport au nombre d'enfants. Seul un paramètre très élevé ($\delta_{0}=0.6$) semble modifier sensiblement la structure du réseau phylogénétiques. Pour $0.3\leq \delta_{0}\leq0.5$, on constate que les deux indices de structuration sont maximaux pour un seul enfant, la valeur des indices étant minimales soit lorsque le champ ne donne lieu à aucune filiation soit lorsqu'il est très fertile (nombre important d'enfants).




Nous avons également classé les champs en fonction de leur position dans le réseau phylogénétique, autant du point de vue de leur descendance que de leur ascendance. On distingue ainsi les champs: \emph{isolés} (ni père ni fils), \emph{émergents} (pas de père mais un ou plusieurs fils), \emph{adultes} (présence d'un ou de plusieurs pères et d'un ou de plusieurs fils), et \emph{déclinant} (pas de fils mais un ou plusieurs pères). %Naturellement, le paramètre $d_{0}$ peut modifier la catégorie d'appartenance des clusters.

\begin{figure}!tbp
%\centerline{\includegraphicswidth=8.7cm{figure4.pdf}} % la grosse phylogénie
{\includegraphicswidth=.48\linewidth{carto/AgeInclus2.pdf}}
{\includegraphicswidth=.48\linewidth{carto/Agedensity2.pdf}}
\caption{Densité moyenne (à gauche) et indice de pseudo-inclusion (à droite) en fonction du nombre de la nature (isolé, émergent, adulte, déclinant) ou des champs épistémiques au sein de la phylogénie pour quatre valeurs $d_{0}$ distinctes: $0.3; 0.4; 0.5; 0.6$.
}
\label{agestru}
\end{figure}

La distribution des champs scientifiques par rapport à ces catégories est particulièrement informative. On a représenté figure~\ref{agestru} la pseudo-inclusion moyenne ou la densité moyenne d'un ensemble de champs appartenant à une catégorie donnée, on observe à nouveau des régularités très nettes dans la plage de valeurs $0.4\leq \delta_0 \leq0.6$ sur laquelle les distributions sont semblables. Les quatre courbes calculées (figures~\ref{agestru} et~\ref{outstru}) indiquent une forme de robustesse de ces motifs phylogénétiques vis-à-vis des deux indices de structuration à l'intérieur de la plage de valeurs de seuil: $0.4\leq \delta_0 \leq0.5$, ce qui constitue une forme de validation théorique indirecte de la méthode \citep{Hopcroft2004Tracking}.

Les champs adultes semblent ont des valeurs d'indice les plus fortes. Les champs en voie de disparition ou émergents ont des indices de structuration plus faibles tandis que ce sont les champs isolés qui, en moyenne, présentent les valeurs de structuration les plus faibles. \ADD{La similitude de nos distributions pour nos deux indices de structuration ne signifie pas qu'ils sont équivalents. Ainsi on a observé empiriquement que certains champs pouvaient être caractérisés par un indice de pseudo-inclusion important et un indice de densité faible. C'est notamment le cas des champs dont le degré sortant (nombre important de fils) est important sur la figure~\ref{cancer} situés dans les zones dans lesquelles les fertilisations croisées sont fréquentes. Ceux-ci sont sans doute des champs émergents très cohérents, mais qui n'ont pas atteint une maturité suffisante. La faible densité de ces champs trahit alors leur jeunesse. }
NaVLes zones dans lesquelles les fertilisations croisées sont fréquentes et le degré sortant moyen est important tendent à avoir un indice de pseudo-inclusion supérieur à ceux observés dans les zones plus linéaires de la phylogénie, ce qui révèle un taux de renouvellement conceptuel plus rapide. Au contraire, l'indice de densité est plus faible, ce qui peut trahir la jeunesse de ces champs. L'évolution de l'indice de pseudo-inclusion le long des branches indique que cet indice augmente, même si cette croissance est de moins en moins forte.


Ces analyses statistiques mériteraient d'incorporer d'autres paramètres (tel que le paramètre temporel par exemple) ainsi que d'être étendues aux dérivées de nos indices de structuration. On peut néanmoins conjecturer d'après ces premières observations l'existence d'une forme de cycle de vie des champs scientifiques, dont les indices de structuration augmentent après leur émergence jusqu'à l'état ``adulte'' avant de s'effondrer lorsque la communauté s'en désintéresse, donnant alors lieu à une extinction, ou à un morcellement en de multiples champs. Au contraire l'état de maturité qui se caractérise par un fort indice de structuration est\emph{ a priori} plus stable dynamiquement ; le faible renouvellement conceptuel induit alors un nombre limité mais non nul de descendants. % La dépendance de la densité, de l'indice de pseudo-inclusion et de l'indice de qualité empirique en fonction de la position des champs au sein de la phylogénie suggère la présence de cycles de vie des champs scientifiques.%% se décomposant selon these indexes grow while a new field emerges, and then loose their strength when it begins to be neglected by the community
%Néanmoins, densité et pseudo-inclusion sont deux indices de caractérisation des champs clairement différents.
%\FTR{The dependency of the mean of the density, pseudo-inclusion and empirical quality indexes over the position of the fields in the phylogeny suggests trends in the ``life cycle'' of scientific fields: these indexes grow while a new field emerges, and then loose their strength when it begins to be neglected by the community. However, density and pseudo-inclusion index are completely different ways of characterizing scientific fields. On the one hand, fields with high pseudo-inclusion will usually have terms with a large spectrum of specificity and genericity, which means that they are likely to contain very specific terms with few occurrences. These terms have a high probability to be new concepts or new objects of study. Their presence in the phylogeny will then be correlated with high rate of branching processes. On the other hand, fields with a high density index correspond to well structured scientific domains with\emph{ a priori} lower rate of conceptual renewal.}




%As stated before, the aim of phylogeny reconstruction is to discover patterns and regularities in science evolution. Given this objective, we defined two benchmarks for this reconstruction: theoretical validation and empirical validation.
%Nous introduisons deux mesures de validation de nos champs scientifiques, la première mesure est d'ordre théorique, elle correspond à une forme de mesure de robustesse des motifs détectés \citep{Hopcroft2004Tracking} en fonction des paramètres de notre modèle.
%Theoretical validation is related to the robustness of the detected patterns regarding the dataset (\cite{Hopcroft2004Tracking}) and the parameters of the model ($d_0$ in our case). Detected patterns should be robust to parameter change if we want them to be significant.




%\FTR{Beside, the fact that aborted fields tend to be of lower quality suggests a methodology to adjust optimally $d_0$ in order to have the most informative phylogeny (in the sense of the empirical quality). Indeed, the ratio between the mean quality of fields belonging to the phylogeny and the mean quality of aborted fields is always higher than 1, and reaches its maximum around the value $d_c=0.33$. For this value, connected fields in the phylogeny \textit{i.e.} fields that have at least one father or one son, are on average almost twice as informative as aborted fields.}

% \begin{figure}\center
%\includegraphicswidth = 0.5 \linewidthNaV{image/RatioQ.pdf}
NaV\end{figure}

NaVLes motifs de filiation peuvent également être étudiés en classant les champs en fonction de leur nombre de fils dans le réseau phylogénétique. Alors que la plupart des champs ont moins de deux fils, $44\%$ d'entre eux n'en ayant qu'un, environ $14\%$ en ont au moins trois. La distribution de nos index en fonction du nombre de petits fils est à nouveau très intéressante. La figure~\ref{figure3}-b montre, qu'en moyenne, les champs n'ayant qu'un seul fils sont dotés de la densité maximum. On observe le même effet sur les indices de pseudo-inclusion et le nombre de papiers par cluster. A nouveau cette observation est vraie pour une large gamme de valeurs de $d_{0}$
%Ces observations suggèrent que les ``branches'' relativement jeunes sont généralement plus fécondes o

%\FTR{Inheritance patterns can also be studied by classifying fields according to their number of sons in the phylogenetic network. While most fields have less than 2 sons, with 44\% having only one successor, almost 14\% have at least 3 children. Again, the distribution of the different indexes in function of the number of children is very instructive. Figure~3.b shows that, on average, the maximum of density is obtained for fields that have only one son. Similar patterns have been obtained for the pseudo-inclusion and the number of papers per cluster (\textit{cf.} Appendix.2). Again, this observation holds for a large range of $d_0$.
%\FTR{ The synthesis of all these results suggests that relatively young branches of science are generally bushy with fields having lots of children. This corresponds to an intense exploration of new directions of research. Older fields will generally have a much more linear evolution with a lower rate of conceptual renewal.
%This pattern can clearly be observed on figure~4 that represents, for $d_0=d_c$, the subpart of the phylogenetic network composed of fields with highest empirical quality and at least four terms. Most recent branches have also been removed to meet editorial constraints. We can also notice that there is much more hybridation between scientific fields in the domain of formal methods and tools than in the branches corresponding to topics in biology. This transversal domain is also over-represented due to the fact that the targeted thematic (networks) is itself a transversal methodology.}

NaV\includegraphicswidth=16cm, height=9cm%,trim=0 10 0 20
NaV\caption{\label{phylo} Phylogénie des champs paradigmatiques de 1963 à 2007. L'ensemble des champs contenant le terme ``réseau'' sont en rouge. Sur une ligne on retrouve l'ensemble des champs et leur composition sur une période de quatre ans. Un lien bleu signifie qu'il y a eu globalement décroissance de la communauté, un lien rouge, croissance (enrichissement du nombre de termes). Les légendes le long des liens signalent les termes acquis et perdus d'une période à la suivante. Les événements possibles sont: naissance (absence de père), mort (absence de fils), croissance (un père, lien rouge), décroissance (un père, lien bleu), scission (une père plusieurs fils ), fusion (un fils, deux pères, liens rouges \& noirs ou bleus \& noirs). En haut à droite agrandissement sur les deux dernières périodes.}

NaVLa reconstruction de réseaux phylogénétiques peut également avoir un intérêt au niveau des dynamiques fines de champs ; la figure
%\DOU{interprétation de la figure cancer}
%Si l'on examine de plus près la phylogénie de la figure~\ref{cancer}, on observe clairement 3 ensembles distincts.
%Deux ensembles donnent lieu à des dynamiques complexes entre champs et traitent d'une part des relations entre le \emph{cancer} et l' \emph{ADN}, d'autre part, des problématiques liées aux termes \emph{cancer, tumor and proliferation}. Ces sous-domaines semblent avoir multiplié leur interactions ces dernières années autour des concepts: \emph{apoptosis}, \emph{suppressor} et \emph{cell cycle}. Le troisième ensemble, qui se distingue par des motifs de filiation extrêmement linéaires, se rapporte aux relations entre \emph{tumor} et \emph{immune system}. Ces trois ensembles ont également des indices de structuration (densité et indice de pseudo-inclusion) très différents. Les zones dans lesquelles les fertilisations croisées sont fréquentes et le degré sortant moyen est important tendent à avoir un indice de pseudo-inclusion supérieur à ceux observés dans les zones plus linéaires de la phylogénie, ce qui révèle un taux de renouvellement conceptuel plus rapide. Au contraire, l'indice de densité est plus faible, ce qui peut trahir la jeunesse de ces champs. L'évolution de l'indice de pseudo-inclusion le long des branches indique que cet indice augmente, même si cette croissance est de moins en moins forte.




%\FTR{Details of the phylogeny are also very informative. Figure~5 represents the phylogeny with fields of more than five terms for which at least one term contains the words ``cancer or ``tumor. On this partial phylogeny, we can clearly see three distinct sets of branches with very different characteristics. Two sets are quite bushy and deals with \emph{cancer }and \emph{DNA} issues on one side, \emph{cancer, tumor and proliferation} issues on the other side. They appear to have increased their interactions these last several years around the concepts of \emph{apoptosis}, \emph{suppressor} and \emph{cell cycle}. The third set has very linear branches and is related to the relations between \emph{tumor} and the \emph{immune system}. These three sets are also quite distinct in terms of the range of their density and pseudo-inclusion indexes. Whereas the bushy branches tend to have a higher pseudo-inclusion index than the linear ones, revealing a higher rate of conceptual renewal, they also have a lower density index, indicating that they should be more recent. The study of the evolution of the pseudo-inclusion index along these branches reveals that this index is increasing along most of the branches although its growth rate is decreasing with time. When relaxing the constraints on the empirical quality threshold and on the number of terms in clusters, these characteristics regarding the three sets of branches are preserved, although the branches prove to be older than they appear in this partial phylogeny, the upper-part of the phylogeny having been pruned in the thresholding process.}

D'autres études s'appuyant sur des bases de données d'autres domaines confirmeront ou infirmeront ces hypothèses. Ces méthodes ouvrent en tout cas de nombreuses perspectives pour l'exploration comparative des motifs dynamiques mésoscopiques observés dans différents domaines. % ''\FTR{ Further studies based on different databases will confirm or not the relevance of these general patterns in the study of science evolution. However, these regularities open perspectives for the detection of emergent or dying fields on the basis of some indexes computed on co-occurrence data.}


NaV\begin{figure}!htbp
NaV \includegraphicswidth=12cm{SI1.pdf}\
% \caption{Dependencies of the mean of the density and empirical quality over the position of the fields in the phylogeny. As shown, these patterns are robust against variations in the domain $0.3\leq d_0 \leq0.6$. Error bars indicate the 95\% confidence interval.}
% \label{SI1}
%\end{figure}

NaV\begin{figure}!htbp
NaV \includegraphicswidth=12cm{SI2.pdf}\
% \caption{Dependencies of the mean of the density of clusters and number of articles in fonction of the number of sons. As shown, these patterns are robust against variations in the domain $0.3\leq d_0 \leq0.6$. Error bars indicate the 95\% confidence interval.}
% \label{SI1}
NaV\MISSING{référence sur la diffusion des Topics dans les réseaux de citation: \cite{Kiss:2009p2400,Bettencourt:2006p2399,Bettencourt:2008p2398,Leydesdorff:2009p2397,Rafols:2009p2396}}



% il est assez facile de dénombrer les trois combinaisons possibles de champs de la première période et de les comparer aux champs observés à la deuxième période.

%\subsection{Etude de cas: la biologie contemporaine à l'épreuve des réseaux}



% dans le cadre du projet ANR ``COBINA'' (Connaissances biologiques et Normes d'Action Publique).


%La méthodologie est la suivante. Etant donné un corpus de textes datés (ici des publications scientifiques), et un corpus de termes librement défini, on extrait le nombre de cooccurrences $n_{ij}
t$ observées entre chaque paire de termes dans les abstracts des articles publiés une année donnée. Cette information de base sert à mesurer une proximité sémantique entre les termes. La mesure employée pour calculer cette proximité sémantique se différencie des distances employées classiquement en scientométrie en ce qu'elle est asymétrique (les mesures traditionnelles considèrent généralement des métriques du type $d(i,j)=d(j,i)=\frac{n_{ij}}{n_in_j}$, dans notre cas, on introduit un paramètre de focalisation $\alpha$ qui permet de rendre compte de l'hétérogénéité de la distribution des termes: $d_\alpha(i,j)=(\frac{n_{ij}}{n_i})
{\alpha}(\frac{n_{ij}}{n_j})
{1/\alpha}$). On en déduit deux types de voisinage: le voisinage en spécificité qui réunit les termes qui spécifient le terme cible, et un voisinage en généralité qui permet d'extraire les contextes dans lesquels le terme cible peut s'inscrire.


NaV\bibliography{biblio}
%\end{document}










% dynamiques sociales et observables sémantiques macro

NaV\subsection{évaluer la qualité des reconstructions}

%\subsubsection{reconstruction statique}
%\subsubsection{reconstruction dynamique}
%\subsubsection{évaluation mixte}

%La qualité de nos reconstructions statiques peut Ítre également appréciées au travers des phylogénies.

%Quel serait le profil d'un réseau phylogénétique s'il était calculé à partir de reconstruction statiques aléatoires conservant la mÍme distribution de termes mais en les appariant de façon entièrement aléatoire. L'hypothèse de relative continuité des champs scientifiques et la reconstruction des lignées inter-temporelles devient alors une opportunité de caractériser la qualité des reconstructions statiques.

%\MISSING{définir une mesure en conséquence: ex: distribution du nombre de champs ayant une parenté en fonction du seuil de phylpgénie par exemple sur quelques exemples.}

%\subsubsection{évaluation endogène}
%\subsubsection{évaluation par experts}



%\subsection{aspect visualisation}


NaV\subsection{reprojeter des individus sur des cartes thématiques mouvantes}
%\subsection{appliqué à d'autres domaines}

%\subsection{couplage de ces approches aux questions de dynamiques sociales }
%plutôt dans la dernière partie...?

NaVméthodologie:

%Sur la base de données durable,
%associer à chaque auteur un vecteur conceptuel dynamique (avec fenêtre glissante de 3 ans par exemple).
%imaginer une fonction de projection des scientifiques sur les champs reconstruits:
%2 approches:\begin{itemize}
%\item considérer que l'ensemble des mots-clés d'un scientifique individidu constitue un champ à part entière, et calculer les distances inter-clusters entre ce champ et l'ensemble des champs reconstruits.
%Regarder ce que ça donne, si possible (notamment s'il existe un critère crédible) seuiller pour n'en garder que quelques uns.
%\item
%considérer uniquement les champs qui se retrouvent intégralement (ou à un pourcentage près) dans le sac de mots clés
NaVUne fois cet appariement réalisé, on peut définir la distance d'un agent à n'importe quel champ avec l'ensemble de ses champs.
%On pourrait également calculer la distance entre son bagage conceptuel (comme sac de mots), et le nouvel article qu'il entreprend, mais quid des interdisciplinaires? Le passage par une projection permet d'utiliser un min à un moment donné!

%Suivre dans le temps le déplacement d'un individu sur une carte.

%Nécessite de déterminer plusieurs échelles temporelles, sinon, on ne voit rien: paysage change avec trajectoires des scientifiques.

NaVBilan:
%(i) je calcule la trajectoire d'un chercheur dans un paysage de champs: carte avec vector fields.
%(ii) sur cette base là, on peut calculer des propensions d'acquisition de ``champs'' un peu plus malignes.
%(iii)on peut étendre à l'hypergraphique: càd qu'on considère un nouvel article à partir de la somme des bagages conceptuels des agents !
%(iv)on peut faire des calculs de propension à collaborer avec un voisin à distance sémantique x...


%Question: quel est le bon opérateur de projection?:
%-> densité de probabilité sur l'ensemble $p(i \in C_j) = 1/Z\frac{|B_i \cap C_j|}{ |B_i \cup C_j|} $ où $Z$ est un paramètre de normalisation et $B_i$ désigne le bagage conceptuel de l'agent $i$ ou l'ensemble des mots-clés employés par $i$ dans ses articles précédents... ou un calcul basé sur des distances: $p(i \in C_j) = B_i \cap C_j/ B_i \cup C_j $...
%Si on a des probas, après, on a un nouveau champ cible avec d'autres proba et on peut s'en sortir avec deux distributions de proba dont on peut calculer la distance.

\section{Trajectoires des individus au sein des paysages sémantiques. }
%$p(i \in C_j) = d(B_i,C_j)$, que l'on normalise éventuellement.

Nous avons décrit une méthode de reconstruction multi-échelle d'un domaine scientifique %et de son évolution
en une structure multi-échelle composée de \emph{champs épistémiques}: ensembles de termes fortement connectés les uns aux autres et liés au sein d'un réseau $\hat{G}$ que l'on peut cartographier.
Ces représentations de la connaissance sont obtenues de fa\c con entièrement \emph{bottom-up} (contrairement à des approches plus top-down qui proposent une labellisation des cartes des sciences à l'aide de catégories pré-existantes telles que la classification des journaux de l'ISI, \textit{e.g.} \citep{Moya2004New,boyack2005mapping,Leydesdorff2008Dynamic,Leydesdorff:2009p2397}). On a enfin proposé une méthode de reconstruction de la dynamique de ces champs qui permet de retracer les filiations entre champs sous la forme d'un réseau phylogénétique.

Notre objectif est maintenant d'opérer un retour vers les scientifiques qui sont les véritables paysagistes de ces territoires conceptuels. En effet, les chercheurs, à travers leur production, modifient l'état du paysage scientifique, mais l'espace qu'ils contribuent à créer contraint également leur activité en retour, l'hypothèse que nous posons est que les champs épistémiques détectés réunissent l'ensemble des termes, concepts ou outils propres à une communauté scientifique. \`A chaque champ devrait donc correspondre un certain nombre de chercheurs qui échangent les uns avec les autres, se réunissent régulièrement au sein de congrès, ou publient dans les mêmes journaux. Nous illustrerons cette dernière partie à partir de notre base de données sur le \emph{développement durable} décrite section~\ref{jeudata}.

%élaborent collectivement à la fois les conditions de pertinence de leur domaine de spécialité et ses résultats.
\subsection{Opérateur de projection}

Maintenant que nous avons défini une méthode pour représenter les paysages scientifiques en spacialisant des réseaux de proximité entre champs $\hat{G}$, notre objectif est d'y ``situer'' également des chercheurs ou d'autres types d'entités, en projetant leur \emph{bagage conceptuel} sur les cartes produites. L'opérateur de projection que nous concevons est générique au sens où il doit permettre de projeter aussi bien des chercheurs, des institutions, des journaux, ou des conférences. En toute généralité, il suffit d'attribuer à une entité un corpus défini par exemple par l'ensemble des articles auxquels elle est lié (les publications d'un chercheur, les articles publiés dans une conférence ou dans un journal donné, etc.) et d'en extraire un \emph{bagage sémantique} qui servira de signature de l'activité de cette entité au sein du domaine. Dans la suite, même si la méthode s'applique plus largement sans difficulté, nous ne traiterons dans nos exemples que des corpus de publications signés par \emph{ un chercheur}.

On définit donc le \emph{bagage conceptuel} $B_{i}(T)\in \mathbb{N}
{l}$ ($l = | \mathcal{L} |$ désigne le nombre de concepts) %d'un chercheur $i$ pendant une période $T$ comme
d'un chercheur $i$ à une période $T$ comme le vecteur dénombrant le nombre d'occurrences de chaque concept de $ \mathcal{L}$ que $i$ a mobilisé dans l'ensemble des publications dont il est l'auteur pendant la période $T$. Contrairement aux vecteurs $C_{j}$ qui définissant les champs, le vecteur $B_i(T) $ peut prendre des valeurs supérieures à 1 si l'auteur $i$ a publié plusieurs articles avec le même concept. Ainsi la $j
{\` eme}$ coordonnées de $B_{i}(T)$ est égale au nombre d'articles signés par $i$ pendant la période $T$ mentionnant le concept $j$.%, contrairement au vecteur $C_i$ qui est un vecteur binaire)
%\FTR{$$ \Proxm
{T,2}(C_a,C_b)=\frac{1}{\mid C_a \mid} \sum_{i \in C_a}(\frac{1}{\mid C_b \mid}\sum_{j\in C_b}\Proxm
T(i,j))$$}

On souhaite maintenant définir l'opérateur de projection $h : \mathbb{N}
{l} \rightarrow \mathbb{R}
{n}$ ( $n$ désignant le nombre de champs épistémiques reconstruits), qui, à un bagage sémantique donné, fait correspondre un vecteur de probabilités d'appartenance à l'ensemble des champs $\{C_{j}\}_{ 1 \leq j \leq n}$, la probabilité $p_i(C_j)$ que le chercheur $i$ appartienne à $C_{j}$ peut s'écrire à partir de la distance inter-cluster déjà définie section~\ref{intercluster}. Nous proposons une définition plus générale de la distance inter-cluster précédemment définie de fa\c con à ce qu'elle permette de prendre en compte des clusters définis comme des vecteurs dans $\mathbb{N}
{l}$ prenant des valeurs entières pouvant être supérieures à 1.% ce qui est le cas de nos bagages sémantiques $B_{i}$.
Ainsi, la distance inter-cluster généralisée $\hat{\Proxm}$ s'écrit sous la forme:
$$ \hat{\Proxm}(C_a,C_b)= \displaystyle \frac{1}{\sum_{k=1}
{n} C_a(k)\sum_{k=1}
{n} C_b(k)} \sum_{i,j=1}
{n}C_{a}(i)C_{b}(j)\Proxm(i,j)\label{intercluster2}$$


%\marginpar{enlever lexs T, pas utiles}
Cette nouvelle définition laisse échangée la mesure entre deux clusters et permet de définir la proximité $\hat{\Proxm}(B_{i}(T),C_{j})$ entre le bagage sémantique de l'agent $i$ et un champ $C_{j}$ au temps $T$. Le degré d'appartenance d'un agent $i$ à un champ $j$ vaut alors:
$p_i
{T}(C_j) = \displaystyle \hat{\Proxm}(B_i(T),C_j)$

%$$p_a(C_b) = \displaystyle \hat{\Proxm}
{T}(B_a,C_b)= \frac{1}{\sum_{k=1}
{n}{B_a(k) \mid C_{b} \mid}} \sum_{i,j=1}
{n}B_{a}(i)C_{b}(j)\Proxm
T(i,j)$$%{\sum_{k=1}
{l}{\hat{\Proxm}_{T}(B_i,C_k)} } = $$
%$$p_i(C_j) = \displaystyle \frac{\hat{\Proxm}
{T}(B_i,C_j)}{\sum_{k=1}
{l}{\hat{\Proxm}_{T}(B_i,C_k)} } $$%=\frac{1}{ \sum_{k \in C_i} B_i(k)} \sum_{i \in C_a}(\frac{1}{\mid C_b \mid}\sum_{j\in C_b}\Proxm_{}T(i,j))$
On peut également normaliser cette dernière quantité afin d'obtenir un vecteur des probabilités de présence de $i$ sur l'ensemble des champs:
$$\hat{p}
{T}_i(C_{j}) = \frac{p_i
{T}(C_j)}{\sum_{k = 1}
{l}p
{T}_i(C_k)}= \displaystyle \frac{\hat{\Proxm}
{T}(B_i(T),C_j)}{\sum_{k=1}
{l}{\hat{\Proxm}(B_i(T),C_k)} } $$

%$$ \Proxm
{T,2}(C_a,C_b)=\frac{1}{\mid C_a \mid} \sum_{i \in C_a}(\frac{1}{\mid C_b \mid}\sum_{j\in C_b}\Proxm
T(i,j))\label{intercluster}$$


\begin{figure}!ht
\begin

\newcolumntype{S}{>{\centering\arraybackslash} m{.1\linewidth} }
\begin{tabular}{ccc}

\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm
{carto/carte_density_denistydiffm478-2000.pdf}&
\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2001.pdf}&
\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2002.pdf}\\
{1998-2001}&1999-2002& 2000-2003\\
\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2001.pdf}&
\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2002.pdf}&
\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2003.pdf}\\
{2001-2004}&2002-2005& 2003-2006\\
\includegraphics%[trim = 0mm 0mm 20mm 0mm, clip,
height=4.3cm
{carto/legendesdensite.pdf}
&\includegraphicstrim = 0mm 0mm 20mm 0mm, clip, width=4.3cm{carto/carte_density_denistydiffm478-2004.pdf}&\\
&2004-2007& \\
% $\mathcal{T}_1$&
% \includegraphicswidth=\linewidth,height=4cm{ER.pdf}&
% NaV \includegraphicswidth=\linewidth,height=4cm{REshu.pdf}\\
% $\mathcal{T}_2$&
NaVNaV\includegraphicswidth=\linewidth,height=4cm{REshu_normalized.pdf}
NaV\textbf{RE-event}&\includegraphicswidth=\linewidth,height=4cm{REevent.pdf}&
NaV\textbf{RE}&\includegraphicswidth=\linewidth,height=4cm{RE.pdf}&
%\includegraphicswidth=\linewidth,height=4cm{RE_normalized.pdf}\\
\end{tabular}
\caption{Evolution de la projection de l'auteur 478 (Philip Lowe) sur les 10 dernières années (fenêtres glissantes de 4 ans)}
\label{spectres2}
\end

\end{figure}

%\marginpar{rajouter la colormap associée, qui est déjà calculée - dans U-UUsersU-UlouiseduloquinU-UDocumentsU-UwordsevolutionU-USessionsU-UsustainableU-UdevelopmentU-UScienceMapU-U1998U-U2007U-U2U-U0.1U-U0.15U-URelativeU-UCobbU-UCFinderU-UU-U4U-U12U-U20U-U15U-U2U-U0U-U0U-U1U-UInfU-U1U-U0U-U4U-U1U-U1.ScienceMapU-UColorlegend.net }
Cette projection définit un vecteur de probabilité de présence $\hat{p}_{i}$ qui peut s'interpréter comme une densité de présence d'un auteur sur l'ensemble des champs scientifiques\footnote{Cette normalisation n'est pas nécessairement souhaitable lorsqu'on compare la projection de différentes entités les unes avec les autres. Les distribution des degrés d'appartenance d'une entité aux champs d'un domaine peuvent être très différents d'une entité à l'autre, et il peut être souhaitable de conserver ces différences en abandonnant l'opération de normalisation.}.
Nous avons représenté figure \ref{spectres2} l'évolution de la densité de présence d'un auteur choisi au hasard dans notre base de données. {Philip Lowe} est professeur d'économie rurale et directeur du programme d'économie rurale et d'aménagement du territoire du Centre de l'université de Newcastle\footnote{ Rural Economy School of Agriculture, Food and Rural Development University of Newcastle.}.
Cette représentation a comme simple ambition d'illuster la fa\c con dont notre opérateur permet de situer un auteur au sein d'une ``géographie'' de la connaissance. Plusieurs observations peuvent être faites:



\begin{enumerate}

\item les champs associés à une forte densité de présence de l'auteur (zones rouges) sont contigus sur notre carte, ce qui tend à valider la reconstruction statique,
\item la densité de présence de l'auteur dans cet espace est centrée sur un ensemble de champs semblant correspondre aux domaines d'expertise du chercheur (principalement les aspects économiques et légaux des échanges commerciaux internationaux, mais également des domaines connexes)
\item la densité de présence de l'auteur évolue très peu dans le temps, laissant penser que le chercheur représenté ici est resté ``fidèle'' aux communautés épistémiques auxquelles il participe,
\item lorsqu'il y a dispersion vers d'autres champs - c'est à dire activation de nouveaux champs - les champs touchés semblent être proches des champs activés précédemment, \ie les champs nouvellement peuplés se situent dans le voisinage immédiat des champs précédemment occupés \footnote{Cette observation reste valable en considérant une séquence de cartes sans recouvrement temporel.}.
\end{enumerate}

Ces observations semblent donc valider nos reconstructions, et suggèrent une certaine forme de stabilité dans l'engagement des chercheurs auprès d'une communauté épistémique donnée. Nous cherchons maintenant à rendre compte de fa\c con plus rigoureuse de l'attraction exercée sur les scientifiques par leurs champs épistémiques d'appartenance à travers le calcul de mesures d'attachement préférentiel liant la structure des champs à l'évolution de l'activité des chercheurs.

\subsection{Rétroaction macro-micro}
\label{metricmim}

On s'attache maintenant à vérifier l'hypothèse d'une \emph{stabilité dynamique} des champs d'appartenance des chercheurs en étudiant les motifs d'évolution d'un ensemble $I$ de plus de 800 scientifiques du domaine ayant publié au moins $7$ articles parmi notre base de publications de départ durant la période 1998-2007\footnote{Cette borne permet de réunir un nombre suffisant de chercheurs ayant\emph{ a priori} publié durant plusieurs années.}.
Pour apprécier la vitesse de dispersion du vecteur de densité des auteurs au sein de notre carte, nous mettons en place deux mesures.


En premier lieu nous introduisons une mesure entre deux densités de présence normalisées $\hat{p}_{a}$ et $\hat{p}_{b}$ à l'aide de la version symétrisée de la divergence de KullBach Leibler $D_{KL}$ \citep{kullback1951ias}. Etant donnée deux distributions de probabilités à valeurs non nulles\footnote{Dans notre cas, ll paraît improbable de trouver au sein des vecteurs de densité individuels des valeurs parfaitement nulle car cela supposerait que les termes mobilisés par un auteur ne co-occurrent pas une seule fois avec aucun des termes d'un champ donné.}, la divergence entre les deux distributions de probabilité $P$ et $Q$ est définie par:
$D_{KL}(P,Q) = \sum_i P(i) log (P(i)/Q(i))$ ; cette distance est asymétrique mais est classiquement symétrisée en effectuant une moyenne.
Dans sa version symétrique on définit alors la distance entre deux distributions comme $1/2D_{KL}(P,Q) + D_{KL}(Q,P)$ \citep{johnson2001skl}.

On définit donc $\delta$ comme la distance de Kull-Back Leibler symétrisée \footnote{Même si la divergence de KullBack Leibler, même symétrisée ne vérifie pas les conditions d'une distance (l'inégalité triangulaire n'est pas respectée) nous l'appellerons néanmoins distance par commodité.} entre deux vecteurs de probabilités de présence $\hat{p}_{a}$ et $\hat{p}_{b}$. Cette distance s'exprime donc sous la forme:
$$\delta(\hat{p}_{a},\hat{p}_{b}) = 1/2(D_{KL}(\hat{p}_{a},\hat{p}_{b}) + D_{KL}(\hat{p}_{b},\hat{p}_{a}) )$$


Cette mesure permet notamment d'estimer le déplacement qu'a effectué un auteur entre deux périodes successives. On calcule la propension moyenne de déplacement d'un chercheur à une distance donnée en contrastant la distribution des distances $\{\delta(\hat{p}
T_{i},\hat{p}
{T
{-}}_{i})\}_{i\in I}$\footnote{Dans le cas où un auteur n'aurait pas publié dans une des deux périodes considérée, cette mesure est simplement ignorée, la densité de probabilité de présence du chercheur en question n'étant pas définie.} observées sur l'ensemble des chercheurs entre deux périodes successives $T
{-}$ et $T$ avec l'ensemble des distances $\{\delta(\hat{p}
T_{i},\hat{p}
{T
{-}}_{j})\}_{(i,j)\in I
{2}}$ calculée sur la totalité des paires de chercheurs $(i,j)$ entre les deux mêmes périodes. Ce mode de calcul revient à faire l'hypothèse d'un modèle nul construit
en nous appuyant sur
la distribution des mots-clés sur les agents à un temps donné comme une distribution typique d'un agent actif dans la communauté indépendamment de son activité antérieure.
Les périodes successives choisies pour le calcul de la propension sont des fenêtres de trois ans non recouvrantes, soit l'ensemble des couples $\{(T_{k};T_{k}
{-})\}_{1 \leq k \leq 8}$ où $T
{-}_{k} = 1995 + k - 1, 1995 + k + 1 $ et $T_{k} = 1998 + k - 1, 1998+ k + 1 $. La propension représentée est une moyenne sur l'ensemble des couples de périodes $\{(T_{k};T_{k}
{-})\}_{1 \leq k \leq 8}$ accompagnée de l'intervalle de confiance associé.

La propension de déplacement en fonction de notre distance $\delta$ est représentée figure~\ref{figure:high-prop2}. Celle-ci est fortement décroissante, ce qui indique que la densité de présence d'un chercheur a tendance à être très stable d'une période à l'autre. Il est ainsi 10 fois plus probable pour un chercheur de limiter son déplacement conceptuel à $\delta<0.1$ que ne le laisserait supposer un modèle aléatoire, \emph{a contrario}, les déplacements importants ($\delta>1.5$) sont 10 fois moins probable qu'attendu.%\footnote{Contrairement au chapitre~\ref{chapter3}, les propensions n'ont pas été normalisées si bien que les valeurs d'attachement préférentiel s'interprète directement comme un écart au modèle aléatoire, une propension de $1$ étant parfaitement fidèle au modèle nul.}.

NaV\item une très forte propension à rester sur les même champs
%\item

Mais cette mesure qui s'appuie sur le vecteur de densité de présence des agents, ne permet pas de rendre compte de la structure sous-jacente de l'organisation des champs.
Afin d'illustrer quantitativement notre intuition sur la ``diffusion'' des champs d'appartenance des auteurs via les liens de notre réseau, nous proposons d'introduire une autre distance à même de rendre compte des déplacements des auteurs en fonction de la topologie du réseau des champs.
NaVL'autre méthode que nous mettons en \oe uvre


% optant pour une hypothèse nulle dans laquelle les agents voient leur
NaV\begin{figure}!htbp
NaVNaV,trim=0 10 0 20]
%NaV\includegraphicswidth=0.205\linewidth%,trim=0 10 0 20
NaV\caption{\label{fig:58}Champ 58.}
NaV,trim=0 10 0 20]
]{carto/graph_distscholarsdistbis.pdf}
\caption{\label{figure:high-prop2}Propension à occuper un nouveau champ épistémique en fonction de la distance de déplacement des auteurs $\delta$.}
\end{figure}






NaVTendance forte à peu se déplacer dans cet espace.

%On peut également opter pour une méthode de calcul des propensions qui s'appuie plus directement sur la topologie de la cartographie des champs.

On introduit dans un premier temps un seuil $\theta$ (en pratique, $\theta= 0.15$, on a vérifié que les résultats restent extrêmement robustes aux modifications de ce seuil) qui permet d'attribuer à un auteur $i$ l' ensemble des champs $C_j$, qui vérifient $\hat{p}_{i}(C_{j}) \geq \theta$ \ie leur probabilité de présence dans un champ doit être supérieure à un seuil pour que ce champ soit retenu.

L'état d'un agent $i$ au temps $T$ est donc défini par un ensemble de champs d'appartenance $\displaystyle A
t_{i}=\{C_{k}\}_{\hat{p}
{T}_{i}(C_{k})>\theta}$. La distance $\Delta$ entre deux états successifs d'un agent peut alors être définie comme la moyenne de la distance minimale (au sens du plus court chemin dans un graphe) pour se déplacer depuis $A
{T
{-}}_{i}$ l'ensemble des champs d'appartenance de $i$ à $T
{-}$ vers chacun des champs de $A
{T}_{i}$ auxquels $i$ appartient à $t$. Plus formellement $$\Delta(A
{T
{-}}_{i},A
{T}_{i}) = \displaystyle{ \frac{1}{| A
{T}_{i} |} \sum_{j \in A
{T}_{i}}\big[\min_{C_{k} \in A
{T
{-}}_{i} }d(C_{j},C_{k})\big]}$$ où d représente la distance de Dijkstra\citep{dijk:note}\footnote{Nous avons utilisé la version non pondérée du réseau même si les résultats sont sans doute semblables en conservant ces poids et en étendant la définition de la distance à un coût de circulation dans le réseau pondéré.} dans le graphe (longueur du plus court chemin dans $\hat{G}$ permettant de naviguer d'un n\oe ud à un autre)\footnote{Dans le cas où un auteur n'aurait pas publié dans une des deux périodes considérée, cette mesure est ignorée comme précédemment.}.
%De fa\c con plus détaillée, on peut calculer pour chaque champ qu'occupe un agent $i$ au temps $T$ la distance dans le graphe entre ce champ et l'ensemble des champs de $i$ à la période précédente $T
{-}$.

La distance définie ci-dessus est une moyenne sur l'ensemble des déplacements opérés par un acteur. Ainsi, afin de rendre compte de l'hétérogénéité des déplacements et obtenir une mesure moins agrégée plus à même de rendre compte de la continuité ou de la discontinuité thématique dont font preuve les chercheurs dans leur déplacement, on peut également associer à chaque agent se dépla\c cant dans le paysage épistemique
et pour chaque champ d'appartenance $C_{j} \in A_{i}
{T}$ de l'agent $i$ à la période $T$, l'ensemble des distances $\{\Delta(A
{T
{-}}_{i},C_{j})\}_{C_{j} \in A_{i}
{T}}$.
Ces déplacements sont comparés aux déplacements que l'on obtiendrait en appliquant la même hypothèse nulle que celle décrite précédemment afin de calculer la propension à ``adopter'' un champ situé à une distance $\Delta$ donnée.

%On calcule alors la distance entre deux vecteurs comme On définit dès lors la distance entre deux états successifs d'un agent comme la moyenne de la distance minimale pour passer d'une état
%Une fois qu'on a attribué aux acteurs leurs champs, on définit la distance entre deux états successifs d'un agent comme la moyenne de la distance minimale pour passer d'un
%état à un autre entre deux périodes succesives $t$ et $t+1$. \marginpar{à compléter protocole précis... }

\begin{figure}tbp
\center
\includegraphicswidth=0.78\linewidth%,trim=0 10 0 20
]{carto/graph_distscholarsbis.pdf}
\caption{\label{fig:high-prop}Propension à occuper un nouveau champ épistémique en fonction du déplacement $\Delta$ opéré dans le graphe des champs --- périodes de trois ans par rapport aux trois années précédentes de publication.}
\end{figure}

%On calcule également la propension de se déplacer d'une distance donnée, en utilisant la même hypothèse nulle que précédemment et le même ensemble de périodes d'observation que précédemment.
La propension moyenne de déplacement dans le réseau des champs sur l'ensemble des auteurs et des périodes d'observation (en suivant les mêmes hypothèses que précédemment) est représentée figure \ref{fig:high-prop}. On observe que cette courbe est à nouveau fortement décroissante, indiquant que les chercheurs ont tendance à ``adopter des champs'' avec une propension d'autant plus faible que ces champs sont éloignés des champs auxquels ils participaient précédemment.
Par contre, on constate une très forte tendance à la ``répétition'', la propension à rester dans un champ précédemment occupé ($\Delta = 0$) est proche de $80$. La valeur obtenue signifie donc qu'un auteur a près de 80 fois plus de chances de continuer à occuper le même champ épistémique le pas de temps suivant que ne le laisserait supposer un modèle aléatoire. La propension chute ensuite d'un ordre de grandeur dès qu'on envisage des champs à distance $1$. \emph{A contrario} un déplacement à distance 4 ou supérieure est 10 fois moins probable que ne le prévoierait notre hypothèse nulle.
Ce calcul confirme l'intuition que nous avions d'une grande stabilité de la dynamique des auteurs au sein de ce paysage. Il nous conforte également quant à la qualité du réseau de champ reconstruit dont la topologie semble exercer une influence capitale vis à vis de l'activité des auteurs et de leur évolution.




%\MISSING{faire le lien avec la notion de collège invisible de Crane ou avec Callon}

Cette dernière courbe peut également être interprétée comme la mise en évidence d'une rétroaction du niveau macro sur le niveau micro, au sens où, la structure des champs qui émergent des statistiques brutes extraites de l'ensemble des publications ``contraint en retour la dynamique des scientifiques qui se retrouvent plus ou moins ``emprisonnés dans leurs champs d'appartenance ou dans leur voisinage proche. Ce résultat fournit donc l'illustration quantitative d'un effet d'immergence qu'exercent des structures de haut niveau (qui émergent pourtant directement de l'activité des chercheurs) sur les dynamiques individuelles.



Les mesures que nous avons introduites permettent également de définir des indices mesurant l'activité individuelle des agents dans ces paysages conceptuels ; on peut ainsi aisément déduire des distances précédemment introduites ($\delta$ et $\Delta$), un indice global de déplacement général d'un agent agrégeant l'ensemble de ses déplacements dans le temps afin d'apprécier sa mobilité.
De la même fa\c con un indice de diversité (lié à la pluridisciplinarité d'un auteur) peut également aisément être construit à partir des vecteurs $A_{i}
t$ en calculant par exemple la distance moyenne entre termes dans le réseau des champs.

%NB:(faible dépendance des résultats au seuil choisi)

\subsection{Se déplacer dans un espace mouvant}
\ADD{L'analyse des dynamiques des scientifiques dans ces espaces conceptuels devrait également tenir compte des évolutions propres de l'espace.
Si nous suivons \cite{Sewell:1992p2170}:
NaV\begin{quotation}
%Structures shape people's practices, but it is also people's
%practices that constitute (and reproduce) structures. In this view of
%things, human agency and structure, far from being opposed, in fact
%presuppose each other. %Structures are enacted by what Giddens calls
%%``knowledgeable'' human agents (i.e., people who know what they are
%%doing and how to do it), and agents act by putting into practice their
%%necessarily structured knowledge. Hence, ``structures must not be con-
%%ceptualized as simply placing constraints on human agency, but as en-
%%abling" (Giddens 1976, p. 161).
%\end{quotation}
\begin{quotation}
``...Of course, if cultural and societal (network) structures shape actors, then it is equally true that actors shape these structures in turn. Cultural an social structures do not, in other words, by themselves bring about or somehow ``cause historical change. Rather, it is the actions of historical subjects that actually ``reconfigure (given historically conducive circumstances) existing, long-term structures of action, both cultural and societal''
\end{quotation}%\cite{Emirbayer:1994p1938} p 1443
}

%plus loin
%``Giddens defines structure formally in several places, including in the
%glossary to The Constitution of Society: Structure. Rules and resources, recursively implicated in the reproduction of social systems. Structure exists only as memory traces, the organic basis of human knowledgeability, and as instantiated in action. 1984, p. 377 ''
Les structures dans lesquelles se déplacent les agents sont également susceptibles d'évoluer sous l'effet de l'activité de ces mêmes agents. Or, nous avons fait l'hypothèse que la structuration du domaine restait relativement uniforme durant les 10 ans de notre analyse et avons donc calculé les propensions d'aborder un nouveau champ en fonction d'une cartographie tenant compte de l'activité scientifique sur l'ensemble de la période. Ainsi, certains déplacement d'auteurs observés sont certainement simplement dûs à une modification de l'espace sur lequel ils sont projetés. Les effets d'attachement à une communauté scientifique donnée seraient alors sans doute encore plus forts si nous avions envisagé des communautés dont le contenu évolue continuellement, les scientifiques présents dans une communauté ayant tendance à la fois à en modifier les frontières et à en suivre les déplacements.

\begin{figure}t
\center
\includegraphicswidth=0.92\linewidth%,trim=0 10 0 20
]{carto/478.pdf}
\includegraphics%[trim = 0mm 0mm 20mm 0mm, clip,
height=4cm,width=0.9cm{carto/legendesdensite.pdf}
\caption{\label{phylo-478}Extrait de la phylogénie du domaine \emph{développement durable} sur les 10 dernières années (fenêtres glissantes de 4 ans), la couleur des champs correspond à la densité de présence d'un auteur (P. Lowe) sur les champs (du plus clair (blanc) au plus foncé (rouge)) ; la phylogénie complète est beaucoup plus étendue mais ne peut pas être aisément représenté. On remarque la présence privilégiée de l'auteur sur une seule branche de notre réseau.}
\end{figure}

\` A titre d'illustration, nous avons tracé figure \ref{phylo-478} la projection d'un auteur (P. Lowe à nouveau) sur une phylogénie. La méthodologie est identique à celle qui nous avait précédemment permis de créer la projection des publications d'un chercheur sur une carte pendant une période donnée. Nous appliquons pour chaque période temporelle $T$ notre opérateur de projection $h$ sur l'ensemble des champs épistémiques détectés durant cette période. Cette opération permet de fournir une densité de présence associée à cet auteur pour chaque champ de chaque période. Nous représentons ensuite le résultat de cette projection sur la phylogénie calculée aux périodes successives en attribuant à un champ une couleur d'autant plus rouge que l'auteur a une probabilité de présence élevée dans ce champ.
Le résultat, bien que nous n'ayons pas pu reproduire la totalité de la phylogénie pour des raisons de place, montre, pour l'auteur considéré (qui est le même que celui représenté figure~\ref{spectres2}), qu'il suit une trajectoire très linéaire au sein de la phylogénie. Une des branches de la phylogénie présente des taux d'occupation particulièrement importants et ce sur l'ensemble des périodes. Cette branche a subi des mutations importantes
qui ont transformé le champ de départ (période 1998-2001) composé des termes:
\emph{support measure}, \emph{CAP}, \emph{environmental policy}, \emph{agricultural policy}
en un champ final (période 2004-2007) composé des mots-clés suivants: \emph{environment protection}, \emph{CAP}, \emph{agricultural policy}, \emph{roles} et \emph{farm surveys} en passant par des champs ayant emprunté puis délaissé les termes \emph{subsidies}, \emph{support measure}, \emph{EU regulation}, ou \emph{conservation tillage}.
Malgré, ces transformations touchant à la définition même des champs, on observe une grande stabilité du chercheur considéré sur les 10 ans de cette branche du réseau phylogénétique.%\marginpar{dire que c'est un dag}%, \emph{support_measure},
%\emph{environ_policy} et \emph{environmental policy}




NaVNous n'entrerons pas dans les détails d'une caractérisation quantitative de ces effets de co-évolution entre niveaux individuels et niveaux supérieurs.

% à Nous ne rentrerons pas dans les détails d'une méthodologie susceptible de

%Mais on oublie ici que la structure des champs est modifiée alors même que les chercheurs se déplacent dessus.



%\MISSING{ calcul de propension rendant compte des dynamiques phylogénétique, qui ont sans doute tendance à renforcer encore le caractère peu nomade des scientifiques - mais pourquoi changer de crémerie, quand on peut soit même changer les produits...}



% champs:
%0: 100:polluted\_water/pollutants 102:polluted\_water/leaching 106:carbon\_dioxide/carbon\_sequestration 73:nitrates/pollution\_control 87:carbon\_sequestration/carbon\_dioxide 66:bioenergy/greenhouse\_gases 33:temperature/economic\_impact 60:social\_impact/economic\_impact 116:agricultural\_trade/world\_trade\_organization 120:world\_trade\_organization/trade\_liberalization 53:cap/subsidies 69:production/exports 77:subsidies/support\_measures 78:trade\_liberalization/regulations 92:regulations/exports 67:biotechnology/genetic\_engineering
%1: 100:polluted\_water/pollutants 102:polluted\_water/leaching 28:drainage/reclamation 44:drainage\_systems/water\_table 68:catchment\_hydrology/runoff 72:runoff/groundwater 73:nitrates/pollution\_control 74:groundwater/irrigation\_water 111:biology/agricultural\_entomology 122:utilization/arid\_zones 105:water\_allocation/irrigation\_water 121:water\_policy/irrigation\_water 70:water\_use\_efficiency/trickle\_irrigation 95:irrigation\_systems/water\_use\_efficiency
%2: 106:carbon\_dioxide/carbon\_sequestration 87:carbon\_sequestration/carbon\_dioxide 66:bioenergy/greenhouse\_gases 33:temperature/economic\_impact 56:precipitation/climate
%3: 106:carbon\_dioxide/carbon\_sequestration 87:carbon\_sequestration/carbon\_dioxide 108:forest\_policy/forest\_resources 24:deforestation/trees 96:forest\_policy/private\_forestry
%4: 103:natural\_resource\_economics/resources 111:biology/agricultural\_entomology 112:control/plant\_pests 115:economic\_theory/resource\_allocation 122:utilization/arid\_zones 91:weed\_control/agricultural\_entomology 43:efficiency/farm\_inputs 17:development\_policy/economic\_development 52:urbanization/agricultural\_land
%5: 103:natural\_resource\_economics/resources 115:economic\_theory/resource\_allocation 48:maps/remote\_sensing 76:mapping/maps 97:satellite\_imagery/remote\_sensing 52:urbanization/agricultural\_land
%6: 111:biology/agricultural\_entomology 122:utilization/arid\_zones 107:species\_richness/botanical\_composition 88:grasslands/botanical\_composition 108:forest\_policy/forest\_resources 114:forest\_policy/forest\_economics 24:deforestation/trees 42:forest\_economics/valuation 57:community\_forestry/social\_participation 96:forest\_policy/private\_forestry 43:efficiency/farm\_inputs
%7: 48:maps/remote\_sensing 37:grazing/grassland\_management 88:grasslands/botanical\_composition 49:land\_policy/public\_domain 82:pastures/range\_management 52:urbanization/agricultural\_land
%8: 18:floodplains/natural\_disasters 33:temperature/economic\_impact 60:social\_impact/economic\_impact 81:tourism\_impact/destinations 29:pest\_control/weeds 67:biotechnology/genetic\_engineering
%9: 107:species\_richness/botanical\_composition 25:international\_agreements/international\_cooperation 58:intellectual\_property\_rights/indigenous\_knowledge 88:grasslands/botanical\_composition 89:indigenous\_knowledge/plant\_genetic\_resources 98:wildlife\_management/wild\_animals
%10: 110:tenure\_systems/land\_ownership 32:land\_management/landscape\_conservation 40:private\_ownership/property\_rights 41:transition\_economies/agricultural\_situation 49:land\_policy/public\_domain 86:land\_ownership/land\_policy 99:tenure\_systems/land\_reform 52:urbanization/agricultural\_land

%




%%




%%

%%PHYLO






%%




%NaV\section{reconstruire la phylogénie des sciences.}
%We are facing a real challenge when coping with the continuous acceleration of scientific production and the increasingly changing nature of science. In this article, we extend the classical framework of co-word analysis to the study of scientific landscape evolution. Capitalizing on formerly introduced science mapping methods with overlapping clustering, we propose methods to reconstruct \emph{phylogenetic networks} from NaVsuccessive science maps, and give insight into the various dynamics of scientific domains.
%Two indexes - the \emph{pseudo-inclusion} and the \emph{empirical quality} - are introduced to qualify scientific fields and are used for reconstruction validation purpose.
%Phylogenetic dynamics appear to be strongly correlated to these two indexes, and to a weaker extent, to a third one previously introduced (\emph{density index}). These results suggest that there exist regular patterns in the ``life cycle'' of scientific fields. The reconstruction of science phylogeny should improve our global understanding of science evolution and pave the way toward the development of innovative tools for our daily interactions with its productions. Over the long run, these methods should lead quantitative epistemology up to the point to corroborate or falsify theoretical models of science evolution based on large-scale phylogeny reconstruction from databases of scientific literature.
NaV\textbf{Keywords:} science dynamics | co-word analysis | phylogeny | reconstruction


%\fbox{\rk{Plan de l'article:}}

NaVWe are facing a real challenge when coping with the increasingly changing nature of science. First, the millions of papers published every year make clearly impossible for anybody to be aware of all the important breakthroughs and developments in science. This issue is made even more critical by the continuous acceleration of scientific production, which threatens every scholar with \textit{information overload } (the volume of publications per year has doubled the last 12 years). Second, although science is not carved in marble and would better be defined as an ever-changing enterprise \cite{Hull-1988}, a lively debate has been taken place for more than 10 years around the shift toward a new regime of knowledge production following the transformation of the nature of the research process. According to \cite{nowotny2001rts} science has recently entered a new mode, where knowledge is generated within a wider context of application, making full place to trans-disciplinarity, defined as the circulation of tools, theoretical perspectives, and people.

%Whatever the causes of such transformations, the frontiers of science indeed appear to be even faster changing and getting blurred as fields and sub-fields are cross-fertilizing, growing or dying. There is an urge to \textitWARNING: Plugin disabled map!. %,

%and by the deep revolution in the processes of science organization and dissemination, as we switched between a strongly hierarchical scheme of knowledge dissemination where journals were the intermediary between scientists to rather network-fashioned patterns of knowledge circulation.

%Of course, these problems are not new. Philosophers of science have been theorizing for a long time the conceptual structure of science and have proposed a lot of (often conflicting) descriptions and explanations of scientific change and revision (\cite{popper1963Conjectures}, \cite{Kuhn-1970}, \cite{Bonaccorsi2008Search}).

%However,

%If today, electronic archives and other scientific databases are indeed a real opportunity to get insight into the scientific production and its evolution, the counterpart is that this massive access to millions of scientific papers requires specific methods to handle the global picture they contain. In order to understand something to this huge mass of heterogeneous data about science, data-mining tools (in the wide sense) are required to identify patterns, or \textit{meso structures}, that make sense to us(ers) (\textit{e.g.} scientific fields or "paradigms"). %One of the major challenge scientometrics is to deliver scientists pictures of the knowledge landscape they face in their everyday work.

%Science mapping is one of the aims of scientometrics, a young science that took off in the late seventies, fostered by the development of electronic scientific databases and the increasing power of computers. Data-mining methods (in the wide sense) have been developed that make it possible to identify patterns, or \textit{meso structures} in scientific corpora that make sense to us (\textit{e.g.} \emph{scientific fields} or \emph{epistemic fields}). The articulation between these scientific fields are then displayed on science maps to give overviews of scientific domains.

NaV
%Part of the utility of science maps, both for theorists (science studies, history and philosophy of science), for users (scientists) or policy makers, comes from their capacity to give meaning to the evolution of science: what are the emergent fields, the continuities and main paradigmatic shifts, and from which scientific fields does a new field inherit its intellectual background. There is thus an important concern about reconstructing these dynamics in such a way that fields of knowledge could be tracked through time. From the theoretical point of view, this entails that the core object in the representation of the evolution of science is a \emph{phylogenetic network} while most scientometrics studies focus on science snapshots. In this article, we will show that co-word analysis is a suitable approach from this perspective and propose methods for an automated reconstruction of science phylogenies. The core question is: \textit{How can we reconstruct science dynamics through automated bottom-up analysis of scientific publications? }


%, through the reconstruction of science phylogenies. These methods will improve our global understanding of science evolution and pave the way toward the development of new tools for our daily interactions with its productions. %% la phrase précédente peut être enlevée ...
% In the long term, these methods should be able to corroborate or falsify models of science evolution.
NaVAs case study, the paper presents a first reconstruction of a phylogeny related to networks studies in biological and medical research.




%% PROFITER DE LA CARTE POUR MONTRER LA STRUCTURE INTERNE ?

%\subsection{Tracking meso-dynamics}


%One of the most essential features of the evolution of science is the way in which new associations between terms are performed and change the composition of scientific fields. These changes in the use of terms are the main visible evidences of shifts in scientific activity. Sets of terms are the adequate level to study cross-fertilization of different fields of science, circulation of concepts through domains, bursts of activity in a given branch, and so on. They are widely used by scientists, to define with few keywords, their research, a journal topics or a conference scope. We will call the dynamics of science studied at the level of sets of terms the \textit{meso-dynamics} of science. Reconstructing these meso-dynamics is equivalent to finding a matching function between clusters of science maps between successive periods of time.





NaV\section{Indexation: from corpus to data}

%\FTR{These terms were then indexed from 1950 to 2008 in the 2,69M retrieved abstracts to build the co-occurrence array $\mathcal{M}_t$ of all co-occurrences for terms in $\mathcal{L}$ from 1950 to 2008. $\mathcal{M}_t(i,j)$ gives the number of articles published during the year $t$ which mentioned both terms $i$ and $j$ in their abstract.}

NaV\FTR{We developed and used the Words Evolution software (http://sciencemapping.com/WE) to process and visualize the phylogenies. This software is interfaced with network visualization tools like Gephi or Graphviz as well as clustering softwares like Cfinder.}

%\section{Supplementary figures}
NaVThe authors warmly thank Jean-Paul Gaudilli\`{e}re and Christophe Bonneuil for their help in selecting the list of terms. These researches have been supported by the FP7 PATRES project, the Paris \
{I}le-de-France Complex Systems Institute, the Ecole Polytechnique/CNRS, and the INRA.

NaV\bibliography{phylogeny}
%%\bibliographystyle{pnas}

NaV\bibliographystyle{authordate2}




NaVNaV\begin{figure*}ht
%\begin

NaV\caption{LKB1 phosphorylates Thr-172 of AMPK$\alpha$ \textit{in vitro}
%and activates its kinase activity.}\label{afoto2}
%\end

NaV\begin{table}h
%\caption{Repeat length of longer allele by age of onset class.
%This is what happens when the text continues.}
%\begin{tabular}{@{\vrule height 10.5pt depth4pt width0pt}lrcccc}
%&\multicolumn5c{Repeat length}\\
NaVAge of onset,\\
NaV\vrule depth 6pt width 0pt years&\multicolumn1c{\it n}&Mean&SD&Range&Median\\
NaVJuvenile, 2$-$20&40&60.15& 9.32&43$-$86&60\\
%Typical, 21$-$50&377&45.72&2.97&40$-$58&45\\
%Late, $>$50&26&41.85&1.56&40$-$45&42\tablenote{The no. of wells for all samples was 384. Genotypes were
%determined by mass spectrometric assay. The $m_t$ value indicates the
%average number of wells positive for the over represented allele.}
%\\
NaV\end{tabular}
%\end{table}

NaV\begin{table*}ht
%\caption{Summary of the experimental results}
NaV{@{\extracolsep{\fill}}rrrrrrrrrrrrr}
NaV\multicolumn{5}{c}{Averaged Results}&
%\multicolumn{5}{c}{Comparisons}\cr
NaV\multicolumn1c{$n$}&\multicolumn1c{$S^*_{MAX}$}&
%\multicolumn1c{$t_1$}&\multicolumn1c{\ $r_1$}&
%\multicolumn1c{\ $m_1$}&\multicolumn1c{$t_2$}&
NaV&\multicolumn1c{$t_{lb}$}&\multicolumn1c{\ \ $t_1/t_2$}&
NaV$t_1/t_{lb}$\cr
NaV10\tablenote{Stanford Synchrotron Radiation Laboratory (Stanford University,
%Stanford, CA)}&1\quad &4&.0007&4&4&.0020&4&4&1.000&.333&1.000&1.000\cr
%10\tablenote{$R_{\rm FREE}=R$ factor for the $\sim 5$\% of the randomly
%chosen unique ref\/lections not used in the ref\/inement.}&5\quad &50&.0008&8&50&.0020&12&49&.999&.417&.698&1.020\cr
%100\tablenote{Calculated for all observed data}&20\quad &2840975&.0423&95&2871117&.1083&521&---&
%.990&.390&.182&---\ \ \cr
NaV\end{tabular*}
%\end{table*}

\section*{Perspectives}


\ADD{Nous avons développé un ensemble de méthodes de cartographie des sciences à partir de corpus électroniques de publications scientifiques en nous appuyant sur des outils de fouille de données et d'analyse de réseaux. %, en partie dans le but de cartographier les sciences à partir de corpus électroniques de publications scientifiques.
Ces cartes permettent de représenter un domaine scientifique sous la forme de champs épistémiques qui s'articulent les uns avec les autres. L'enjeu est d'être capable de développer des outils permettant de développer une véritable épistémologie quantitative exclusivement fondée sur les traces de l'activité scientifique.
Mais les perspectives ouvertes sont aussi bien théoriques qu'applicatives, ces méthodes de reconstruction permettent également de définir de nouvelles modalités d'interaction avec la science, notamment en ce qui concerne la navigation à travers de grandes bases de donneés. On peut même songer à des application du type reconstruction de connaissance à partir d'informations manquantes (données de micropuces, ou de réseaux de régulation en biologie). }

\ADD{Une partie de l'intérêt de ces cartes pour les théoriciens (sociologues des sciences et techniques, historiens ou philosophes des sciences), pour leurs chercheurs ou pour les gestionnaires de la science, est de les équiper de représentations et d'interfaces de manipulation de ces représentations afin de mieux saisir un paysage scientifique extrêmement mouvant, et donc de mieux anticiper, voir et comprendre les dynamiques qui l'anime. }

\ADD{Un des défis qu'il s'agit de relever tient précisément à la question de la représentation et de la communication de ces résultats. Les structures que nous avons construites ne sont pas toutes aisément manipulables. Ainsi au delà d'une interrogation d'ordre globale sur les motifs qui les composent, les phylogénies paraissent difficilement utilisables en l'état. Il nous faut donc inventer des représentations plus pertinentes ou des modalités de navigation plus locales qui interrogent l'usage que l'on souhaite faire de ces cartes et qui se construisent \emph{de facto} en interaction très forte avec les destinataires des cartes.}% sont les champs émergents, les continuités ou discontinuités épistémiques au sein de telle spécialité, comme identifier les héritages conceptuels entre domaines, etc ?


\ADD{Les méthodologies que nous avons décrites peuvent en grande partie être étendues à d'autres type de corpus. On peut envisager les appliquer à des domaines connexes aux sciences (base de brevets par exemple) ou plus éloignés: données de cooccurrences extraites de l'activité des communauté en ligne (nous pensons évidemment au texte brute des billets de blogs ou plus largement des contenus véhiculés au sein de \CDSs, mais également aux tagging system (folksonomy)) mais aussi aux données extraites des requêtes des moteurs de recherche.}

Dans une perspective plus directement liée à notre exploration des \CDSs, ces méthodes offrent une véritable opportunité pour améliorer leur modélisation. En effet, la modélisation des réseaux socio-sémantique et sémantique que nous avions introduit dans le chapitre précédent peut maintenant être étendue grâce à nos méthodes de reconstruction des dynamiques scientifiques (ou, dans une perspective plus large, sémantiques). Ainsi, nous pouvons utiliser notre notion de champ épistémique (ou simplement de champ) pour remplacer les entités linguistiques que nous avions privilégiées et qui étaient susceptibles d'induire un certain nombre de problèmes (liés notamment à la polysémie ou à la synonymie des termes par exemple). Le réseau socio-sémantique serait ainsi transformé en un réseau bipartite liant les agents à leurs champs d'appartenance, tandis que le réseau sémantique est directement identifiable à notre réseau de champs $\hat{G}$.
Nous n'avons pas pu reprendre l'ensemble des analyses du chapitre précédente à travers cette nouvelle modélisation, mais conjecturons que ces méthodes ouvrent la voie vers une prise en compte encore plus fidèle de la phénoménologie des communautés de savoirs.


%\FTR{This approach opens perspectives both from theoretical and applicative points of view. While we tried to show that researches in the reconstruction of science dynamics are close to the point where they will make it possible to corrobate or falsify theories in epistemology and science studies, we can also expect they will considerably renew the way we interact with science, especially when browsing large-scale electronic databases. Moreover, the methodology presented here is not specific to scientific corpora and may be applied to a wide range of co-occurrence data from online communities, patents database, folksonomies, web queries or even experimental data like micro-array data.}


%Il y a donc un intérêt tout particulier à retracer les dynamiques des champs scientifiques dans le temps. Les propositions actuelles de cartographie des sciences s'appuient généralement lorsqu'elles traitent de dynamiques sur une analyse faite de ``snapshots'' successifs. Nous proposons une représentation des dynamiques qui animent les champs scientifiques qui prend la forme d'un \emph{réseau phylogénétique} reconstruit à partir d'un traitement longitudinal des statistiques d'occurrence et de co-occurrences d'un ensemble de concepts.

%\parag{Vers une epistemologie quantitative}

%\FTR{The seminal work of Callon et. al. \cite{callon91coword} was the first attempt to quantify the evolution of scientific fields through co-word analysis, monitoring inter alia, the evolution of the density of clusters. Our work proposes the first automated methods for the bottom-up reconstruction of the entire phylogeny of a domain of science and is clearly in line with their approach. We expanded their approach in several ways, trying to take into account the classical limitations of scientometrics that have been expressed hitherto.\\
%\textbf{Coverage: } Co-word analysis can cover the largest bibliographic database available. Nowadays, online publishers cover between 30 and 40 million articles, which represent a significant part of worldwide scientific literature. We gave an example on a case study based on MedLine (14M papers) covering most medical and biological research.\\
%\textbf{Ambiguity: } Contrary to \cite{callon91coword} and most subsequent works, we used overlapping clustering algorithms in order to ensure that we can handle ambiguity in terms use and avoid false negatives in scientific fields detection \emph{e.g.} terms that are classified in different clusters although they are strongly related.\\
%\textbf{Asymmetry and bottom-up multi-level mapping: } Following previous work \cite{chava:scien}, we based our clustering algorithm on an asymmetric proximity measure in order to fully reflect the organization of science into domains and sub-domains. This asymmetry makes it possible to highlight the internal structure of clusters allowing automatic labeling \cite{coint08multi} in a bottom-up way (contrary to top-down labeling, \textit{e.g.} \cite{Moya2004New}, \cite{boyack2005mapping} or \cite{Leydesdorff2008Dynamic} who use ISI journal classification to label clusters). This offers possibilities of multi-level mapping with multiple view points on the phylogeny according to the required degree of specificity. We also introduced a measure of fields structuration, the \textit{pseudo-inclusion index}, based on this new asymmetric proximity and we showed that the pseudo-inclusion index appears to be very informative when assessing the evolution of a fields of research.\\
%\textbf{Validation: } Complementary to \cite{Heal86AnExp} who suggested to use both ``internal validation (\textit{i.e.} by experts of the domains) and ``external validation (\textit{i.e.} by users of the maps), and \cite{Hopcroft2004Tracking} who proposed a method to asses the stability of a clustering, we proposed an \textit{empirical validation} of science maps (confrontation with real data) that could be articulated with the two previous ones in future work. We introduced the \textit{empirical quality} that reflects the amount of information conveyed by a cluster about actual scientific activity and showed that the pseudo-inclusion index was positively correlated with the empirical quality. The density, on the other hand, was only weakly correlated.\\
%\textbf{Dynamics: } The proposed methodology capitalises on the availability of diachronic data to reconstruct the phylogeny of scientific fields, and takes into account multiple filiations, contrary to what could have been done in other related fields like social group evolution \cite{Palla:2007p229} or \cite{Hopcroft2004Tracking}. The reconstructed science phylogeny revealed strong and robust patterns which appear to highlight strong regularities in science evolution.\\}



NaV\marginpar{out}
%\subsection{exemples de cartes}

NaVNaV\includegraphicswidth=\linewidth, height=9cm%,trim=0 10 0 20
NaV\caption{\label{paysage} paysage conceptuel de la période 2004-2007 autour du thème biologie et réseau. Chaque noeud du réseau représente un champ paradigmatique illustré par un exemple dans l'encart en bas à gauche. La taille d'un champ est proportionnelle à son activité tandis que sa couleur reflète la croissance de son taux d'activité (bleu: décroissance de plus de $50\%$, blanc, champ stable, jaune, croissance de $50\%$, rouge, croissance supérieure à $100\NaV\end{figure}



%\FTR{Les cartes produites par les méthodes de reconstruction des dynamiques scientifiques peuvent ainsi être validées par des experts du domaine. Mais l'objectif principal est d'accompagner le travail de reconstruction historique en fournissant une représentation visuelle de la structuration des sous-domaines de la biologie à une époque donnée, et de leurs dynamiques (cf figure \ref{paysaged}). Les cartes ainsi produites peuvent servir de support à l'exploration d'hypothèses expliquant les mutations épistémologiques contemporaines. }


NaV\includegraphicswidth=16cm, height=9cm%,trim=0 10 0 20
NaV\includegraphicswidth=6cm, height=4cm%,trim=0 10 0 20
NaV\subsubsection{analyse des dynamique}

NaV\FTR{Les outils développés ont permis d'objectiver et d'accompagner les hypothèses sur une transition du tout génétique à une vision moins déterministe des mécanismes biologiques. Les questions propres à la représentation de connaissance multi-échelle sont ici cruciales autant à cause de la complexité des données à mettre en forme que par la nécessité d'intégrer des experts du champ dans la boucle de modélisation. L'aspect mutli-niveau des cartes a été pris en compte en développant un site web, permettant de naviguer à travers les différentes périodes et à travers les différents niveaux selon le degré de résolution souhaitée. La dimension dynamique est un challenge supplémentaire qui requiert d'inventer des solutions de visualisation inédites, le treillis des champs et de leurs transitions n'étant manifestement pas une solution satisfaisante pour le moment.} %


\Resumebox{Après une rapide analyse des relations entre des communautés structurelles et communautés thématiques sur le web social fran\c cais, nous avons proposé dans ce chapitre, un ensemble de méthodes de reconstruction des dynamiques des communautés scientifiques à différentes échelles. La cartographie des sciences se situe à la croisée de nombreux enjeux méthodologiques, politiques ou de gestion. Notre apport a consisté à proposer une série de méthodes de reconstruction entièrement \emph{bottom-up} qui rende compte de la nature hiérarchique de l'organisation des sciences mais aussi de la polysémie des concepts.

Une mesure asymétrique de proximité entre termes adaptée à l'hétérogénéité de la distribution des occurrences d'apparition des termes dans les publications scientifiques a été introduite. Une méthode de catégorisation multi-échelle d'un ensemble de termes a ensuite été proposée. Les clusters ainsi produits ont été qualifiés au moyen d'indices permettant d'en apprécier la cohésion, l'importance, ou l'évolution. Nous avons également introduit un certain nombre de mesures et de méthodes à même de rendre compte de la dynamique de ces clusters.

La dynamique mésoscopique des champs épistémiques a été reconstruite sous la forme d'un réseau phylogénétique illustrant les motifs de filiation entre champs. Ces structures semblent dotées d'un certain nombre de propriétés remarquables vis-à-vis des indices de structuration de nos champs, ce qui ouvre la voie vers une véritable épistémologie quantitative.
Enfin, les publications des chercheurs ont été reprojetées sur les champs épistémiques reconstruits. L'évolution de la distribution de ces chercheurs dans ces paysages conceptuels montre une forte stabilité de leurs déplacements dans ces espaces dont la topologie rétro-agit sur le comportement des agents.


}

Collaborateur(s) de cette page: cointet .
Page dernièrement modifiée le vendredi 28 août, 2009 11:44:46 CET par cointet.

Langue du site : Français