Lord Dralnar a écrit:
si la réponse à la question de Gino est affirmative, cela veut-il dire que les pays muslims pourraient interdire les sites qui contiendraient "athée" ou "laïcité" dans leurs mots clés?
Bien entendu. Le filtrage qui s'opere au niveau d'un seul pc peut etre etendu a n'importe quel reseau (modulo des techniques et des technologies appropriees). C'est deja ce qui se passe tres clairement p.e. en Iran (source:
ONI), peut-etre pas (encore) avec les mots-clef que tu as suggeres (faudrait verifier). Le cas de la Chine est un peu particulier dans la mesure ou l'architecture du reseau tel qu'il a ete concu est propice (euphemisme!) a un controle maximal de l'information.
Une des pages d'un des liens proposes par dauphin l'explique assez clairement:
rsf a écrit:
La censure chinoise, comment ça marche ?
L’architecture du Réseau chinois a été conçue dès l’origine pour permettre le contrôle de l’information. Il n’existe que cinq backbones, c’est-à-dire cinq points par lesquels passe l’ensemble du trafic. Quel que soit le fournisseur d’accès utilisé par l’internaute, ses e-mails et les documents qu’il télécharge transitent nécessairement par ces nœuds de connexion.
La Chine a ensuite acquis des technologies et du matériel de pointe auprès d’entreprises américaines. Cisco Systems a ainsi vendu plusieurs milliers de routeurs, à plus de 16 000 euros pièce, pour constituer l’infrastructure de surveillance du régime. Ce matériel a été paramétré avec l’aide des ingénieurs Cisco. Il permet de lire les informations transmises sur le Réseau et de repérer des mots clés " subversifs ". La police a les moyens de savoir qui consulte des sites prohibés ou envoie des courriers électroniques " dangereux ".
Les autorités ont mis en place un filtrage efficace de la Toile. Le spectre de la censure est extrêmement large, allant de sites d’information à des publications sur les minorités ethniques, en passant par la pornographie, le mouvement spirituel Falungong ou les droits de l’homme. Selon une étude menée par le Berkman Center for Internet & Society, la Chine bloque plusieurs centaines de milliers de sites. Certains sont bloqués par leur adresse IP, d’autres par leur nom de domaine, mais des méthodes plus subtiles sont également apparues. Pékin pratique maintenant le détournement de DNS (DNS highjacking), une méthode qui permet, lorsqu’un internaute cherche à consulter un site interdit, de le rediriger vers un autre site, ou vers une adresse invalide. Ce type de censure est difficile à déceler par l’utilisateur, qui croit erronée l’adresse tapée. Les autorités parviennent également à censurer directement les moteurs de recherche. Pour Yahoo !, la tâche est aisée puisque celui-ci a accepté de se plier à la demande du gouvernement. Cependant, d’après Benjamin Edelman, spécialiste des techniques de filtrage du Web, le moteur de recherche Google est lui aussi contrôlé, contre son gré, par le pouvoir. Le blocage pur et simple de cet outil, tenté en 2002, s’est avéré difficile tant il est essentiel au fonctionnement du Net. La Chine a donc réussi à bloquer ses résultats de recherche, excluant les thèmes controversés. A présent, une recherche Google sur le terme Falungong entraîne soit un blocage temporaire de la connexion de l’internaute, soit ne donne aucun résultat.
Certains utilisateurs du Net chinois parviennent à contourner cette censure, en utilisant par exemple des relais proxies, c’est-à-dire en se connectant au Réseau au travers de serveurs basés à l’étranger. Des systèmes ont ensuite été mis en place par des activistes hors de Chine, pour aider les internautes à contourner les filtres du régime. Les plus actifs dans ce domaine sont le laboratoire de recherche Citizenlab, de l’université de Toronto (Canada), et Dynamic Internet Technology, une entreprise dirigée par Bill Xia, un Chinois émigré au Etats-Unis. Les Etats-Unis ont en outre créé un Bureau de la liberté sur Internet (Office of Internet Freedom), chargé de créer et diffuser des technologies permettant de contourner la censure du Net dans les pays répressifs.
Le
Berkman Center for Internet & Society (Harvard) a d'ailleurs publie un certain nombre de bons articles/etudes sur ce sujet. On pourra p.e. consulter avec profit '
Empirical Analysis of Internet Filtering in China', '
Localized Google search result exclusions: Statement of issues and call for data' et '
Replacement of Google with Alternative Search Systems in China: Documentation and Screen Shots'.
Citation:
Ces mots-clés sont-ils définis par le webmaster du site ou bien sont-ils déterminés par le moteur de recherche?
Les mots-clefs - precisons que ceux-ci ne sont pas le seul critere de selection, de stockage, d'archivage, l'indexation et d'extraction des fichiers dans un moteur de recherche - sont en partie, et en partie seulement, determines par l'auteur d'un fichier. Et tant mieux: cela permet d'optimiser l'objectivisation, et donc la pertinence, des recherches. Par exemple, l'extraction d'un fichier *.html est effectuee par des bots (= des robots, i.e. des programmes, i.e. des algorithmes) en tenant compte principalement de trois elements: 1) le texte du fichier (d'ou ils pechent un peu pseudo-aleatoirement et un peu en fonction de leur frequence d'apparition des mots qui deviendront eux aussi des "mots-clefs"), 2) lesdites meta-informations (nom de l'auteur, mots-clef, URL, etc.) et 3) les liens hypertexte. Les bots ignorent en general - meme s'il existe aujourd'hui des meta-moteurs version beta qui peuvent le faire avec plus ou moins de bonheur - la mise en page, le graphisme, les sons et les images. En d'autres termes, les "sens" des bots ne sont pas equivalents a ceux qui nous permettent d'apprecier un fichier: leur univers sensoriel n'est pas le notre. Ainsi, les bots etendent automatiquement la palette de ce que nous appelons des "mots-clefs" (cad que l'"univers semantique" des bots, et a fortiori d'un moteur de recherche, ne se restreint pas aux mots-clefs choisis par l'auteur d'un fichier... j'me repete un peu, la). Bref, le critere des "mots-clefs" tels que nous les entendons usuellement n'est qu'une des nombreuses contraintes formelles non-exclusives qui permettent au moteur de recherche de traiter un fichier (Google utilise p.e. une serie d'agorithmes decrits simplement et seulement en partie
ici ["seulement en partie" parce qu'il regne une certaine opacite sur les details de la structure de l'algorithme PageRank qui fait la force - tant technologique qu'economique - de Google]).
Citation:
Comment se fait-il qu'une recherche sur "miserable failure" sur gogol nous amène sur le site de la maison blanche avec doubleyou tout sourire?
C'est le Google bombing. On en avait un peu parle
ici-meme, il y a quelques temps deja.
Citation:
Car si les mots-clés sont définis par le webmaster, il suffit de "bluffer" le moteur de recherche par des mots-clés bidons!
Vu l'architecture du reseau chinois - donc egalement des contraintes qu'elle impose aux flux informationnels au travers de la technologie deployee par Cisco et par quelques autres - et la structure fonctionnelle de Google (et de presque tous les moteurs de recherche) exposee tres succintement ci-dessus, cette option est extremement insuffisante, pour ne pas dire drammatiquement inefficace puisqu'elle se plie sans broncher aux filtrages generes par blocage des IP et/ou des noms de domaine, par redirection "miroir" = DNS highjacking, etc.. D'ailleurs, en tentant de "bluffer" le moteur de recherche par depistage via inflation de mots-clef dispersifs ou par Google bombing, tu ne feras en fait qu'accroitre - tres legerement, cela va de soit: l'alteration topologique est negligeable - l'entropie du web, mais, surtout, tu compliqueras un peu plus la vie des internautes qui recherchent le site ainsi honore ou les infos qu'il est cense contenir. Rien de plus. Il est par contre possible de contourner les filtres etatiques chinois (et pas que chinois d'ailleurs) grace a certains subterfuges pour l'instant encore assez efficaces (proxies ou outils proposes p.e. par le
CitizenLab, pour n'en citer que deux).
Pyne Duythr