critique de livre

"Mining the Web: Discovering Knowledge from Hypertext Data", de Soumen Chakrabarti - Avis sur le livre

Le livre "Mining the Web: Discovering Knowledge from Hypertext Data" de Soumen Chakrabarti semblait plein de promesses. Malheureusement il n'a pas répondu à mes attentes.

Voici la présentation que l'éditeur fait du livre : "Ce livre est le premier qui soit consacré aux techniques permettant d'extraire de la connaissance de la vaste collection des données non structurées que l'on trouve sur le web. Chakrabarti passe d'abord en revue les questions d'infrastructure tel que le parcourt et l'indexation du web, puis il examine les techniques d'apprentissage automatique (machine learning) de bas niveau qui permettent d'exploiter les données du web (web mining)."

En d'autres mots, ce livre traite des techniques qui permettent de trouver automatiquement des données (ou pages) pertinentes sur le web. Il aborde les problématiques auxquelles sont confrontés les moteurs de recherche lors du parcours et de l'indexation des pages web : nombre énorme de pages à indexer, évolution permanente du corpus à indexer, rafraîchissement des pages déjà indexées... Puis il évoque les différentes façons d'effectuer une recherche à l'intérieur d'un corpus de documents indexés, via des requêtes SQL classiques ou grâce à plusieurs méthodes d'évaluation de la pertinence.

L'auteur aborde ensuite la notion de similarité et aggrégat (clustering) qui consiste en gros à regrouper des documents selon certaines thématiques. Cela permet d'optimiser les recherches sur des termes qui peuvent être hautement ambigu (par exemple, le terme "star" en anglais peut faire allusion aux étoiles dans le ciel, aux stars de cinéma, à l'hymne américain ("star spangled banner")...). En effet, on peut demander à l'utilisateur à quel "cluster" sa recherche appartient et optimiser les résultats retournés.

Il parle ensuite d'apprentissage supervisé (supervised learning), une technique qui consiste à associer à des documents uniquement des mots-clé appartenant à une certaine "classe" de mots-clé définis manuellement. On parle aussi d'apprentissage semi-supervisé (semi-supervised learning), une technique qui consiste à entraîner un moteur de recherche à rattacher des documents à des mots-clé pertinents en lui montrant un ensemble de documents déjà taggés sur lesquels se baser pour tagger les futurs documents.

Enfin, Chakrabarti évoque l'analyse des réseaux sociaux comme moyen d'obtenir des résultats encore plus pertinents. Il faut comprendre "réseaux sociaux" au sens large, c'est-à-dire le fait que les pages web se citent les unes les autres via des liens hypertexte, et que la source de la citation doit être prise en compte dans le classement du document cité (sur lequel le "prestige" de la source rejaillit en partie). Il parle également de l'importance de la "découverte des ressources", c'est-à-dire le fait d'indexer préférentiellement les pages importantes, les pages portant sur un sujet précis (considéré comme pertinent), ou les pages appartenant à une "communauté" (hub) de pages.

L'auteur conclut en évoquant le futur du web mining qui passe par l'extraction d'informations, la compréhension du langage naturel, la réponse aux questions posées en langage naturel...

Pourquoi je n'ai pas adoré ce livre

Je trouve que les sujets abordés par ce livre sont passionnants. Malheureusement, ils le sont de façon extrêmement universitaire. Le livre est truffé d'équations permettant de calculer la similarité entre deux documents ou la pertinence d'un document par rapport à une requête. C'est intéressant pour celui qui fait de la recherche ou celui qui cherche à développer son propre moteur de recherche, mais à mon niveau, mes attentes sont plutôt de comprendre les concepts de base du "web mining" et de trouver des outils prêts à l'emploi qui me permettront effectivement d'extraire des informations du web de façon automatique ou semi-automatique.

Les applications sont multiples, notamment la constitution automatique de bases de données (pour mon annuaire de PME par exemple), et le web mining est étroitement lié au web sémantique, aux web bots, aux agents intelligents... autant de sujets que je trouve passionnants. Malheureusement, ce n'est pas ce livre qui vous permettra de vous sentir plus à l'aise de ces domaines (à moins que vous ayez un bon profil d'informaticien pur).

"They made it", de Angelika Blendstrup - Avis sur le livre

Je viens de terminer la lecture du livre "They made it", de Angelika Blendstrup.

Le titre et le sous-titre de ce livre résument bien son propos : "Ils y sont arrivés ! Comment des Chinois, des Français, des Allemands, des Indiens, des Iraniens, des Israéliens et d'autres entrepreneurs nés à l'étranger ont contribué à l'innovation high-tech dans la Silicon Valley, aux Etats-Unis et outre-Atlantique." (Rappelons que l'auteur vit aux Etats-Unis ; le mot "étranger" désigne donc les non-Américains et "outre-Atlantique" désigne l'Europe.)

Ce livre est une succession d'interviews d'entrepreneurs d'horizons très divers qui se sont implantés et ont réussi dans la Silicon Valey. Ces entrepreneurs sont plus ou moins connus, et tous ont des profils différents : il y a les capitaux-risqueurs (Venture Capitalists), les ingénieurs, les hommes d'affaires issus de l'université, les magiciens de la startup (start-up wizards), les magiciens de la grosse entreprise (corporate wizards), les PDG (CEO), les entrepreneurs basés outre-Atlantique, les entrepreneurs philanthropes, et les Américains pure souche. C'est d'ailleurs cette typologie par type d'entrepreneur qui a été retenue pour organiser le livre.

Cette variété de profils se double d'une variété de nationalités qui rend cette collection d'interviews très éclectique et intéressante.

Chaque interviewé a eu les mêmes questions (ou quasiment), ce qui permet de s'appuyer sur une grille de lecture commune, et éventuellement de faire des comparaisons. J'ai bien aimé le choix des questions, qui portent autant sur les aspects personnels que professionnels du parcours des participants : en quoi consiste votre métier ? En quoi l'enfance que vous avez eue ou votre famille a-t-elle influencé votre parcours ? Où avez-vous étudié ? Quels sont les plus gros obstacles que vous ayez rencontrés ? Comment définiriez-vous le succès ? Comment avez-vous géré les différences culturelles entre votre pays d'origine et les Etats-Unis ? Auriez-vous réussi en dehors de la Silicon Valley ? Quels conseils donneriez-vous à des gens qui veulent faire la même chose que vous ?

Le livre se termine par une série de "recettes de la réussite" inspirées par ces différents entrepreneurs. Je les reproduis ici :

  • Recette 1 : Démarquez-vous des autres (faites-vous des compétences uniques, travaillez plus dur que les autres...).
  • Recette 2 : Visez l'excellence (soyez excellent et à jour dans les domaines que vous maîtrisez, entourez-vous des bonnes personnes pour ce que vous ne maîtrisez pas).
  • Recette 3 : Tentez votre chance (tolérez les risques, croyez à votre vision, soyez passionné).
  • Recette 4 : Sautez le pas (croyez en vous, cultivez votre différence, ne focalisez pas sur les signes extérieurs de réussite).
  • Recette 5 : Soyez acharné (rebondissez sur vos échecs, réinventez-vous, soyez persévérants).
  • Recette 6 : Soyez "aware" (autrement dit, soyez ouvert : à la vie, à la culture, à vos proches, aux autres...).
  • Recette 7 : Soyez un leader (portez votre vision, définissez une direction).
  • Recette 8 : Soyez innovant (soyez créatif, pensez différemment, élargissez vos horizons, entretenez votre curiosité).
  • Recette 9 : Soyez passionné (mettez de la passion dans tout ce que vous faîtes, ne perdez jamais de vue votre idée de départ et la flamme qui l'accompagnait).
  • Recette 10 : Construisez un réseau (sur des sites web ou dans la vraie vie, et pensez à contribuer, pas uniquement à tirer partie réseau).
  • Recette 11 : Contribuez (en donnant du temps, de l'argent, en faisant du bénévolat).
  • Recette 12 : Amusez-vous (le voyage est aussi important que la destination, alors profitez-en ; vous devez vous détendre aussi "dur" que ce vous travaillez).

Ce livre m'a plu, même si j'ai sauté certaines interviews qui me semblaient moins intéressantes que d'autres. Plusieurs points m'ont frappé, notamment le fait que quasiment aucun de ces entrepreneurs ne définit le succès comme étant la réussite matérielle. Certains l'évoquent, mais ils semblent tous avoir d'autres priorités : aimer ce qu'on fait, être en bonne santé, avoir une famille. C'est sûrement le fait d'avoir déjà réussi (et la maturité) qui leur fait tenir ce discours. :-) Ensuite, tous sans exception pensent qu'ils auraient eu beaucoup plus de mal - voire qu'ils auraient échoué - à faire ce qu'ils ont fait en dehors de la Silicon Valley.

Si l'expatriation vous tente et que vous travaillez dans le high-tech, je vous recommande ce livre. De mon côté, je ne pense pas être fait pour la Silicon Valley et les 80 heures de travail par semaine qui semblent être la norme dans cet environnement stimulant mais aussi ultra-compétitif.

Syndiquer le contenu Syndiquer le contenu