
Les développeurs d'Apache Nutch ont annoncé que la version 2.0 du robot d'exploration et d'indexation est maintenant disponible. Construit au-dessus des autres projets Apache incluant Solr, Tika, Hadoop et Gora, Nutch est conçu pour crawler "à l'échelle du web" afin de permettre aux organisations de créer des index de recherche de leur contenu web publié. Nutch ajoute des fonctionnalités web spécifiques à Solr avec une base de données graphique et utilise Tika pour analyser les pages web et d'autres formats de documents.
Nutch 2.0 est une branche indépendante du développement de Nutch pour ceux qui se poseraient la question. En Septembre 2011, l'équipe de développement a décidé de se concentrer sur les versions 1.x pour du développement mainstream, tandis que les versions 2.x travailleront sur le développement du crawling web à grande échelle. Ce crawling à grande échelle qu'offre Nutch 2.0 a été mis en place par l'ajout d'une couche d'abstraction de stockage qui permet alors de se brancher sur les grosses plateformes de stockage de données Apache avec Accumulo, Avro, Cassandra, HBase ou HDFS et d'autres systèmes de stockage SQL. Le travail sur cette abstraction a conduit d'ailleurs à la création d'Apache Gora, un framework pour les modèles de données en mémoire et la persistance de nombreuses données. Nutch est facilement personnalisable avec une architecture construite autour de plugins en charge d'analyser des documents, le classement et l'architecture.
A titre d'exemple d'applications Nutch, on peut prendre Kalooga, une société qui utilise Nutch 2.0 en production, qui fournit un service visuel pertinent pour les éditeurs en ligne. Mathijs Homminga, CTO de Kalooga a déclaré : "Le fait que Nutch est mis en œuvre comme base d'Hadoop est essentiel car il nous permet d'être évolutif dans le stockage et le traitement." Mais rassurez-vous, d'après les développeurs, Nutch aborde encore de nombreux avantage pour du crawl léger sur une seule machine.
Nutch 2.0 ainsi que la version mainstream (1.5.x) sont toutes deux disponibles en téléchargement à partir de nombreux miroirs. Une liste détaillée des changements est aussi disponible dans le fichier CHANGES.
MISES A JOUR DE L'ARTICLE |


















































