Connaissances Informatiques >> programmation >> Computer Programming Languages >> Content
  Derniers articles
  • Comment utiliser Ncurses 
  • Comment faire pour convertir le code…
  • Common Lisp moteur de rendu HTML & B…
  • Comment faire pour supprimer les val…
  • Comment faire pour récupérer un li…
  • Comment fusionner des colonnes dans …
  • Comment changer PLC Programmation 
  • Comment faire pour supprimer des dos…
  • Comment faire un tableau de bouton à…
  • Types contradictoires en C 
  •   Computer Programming Languages
  • C /C + + Programming

  • Computer Programming Languages

  • Delphi Programming

  • Programmation Java

  • Programmation JavaScript

  • PHP /MySQL Programmation

  • programmation Perl

  • Programmation Python

  • Ruby Programming

  • Visual Basics programmation
  •  
    Computer Programming Languages

    Comment faire pour créer une toile d'araignée

    A araignée est une application informatique qui télécharge une page Web , puis suit tous les liens sur cette page et téléchargements ainsi. Araignées Web sont utilisés pour stocker des sites Web pour une lecture hors ligne , ou pour le stockage des pages web dans les bases de données qui seront utilisées par un moteur de recherche . Création d'une toile d'araignée est une tâche difficile , adapté à une classe de programmation de niveau collégial . Ces instructions supposent que vous avez une expérience de programmation solide, mais pas connaissance de l'architecture araignée. Les étapes exposent une architecture très spécifique pour écrire une toile d'araignée dans la langue choisie. Choses que vous devez
    navigateur Web qui répond aux commandes de programmation
    langage de programmation d'accès en écriture sur le disque et les fonctions de base de données
    Afficher plus Instructions
    1

    initialiser votre programme avec la page Web initiale que vous souhaitez télécharger . Ajoutez l'URL de cette page à un nouvelle table de base de données d'URL.
    2

    Envoyer une commande au navigateur lui ordonnant de récupérer cette page Web et enregistrez-le sur un disque. Déplacez le pointeur de la base de données avancer d'un pas passé l'URL que vous venez de télécharger , qui va maintenant pointer vers la fin de la table.
    3

    Lire la page Web dans le programme, et l'analyser pour des liens vers des pages Web supplémentaires . Cela se fait habituellement par la recherche de la chaîne de texte «http://» et capturer le texte entre cette chaîne et un caractère de fin (comme "", " . " Ou " >") . Ajoutez ces liens à la table de base de données d'URL , le pointeur de la base de données devrait rester au-dessus de cette nouvelle liste
    4

    tester les entrées de la table de base de données d'unicité , et éliminer toutes les URL qui apparaissent plus d'une fois . .
    5

    Si vous souhaitez appliquer un filtre d'URL ( par exemple, pour empêcher le téléchargement des pages de sites à des domaines différents ) , s'applique maintenant à la table de base de données d'URL et de supprimer toutes les URL que vous ne souhaitez pas à télécharger.
    6

    Mettre en place une boucle de programmation afin que votre araignée revient à l'étape 2 ci-dessus . Cette façon récursive télécharger toutes les URL de votre araignée rencontre . Retrait URL en double assure que l'araignée va bien terminer quand il atteint la dernière URL unique.

     
    Article précédent:
    Article suivant:
    Articles recommandés
  • Liste des commandes SQL 
  • Quel est le code de caractère 
  • Comment importer Protocole tags 
  • Quels sont les rôles des attributs de référence et situé dans un diagramme de classes design 
  • Qu'est-ce que Buffer Overrun cordes Manutention 
  • Comment copier dans la liste de la zone de texte multiligne 
  • Comment faire pour convertir Int au Real en SML 
  • Bricolage moteurs pas à pas 
  • Comment éditer les codes source HTML 
  • Comment mettre à jour Joomla! K2 
  • Connaissances Informatiques © http://www.ordinateur.cc