Extraction périodique et parsing d'un code source d'une page web

Hello,

J'ai un site web (je dois me connecter) où des informations qui m'intéressent se trouve dans le code source de la page (j'y accède par "afficher le code source de ma page" sour chrome).

Je souhaiterais mettre en place sur mon PC un petit script qui actualise la page web tous les x minutes pour ensuite aller récupérer les infos dans le code source, un peu de processing et ensuite lever une alerte lorsqu'un résultat particulier est trouvé.

Je suis pour le moment encore bloqué à l'étape de récupération automatique des données : j'avais au début pensé utiliser un addon chrome qui sauvegarde périodiquement la page web ouverte, mais ce n'est pas le code source, donc les infos sont manquantes....

Une idée d'un moyen smart d'y parvenir ?
 

freedumz

Chasseur de castors
J'avais fait un truc similaire durant mes études en python avec beautiful soup, maintenant il y a peu être une librairie plus adaptée
 

Anewone

Elite
Ça dépend du site, si il est tolérant vis à vis des robots, si il est généré sous JS, etc.
Parsehub ou Octoparse si tu veux la solution facile, mais si tu sais bricoler sous Python, Selenium / BeautifulSoup.
 

HAINAUT

La région qui tire la Belgique vers le haut
Service windows en .NET si tu veux t'amuser
 
1er
OP
DeflaMental

DeflaMental

[-_-]
Jamais fait de python, je suis resté bloqué au VBA et LUA :confused:

Je vais jeter un coup d'oeil a tout ça :)
 

Anewone

Elite
J'avais fait un truc similaire durant mes études en python avec beautiful soup, maintenant il y a peu être une librairie plus adaptée
BeautifulSoup est toujours aussi puissant, mais toujours pas idéal sur le long terme puisque on doit mettre son code à jour à chaque fois que le webmaster met son site à jour. Puis ajrd ils utilisent souvent des CDN comme Cloudflare ou Akamai qui bloquent la majorité de nos requêtes.
C'est mieux d'exploiter leur API (Python avec Scrapy), plus fiable sur le long terme.
 
1er
OP
DeflaMental

DeflaMental

[-_-]
Ça dépend du site, si il est tolérant vis à vis des robots, si il est généré sous JS, etc.
Parsehub ou Octoparse si tu veux la solution facile, mais si tu sais bricoler sous Python, Selenium / BeautifulSoup.
Je pense en effet que c'est généré sous JS. En tout cas j'ai testé parsehub et le site ne se charge même pas :-(
 

Calvin80

Respect is key
un petit script à base de curl/wget, de regex et de Cut, et c’est bouclé ;)
 

Joon

Squadeur.
Et j'imagine que tu ne veux pas dire quel site tu veux parcer ?

tous le monde a compris ce que tu cherchais à faire et ça a un nom :)
Les sites ciblent déteste ça, même si c'est pas vraiment illégal en soit, bien au contraire.
Des mecs connu là dedans, c'est les comparateurs de prix ou de disponibilité.
J'ai en pote qui en a fait son fer de lance dans l'immo
 

Anewone

Elite
Et j'imagine que tu ne veux pas dire quel site tu veux parcer ?

tous le monde a compris ce que tu cherchais à faire et ça a un nom :)
Les sites ciblent déteste ça, même si c'est pas vraiment illégal en soit, bien au contraire.
Des mecs connu là dedans, c'est les comparateurs de prix ou de disponibilité.
J'ai en pote qui en a fait son fer de lance dans l'immo
À titre privé c'est légal, à titre public (un comparateur de prix c'est illégal, il doit d'ailleurs surement en été averti aha) c'est illégal, j'ai fait les démarches il y a quelques temps pour en être sur.
C'est pas toujours illégal, e.g. Linkedin a perdu son procès vis à vis de cette question mais bonne chance pour en faire une jurisprudence :cool:
 
  • J'aime
Les réactions: Joon

Joon

Squadeur.
Merci pour l'info !
 
1er
OP
DeflaMental

DeflaMental

[-_-]
Et j'imagine que tu ne veux pas dire quel site tu veux parcer ?

tous le monde a compris ce que tu cherchais à faire et ça a un nom :)
Les sites ciblent déteste ça, même si c'est pas vraiment illégal en soit, bien au contraire.
Des mecs connu là dedans, c'est les comparateurs de prix ou de disponibilité.
J'ai en pote qui en a fait son fer de lance dans l'immo
Et non, ce n'est pas pour ce que tu penses. Me concernant c'est un usage de niche, c'est pour me "faciliter" la tâche.. c'est un site interne très lent (probablement très mal codé et pas du tout sécurisé) et l'objectif est de récupérer plus facilement les infos qui m'intéressent (plutôt que devoir m'y connecter régulièrement).

Je dis "très mal côdé et pas sécurisé" car la "DB" apparait complètement (et en clair) lorsque je fais "afficher la source de la page", d'où mon idée d'essayer exploiter cette dB disponible.
 

ailless

Asimov, Sagan, Carlin, Hitchens
Au boulot, on utilise Python et scrapy pour pomper plein de sites différents. Ca fera sûrement ce que tu veux mais bon il faut un peu connaitre ces technologies. Pas forcément dur à apprendre si t'as un peu de commence HTML, XPATH et Python 3
 
Haut