Semalt - Kako izbrisati web stranice?

Beautiful Soup je Python knjižnica koja se široko koristi za struganje web stranica kreiranjem stabla raščlanjivanja iz XML i HTML dokumenata. Web struganje, tehnika vađenja podataka s web stranica i stranica, široko se koristi u područjima analize podataka i upravljanja. U većini slučajeva Python programski jezik preduvjet je za znanost podataka.

Python 3 ima alat za uređivanje i module koji možete primijeniti na svoj projekt upravljanja podacima. Trenutno radi kao Beautiful Soup 4, ovaj je modul kompatibilan s Python 3 i Python 2.7. Modul Beautiful Soup 4 također je u stanju stvoriti stablo raščlanjivanja za ne-zatvorenu juhu s oznakama. U ovom ćete naučiti kako izbrisati stranicu i zapisati podatke u CSV datoteku.

Početak

Za početak, postavite poslužitelj ili lokalno okruženje za kodiranje Python-a na računalu. Na svoj stroj trebali biste instalirati i modul Beautiful Soup and Requests. Poznavanje rada s oba modula je također neophodan preduvjet. Poznavanje HTML označavanja i strukture je također dodatna prednost.

Razumijevanje vaših podataka

U tom će se kontekstu koristiti stvarni podaci Nacionalne umjetničke galerije koji će vam pomoći da shvatite kako koristiti Beautiful Soup 4. Nacionalna umjetnička galerija sadrži 120.000 djela koja je uradilo otprilike 13.000 umjetnika. Sjedište umjetnosti je u Washingtonu, DC.

Vađenje podataka s web-mjesta Beautiful Soup nije tako komplicirano. Na primjer, ako se usredotočite na slovo Z, označite i zapišite ime na popisu. U ovom slučaju prvo ime je Zabaglia, Niccola. Za dosljednost navedite broj stranica i ime zadnjeg izvođača na toj stranici.

Kako uvesti zahtjeve i knjižnicu Beautiful Soup

Za uvoz knjižnica aktivirajte Python 3 programsko okruženje. Provjerite jeste li u istom direktoriju s vašim programskim okruženjem. Za početak pokrenite sljedeću naredbu. my_env / bin / aktivirati.

Stvorite novu datoteku i počnite uvesti knjižnice Beautiful Soup and Requests. Biblioteka zahtjeva omogućuje vam upotrebu HTTP-a unutar vaših Python programa u čitljivim formatima. Prekrasna juha, s druge strane, djeluje na brzo struganje stranica. Koristite bs4 za uvoz Beautiful Soup.

Kako prikupiti i analizirati web stranicu

Pomoću Zahtjeva prikupite URL svoje prve stranice. URL prve stranice bit će dodijeljen stranici varijable. Izradite objekt BeautifulSoup iz Zahtjeva i raščistite objekt iz Pythonovog raščlanjivača.

Cilj ovog priručnika je prikupljanje veza i imena umjetnika. Na primjer, možete prikupiti datume i nacionalnosti umjetnika. Za korisnike sustava Windows desnom tipkom miša kliknite ime izvođača. U ovom slučaju koristite Zabaglia, Niccola. Za korisnike Mac OS-a, dodirnite "CTRL" i kliknite naziv. Kliknite izbornik "Ispitaj element" koji se pojavljuju na zaslonu da biste pristupili alatima web programera. Ispišite imena izvođača kako bi Beautiful Soup raširio stablo brzo.

Uklanjanje donjih veza

Da biste uklonili donje veze na svojoj web stranici, pregledajte DOM desnim klikom na element. Prepoznat ćete da su veze ispod HTML tablice. Pomoću Beautiful Soup, koristite "metodu raspadanja" za uklanjanje oznaka s stabla analize.

Kako izvući sadržaj iz oznake

Ne morate ispisati cijelu oznaku veze, upotrijebite Beautiful Soup da biste uklonili materijal s oznake. Možete snimiti i URL-ove povezane s umjetnicima pomoću Beautiful Soup 4.

Snimanje izrezanih podataka u CSV datoteku

CSV datoteka omogućuje vam spremanje strukturiranih podataka u običan tekst, format koji se uglavnom koristi za podatkovne tablice. Preporučuje se znanje o rukovanju običnim tekstualnim datotekama u Pythonu.

Vađenje web podataka koristi se za struganje stranica i dobivanje informacija. Budite pažljivi prema web stranicama s kojih ste saznali podatke o vađenju. Neke dinamične web stranice ograničavaju vađenje web podataka na njihovim web mjestima. Iskradati stranicu pomoću Beautiful Soup i Python 3-a je tako jednostavno.