Semalt - Как да остъргвам уеб страници?

Beautiful Soup е библиотека на Python, широко използвана за изстъргване на уеб страници чрез създаване на дърво за разбор от XML и HTML документи. Web scraping, техника за извличане на данни от уебсайтове и страници, се използва широко в полета за анализ и управление на данни. В повечето случаи езикът за програмиране на Python е предпоставка в науката за данни.

Python 3 има инструменти за изстъргване и модули, които можете да приложите към вашия проект за управление на данни. В момента работи като Beautiful Soup 4, този модул е съвместим както с Python 3, така и с Python 2.7. Модулът Beautiful Soup 4 също е в състояние да създаде парсетово дърво за супа от незатворени етикети. В този урок ще научите как да изстържете страницата и да запишете изтритите данни във CSV файл.

Приготвяме се да започнем

За да започнете, настройте сървър или локално базирана среда за кодиране на Python на вашия компютър. Трябва също така да инсталирате модула Beautiful Soup and Requests на вашата машина. Познаването на работата с двата модула също е необходимо условие. Познаването с HTML маркирането и структурата също е допълнително предимство.

Разбиране на вашите данни

В този контекст ще бъдат използвани реални данни от Националната художествена галерия, които ще ви помогнат да разберете как да използвате Beautiful Soup 4. Националната художествена галерия се състои от 120 000 произведения, които са направени от приблизително 13 000 художници. Изкуството е със седалище във Вашингтон, САЩ.

Извличането на уеб данни с Beautiful Soup не е толкова сложно. Например, ако се съсредоточите върху буквата Z, маркирайте и запишете първото име в списъка. В случая първото име е Забаглиа, Николо. За последователност посочете броя на страниците и името на последния изпълнител на тази страница.

Как да импортирате заявки и библиотека Beautiful Soup

За да импортирате библиотеки, активирайте вашата Python 3 среда за програмиране. Проверете дали сте в една и съща директория с вашата програмна среда. Изпълнете следната команда, за да започнете. my_env / хамбар / активирате.

Създайте нов файл и започнете да импортирате библиотеки Beautiful Soup and Requests. Библиотеката със заявки ще ви позволи да използвате HTTP в рамките на вашите програми Python в четими формати. Красива супа, от друга страна, работи за бързо остъргване на страници. Използвайте bs4, за да импортирате Beautiful Soup.

Как да събираме и анализираме уеб страница

С помощта на заявките събирайте URL на първата си страница. URL адресът на първата страница ще бъде присвоен на страницата с променлива. Създайте обект BeautifulSoup от заявки и анализирайте обекта от анализатора на Python.

В този урок целта е да се съберат връзки и имената на художниците. Например, можете да събирате дати и националности на артистите. За потребителите на Windows щракнете с десния бутон върху името на изпълнителя. В този случай използвайте Zabaglia, Niccola. За потребители на Mac OS, докоснете "CTRL" и щракнете върху името. Щракнете върху менюто "Проверете елемент", което изскача на екрана, за да получите достъп до инструментите на уеб разработчиците. Отпечатайте имената на изпълнителя, за да направите красивата супа бързо да анализира дърво.

Премахване на долните връзки

За да премахнете долните връзки на вашата уеб страница, проверете DOM, като щракнете с десния бутон на мишката върху елемента. Ще идентифицирате, че връзките са под HTML таблица. Използвайки Beautiful Soup, използвайте "методът на разлагане", за да премахнете етикетите от дървото на анализа.

Как да изтеглите съдържание от маркер

Не е нужно да отпечатвате целия маркер за връзка, използвайте Beautiful Soup, за да премахнете материал от маркер. Можете също да улавяте URL адреси, свързани с изпълнителите, като използвате Beautiful Soup 4.

Записване на изтрити данни във CSV файл

CSV файлът ще ви позволи да съхранявате структурирани данни в обикновен текст, формат, който се използва най-вече за таблици с данни. Препоръчва се познание за работа с обикновени текстови файлове в Python.

Извличането на уеб данни се използва за изстъргване на страници и получаване на информация. Бъдете внимателни към уебсайтовете, от които получавате информация за извличане. Някои динамични уебсайтове ограничават извличането на уеб данни на техните сайтове. Да се изстърже страница с Beautiful Soup и Python 3 е толкова просто.