Semalt: Як наскрэбці вэб-старонку з дапамогай пашырэння Google Chrome

Скрабок экрана - гэта сцэнар, які чытае сайты і здабывае карысную інфармацыю з Інтэрнэту. Выскрабанне экрана - найлепшае рашэнне для атрымання рэальных дадзеных з вэб-сайтаў і вэб-старонак у Microsoft Excel. Google Chrome Extension Scraper - гэта магутны скрабны экран, які працуе як на Windows, так і на Mac.

Чаму Google Chrome Extension Scraper?

Скрабок пашырэння Google Chrome - гэта моцны сродак для выскрабання экрана ў Інтэрнэт-краме Chrome. Гэты скраб інструмент усталяваны ў браўзэры Chrome у якасці убудовы. Убудова дазваляе блогерам і маркетолагам атрымліваць дадзеныя з вэб-старонак, пстрыкнуўшы правай кнопкай мышы на элеменце. Калі вы націснеце элемент правай кнопкай мышы, на экране павінна з'явіцца "Скрап падобнае".

Уводзіны ў XPaths

XPath - гэта мова праграмавання, які выкарыстоўваецца для пошуку важнай інфармацыі ў структурах XML. Файл HTML - выдатны прыклад структуры XML. XPath звычайна выкарыстоўваецца для выбару мэтавых вузлоў. У гэтым кантэксце XPaths будуць выкарыстоўвацца для вызначэння тэксту, які трэба атрымаць на вэб-старонцы. XPaths таксама дапаможа вызначыць імёны партый і нумары тэлефонаў шведскіх дэпутатаў.

Выкарыстанне скрабка Google Chrome для доступу да дэталяў адрасы 349 парламентарыяў Швецыі

З Chrome Scraper, выманне інфармацыі з вэб-старонкі не проста, але і фантастычна. Вам спадабаецца працэс і сама тэхніка.

На сайце прыведзены ўсе шведскія члены і іх адрасы. Для пачатку пстрыкніце правай кнопкай мышы на любым дэпутаце і выберыце «Скрап падобны». Вы павінны ўбачыць наступны дысплей на экране.

Пакрокавае кіраўніцтва пра тое, як адкручваць вэб-старонку на экране

Калі вы пстрыкніце правай кнопкай мышы на адным дэпутаце і выберыце "Праверыць элемент", алфавітны спіс будзе створаны ў класе "" Список_Спасылкі кантэйнера вынікаў пошуку альфа-альфа-альфа ". Два крокі будуць выкарыстаны для выскрабання гэтай вэб-старонкі. Першы крок будзе ўключаць выбар тэгі, якія складаюцца з дадзеных аб дэпутатах з XPath. Другі крок прадугледжвае збор пэўных частак дадзеных, такіх як імёны ўдзельнікаў, імёны і нумар тэлефона, і арганізацыю дадзеных у слупках.

Крок 1

Паглыбіцеся ў структуру HTML і захавайце элементы некранутымі. Навядзіце тэгі, каб вызначыць колькасць тэгаў, якія адпавядаюць элементам вашай структуры. Вызначце апошні тэг, які складаецца з мэтавых дадзеных. Запусціце тэст XPath на структуру, націснуўшы "Скрап".

На вашым экране з'явіцца спіс з 349 радкоў. 349 прадстаўляюць агульную колькасць парламентарыяў Швецыі.

Крок 2

Разбіце прадстаўленыя дадзеныя на слупкі. Праверце код HTML на вэб-старонцы, якую вы выкарыстоўваеце. У гэтым выпадку кавалачкі, якія трэба здабыць, у гэты момант вылучаюцца жоўтым колерам. Устаўце XPaths у створанае поле слупкоў і націсніце "Scrape", каб запусціць убудова.

Калі вы валодаеце асноўнымі ведамі XPaths, разуменне праграмавання не будзе для вас неспакойнай задачай. Вышэйапісаныя крокі дапамогуць вам даведацца пра тое, як адкручваць вэб-старонку. Калі вы працуеце над скрэблінгам некалькіх вэб-старонак, вам трэба валодаць навыкамі праграмавання.

mass gmail