目次
クロールとスクレイピング
- クロールは泳ぐ、HPを「巡回」するイメージ(スパイダーともよぶ)
- スクレイピングは「こする」「かき集める」から必要な情報だけを抽出するイメージ
イメージ
- HPの情報を取得→(解析)→ 何かをする(情報を取得、ダウンロード等)
- そのために使うツールとその組み合わせは下図のとおり
- ログイン後のセッション情報はcookieに保存される。画面遷移やツールが変わる場合は、そのcookie情報を利用すれば対応できる

GPAD
スクレイピングの流れ(考案)
- G:html を Get(取得)
- P:html を Perse(パース)
- A:抽出データをリストに Append
- D:json に Dump または データをDownload
Webページの構成を確認
- Chromeのデベロッパーツールや、Jupyter lab で探りながらやった方がよい
- CSSセレクタのチートシート
基本
Requests
- 公式
- ラジオボタン、チェックボックス、その他入力
- ファイルと画像のサブミット
- Webフォームへのログイン、ログインしたまま遷移
- HTTP Basic認証
- request.get()でWebテキストをDLする
- Google検索結果をブラウザで開く(退屈本P278)
- すべてのリンク先をダウンロードする(〃P282)
BeautifulSoup
Selenium
- 公式
- 準備編
- 終了する
- CSSセレクタ・Xpath早見表
- 中部電力検針日程スクレイピング
- 気温データの自動取得
- Python+SeleでGoogleにログインするには?、その2
- Seleniumで認証プロキシを突破する方法
- ChromeDriverを自動更新
- 起動しているChromeをSeleniumで操作(Win・途中)
- ログインHPのスクレイピング(実践編)
- SeleniumでCookie情報をrequestsに渡しMP3をダウンロード(Alpha)