環境構築からWEBアプリ開発・スマホアプリ開発まで。ときには動画制作やゲームも。

supilog
すぴろぐ

Pythonで文字列から絵文字を削除する

スクレイピングの途中で、絵文字が抽出されてデータベースに保存する時にエラーになった事がありました。絵文字を削除したいと思います。 絵文字を削除する 古いWEB記事では、get_emoji_regexp()を使用した処理が多いが、emojiライブラリではバージョン2.0.0からget_emoji_regexp()関数は削 […]

【PythonでWEBスクレイピング】スクレイピング結果をhtmlファイルに出力する(selenium)

より複雑なスクレイピング処理を記述する時に、途中結果を確認したい時があります。そんなときはHTMLファイルに出力してみるのも一つの手! ということで、ファイル出力してみます。 HTMLファイル出力 今回は以下のようなログイン処理を行った後に出力してみる。スクリプトは長ったらしいですが出力処理はちょっとですw ファイル出 […]

【PythonでWEBスクレイピング】値が取得できない場合の待機処理(selenium)

画面の表示をJavaScriptに頼っているWEBサイトも多いので、表示するまでにラグがあり値が取得できないことがあります。少し待機すれば良いのですが、待機の方法を確認してみる。 待機する方法 プログラムのスリープ(time.sleep) スクレイピングに限らず、あえて処理を遅らせたい場合に使う。記述した箇所で待機し、 […]

【PythonでWEBスクレイピング】JavaScriptで表示される情報を取得する(selenium)

本日の目標 https://cube.supisupi.com こちらは、先日わたしが作成したルービックキューブのタイマーです。下の図の赤線で囲った部分に書いてある文字列を今回は取得してみようと思います。(以下、スクランブル文字列と呼びます) 前回までの要領で取得 早速ですが、前回までの要領で取得してみます。 何も取得 […]

【PythonでWEBスクレイピング】ログインが必要な情報を取得する

今回は、ログイン後のWEBサイトの情報を取得してみることにする。 必要な情報を調べる ログイン後のWEBページを取得するためには、ログイン処理を実装しなければならない。その準備として、ログイン時にどのようなパラメータが送信されているかを知る必要がある。IDやパスワードのような値はもちろんのこと、tokenのような隠され […]

【PythonでWEBスクレイピング】ヘッダ情報を付与する

前回、基本のスクレイピングをやってみたが、今回はヘッダ情報を追加してみる。 前回記事 ヘッダを設定する意味とは? 本ブログにChromeでリクエストした際のヘッダをデベロッパーツールでみてみるとこんな感じ。 ヘッダ情報を付与する意味はどこにあるのだろうか。 WEBページを作成する側の立場にたち考えると、ヘッダ情報を元に […]

【PythonでWEBスクレイピング】基本の使い方

スクレイピングとは、プログラムがWEBページにアクセスして、必要な情報を抽出する作業のことです。手動で情報を集めるのことも可能ではありますが、スクレイピングは比較にならないほどの速さで抽出を行うことが出来ます。また、一度プログラムを組めば、その後は同じプログラムを定期的に動作させることにより、未来の工数を大幅に削減する […]

【ルービックキューブのタイマーを作る】第9回 キューブの展開図にスクランブル情報を適用させる回

プロジェクト【ルービックキューブのタイマーを作る】の最終回となります。ここまで閲覧して頂いた方、本当にありがとうございます。今回はコレ! スクランブルに合わせて、展開図のカラーリングを変化させようという作業です。 一旦かるく現在の仕様を・・・ 作業前の仕様を確認しておく。 スクランブル文字列(F’ R2 B […]