Pythonで文字列から絵文字を削除する

スクレイピングの途中で、絵文字が抽出されてデータベースに保存する時にエラーになった事がありました。絵文字を削除したいと思います。 絵文字を削除する 古いWEB記事では、get_emoji_regexp()を使用した処理が多いが、emojiライブラリではバージョン2.0.0からget_emoji_regexp()関数は削 […]
スクレイピングの途中で、絵文字が抽出されてデータベースに保存する時にエラーになった事がありました。絵文字を削除したいと思います。 絵文字を削除する 古いWEB記事では、get_emoji_regexp()を使用した処理が多いが、emojiライブラリではバージョン2.0.0からget_emoji_regexp()関数は削 […]
より複雑なスクレイピング処理を記述する時に、途中結果を確認したい時があります。そんなときはHTMLファイルに出力してみるのも一つの手! ということで、ファイル出力してみます。 HTMLファイル出力 今回は以下のようなログイン処理を行った後に出力してみる。スクリプトは長ったらしいですが出力処理はちょっとですw ファイル出 […]
画面の表示をJavaScriptに頼っているWEBサイトも多いので、表示するまでにラグがあり値が取得できないことがあります。少し待機すれば良いのですが、待機の方法を確認してみる。 待機する方法 プログラムのスリープ(time.sleep) スクレイピングに限らず、あえて処理を遅らせたい場合に使う。記述した箇所で待機し、 […]
環境確認 Python インストール 通常はインストールされているっぽい。入ってない場合はインストールする。 確認 pip インストール 確認
本日の目標 https://cube.supisupi.com こちらは、先日わたしが作成したルービックキューブのタイマーです。下の図の赤線で囲った部分に書いてある文字列を今回は取得してみようと思います。(以下、スクランブル文字列と呼びます) 前回までの要領で取得 早速ですが、前回までの要領で取得してみます。 何も取得 […]
公式ドキュメント https://docs.nginx.com/nginx/admin-guide/web-server/web-server https://nginx.org/en/docs/http/ngx_http_core_module.html#location まずはじっくり公式ドキュメントを読んでみる。 […]
今回は、ログイン後のWEBサイトの情報を取得してみることにする。 必要な情報を調べる ログイン後のWEBページを取得するためには、ログイン処理を実装しなければならない。その準備として、ログイン時にどのようなパラメータが送信されているかを知る必要がある。IDやパスワードのような値はもちろんのこと、tokenのような隠され […]
前回、基本のスクレイピングをやってみたが、今回はヘッダ情報を追加してみる。 前回記事 ヘッダを設定する意味とは? 本ブログにChromeでリクエストした際のヘッダをデベロッパーツールでみてみるとこんな感じ。 ヘッダ情報を付与する意味はどこにあるのだろうか。 WEBページを作成する側の立場にたち考えると、ヘッダ情報を元に […]
スクレイピングとは、プログラムがWEBページにアクセスして、必要な情報を抽出する作業のことです。手動で情報を集めるのことも可能ではありますが、スクレイピングは比較にならないほどの速さで抽出を行うことが出来ます。また、一度プログラムを組めば、その後は同じプログラムを定期的に動作させることにより、未来の工数を大幅に削減する […]
プロジェクト【ルービックキューブのタイマーを作る】の最終回となります。ここまで閲覧して頂いた方、本当にありがとうございます。今回はコレ! スクランブルに合わせて、展開図のカラーリングを変化させようという作業です。 一旦かるく現在の仕様を・・・ 作業前の仕様を確認しておく。 スクランブル文字列(F’ R2 B […]