Pythonで文字列から絵文字を削除する

スクレイピングの途中で、絵文字が抽出されてデータベースに保存する時にエラーになった事がありました。絵文字を削除したいと思います。 絵文字を削除する 古いWEB記事では、get_emoji_regexp()を使用した処理が多いが、emojiライブラリではバージョン2.0.0からget_emoji_regexp()関数は削 […]
スクレイピングの途中で、絵文字が抽出されてデータベースに保存する時にエラーになった事がありました。絵文字を削除したいと思います。 絵文字を削除する 古いWEB記事では、get_emoji_regexp()を使用した処理が多いが、emojiライブラリではバージョン2.0.0からget_emoji_regexp()関数は削 […]
より複雑なスクレイピング処理を記述する時に、途中結果を確認したい時があります。そんなときはHTMLファイルに出力してみるのも一つの手! ということで、ファイル出力してみます。 HTMLファイル出力 今回は以下のようなログイン処理を行った後に出力してみる。スクリプトは長ったらしいですが出力処理はちょっとですw ファイル出 […]
画面の表示をJavaScriptに頼っているWEBサイトも多いので、表示するまでにラグがあり値が取得できないことがあります。少し待機すれば良いのですが、待機の方法を確認してみる。 目次1 待機する方法1.1 プログラムのスリープ(time.sleep)1.2 要素見つける待機時間を指定する(implicitly_wai […]
目次1 環境確認2 Python2.1 インストール2.2 確認3 pip3.1 インストール3.2 確認 環境確認 Python インストール 通常はインストールされているっぽい。入ってない場合はインストールする。 確認 pip インストール 確認
目次1 本日の目標1.1 前回までの要領で取得1.2 値が取得できない原因1.3 ではどうすれば取得できるのか2 Seleniumで情報を取得する2.1 seleniumインストール2.2 chromedriverインストール2.3 スクレイピング2.4 気になる取得結果は3 ブラウザの起動は時間がかかるよ3.1 ブラ […]
今回は、ログイン後のWEBサイトの情報を取得してみることにする。 必要な情報を調べる ログイン後のWEBページを取得するためには、ログイン処理を実装しなければならない。その準備として、ログイン時にどのようなパラメータが送信されているかを知る必要がある。IDやパスワードのような値はもちろんのこと、tokenのような隠され […]
前回、基本のスクレイピングをやってみたが、今回はヘッダ情報を追加してみる。 前回記事 目次1 ヘッダを設定する意味とは?2 Pythonでリクエストにヘッダー情報を付与3 まとめ ヘッダを設定する意味とは? 本ブログにChromeでリクエストした際のヘッダをデベロッパーツールでみてみるとこんな感じ。 ヘッダ情報を付与す […]
スクレイピングとは、プログラムがWEBページにアクセスして、必要な情報を抽出する作業のことです。手動で情報を集めるのことも可能ではありますが、スクレイピングは比較にならないほどの速さで抽出を行うことが出来ます。また、一度プログラムを組めば、その後は同じプログラムを定期的に動作させることにより、未来の工数を大幅に削減する […]