centos7でmecab-ipadic-neologdを使ってみる
とあるきっかけで形態素解析エンジン(mecab)を少し試しに触ってみることに。さらに新語や固有表現に強いということで、mecab-ipadic-NEologdの辞書も試してみる。
環境
ec2(t2.micro)
centos7
てな感じです。
インストール
# リポジトリ
$ rpm -ivh http://packages.groonga.org/centos/groonga-release-latest.noarch.rpm
# mecab
$ yum -y install mecab mecab-ipadic mecab-devel patch
# mecab-ipadic-neologd
$ cd /usr/local/src
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n
エラー
余談ですが、ここでエラーが出ました。t2.microのメモリではインストール作業に足りてなかったようです。今回はインストールが出来れば良いので、swapfileを4GBほど作成して対応。
【※足りてる方は不要な手順です】
$ dd if=/dev/zero of=/swapfile bs=1M count=4096
$ mkswap /swapfile
$ chmod 600 /swapfile
$ swapon /swapfile
$ vi /etc/fstab
--------------------
/swapfile swap swap defaults 0 0
--------------------
$ free
--------------------
→Swap領域がカウントされていること
--------------------
mecab
インスタンス作成やサーバー基本設定なども含めて、ここまでしめて30分程度。それでは試してみましょう。
$ mecab -d /usr/lib64/mecab/dic/mecab-ipadic-neologd
--------------------
入力待ち状態になるので、好きなワード(文章)を入力すると、形態素解析してくれます。
--------------------
実行例
$ mecab -d /usr/lib64/mecab/dic/mecab-ipadic-neologd
昨日、鬼滅の刃の映画を観たよ
昨日 名詞,副詞可能,*,*,*,*,昨日,キノウ,キノー
、 記号,読点,*,*,*,*,、,、,、
鬼滅の刃 名詞,固有名詞,一般,*,*,*,鬼滅の刃,キメツノヤイバ,キメツノヤイバ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
映画 名詞,一般,*,*,*,*,映画,エイガ,エイガ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
観 動詞,自立,*,*,一段,連用形,観る,ミ,ミ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
よ 助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
EOS
綺麗に分解が出来ました。
まとめ
mecab-ipadic-NEologdを指定せずに実行することも出来ますが、試してみると「鬼滅の刃」が分割されてしまったので、確かに辞書を使用した効果はあるようだ。
そういえば2019年にリリースされている、QuizKnockさん「限界しりとりモバイル」アプリでも言葉の判定にmecab-ipadic-NEologdが使われていましたような。自分も何か作ってみたくなりました。
それではまた。
素材
サムネイル画像