環境構築からWEBアプリ開発・スマホアプリ開発まで。ときには動画制作やゲームも。

supilog
すぴろぐ

centos7でmecab-ipadic-neologdを使ってみる

centos7でmecab-ipadic-neologdを使ってみる

とあるきっかけで形態素解析エンジン(mecab)を少し試しに触ってみることに。さらに新語や固有表現に強いということで、mecab-ipadic-NEologdの辞書も試してみる。

環境

ec2(t2.micro)

centos7

てな感じです。

インストール

# リポジトリ
$ rpm -ivh http://packages.groonga.org/centos/groonga-release-latest.noarch.rpm

# mecab
$ yum -y install mecab mecab-ipadic mecab-devel patch

# mecab-ipadic-neologd
$ cd /usr/local/src
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n

エラー

余談ですが、ここでエラーが出ました。t2.microのメモリではインストール作業に足りてなかったようです。今回はインストールが出来れば良いので、swapfileを4GBほど作成して対応。

【※足りてる方は不要な手順です】

$ dd if=/dev/zero of=/swapfile bs=1M count=4096
$ mkswap /swapfile
$ chmod 600 /swapfile
$ swapon /swapfile

$ vi /etc/fstab
--------------------
/swapfile               swap                   swap    defaults        0 0
--------------------

$ free
--------------------
→Swap領域がカウントされていること
--------------------

mecab

インスタンス作成やサーバー基本設定なども含めて、ここまでしめて30分程度。それでは試してみましょう。

$ mecab -d /usr/lib64/mecab/dic/mecab-ipadic-neologd
--------------------
入力待ち状態になるので、好きなワード(文章)を入力すると、形態素解析してくれます。
--------------------

実行例

$ mecab -d /usr/lib64/mecab/dic/mecab-ipadic-neologd
昨日、鬼滅の刃の映画を観たよ
昨日	名詞,副詞可能,*,*,*,*,昨日,キノウ,キノー
、	記号,読点,*,*,*,*,、,、,、
鬼滅の刃	名詞,固有名詞,一般,*,*,*,鬼滅の刃,キメツノヤイバ,キメツノヤイバ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
映画	名詞,一般,*,*,*,*,映画,エイガ,エイガ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
観	動詞,自立,*,*,一段,連用形,観る,ミ,ミ
た	助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
よ	助詞,終助詞,*,*,*,*,よ,ヨ,ヨ
EOS

綺麗に分解が出来ました。

まとめ

mecab-ipadic-NEologdを指定せずに実行することも出来ますが、試してみると「鬼滅の刃」が分割されてしまったので、確かに辞書を使用した効果はあるようだ。

そういえば2019年にリリースされている、QuizKnockさん「限界しりとりモバイル」アプリでも言葉の判定にmecab-ipadic-NEologdが使われていましたような。自分も何か作ってみたくなりました。

それではまた。

素材

サムネイル画像

https://www.photo-ac.com/main/detail/2439803