pythonで形態素解析エンジンMeCabを使って解析を行なっていると、
「あれ?この単語どれくらいの回数使われているんだろう?」
「一番使われていた名詞ってなんだろう?」
などという疑問が出てくると思います
この記事ではpythonで形態素解析エンジンMeCabを使って名詞の出現回数を数える方法について解説していきたいと思います
こんなあなたにおすすめ
pythonを使って形態素解析を行いたい
pythonを使った形態素解析をレベルアップさせた
形態素解析ってなに?という場合や形態素解析で収益を出したサンプルコードは以下をご覧ください

Pythonで形態素解析エンジンMeCabを使う

形態素解析は自然言語処理の一種で、文章を最小の単語に分け、さまざまな方法を使って解析することを言います
この形態素解析では、活用形の種類や品詞の特定を行うことができます
pythonで形態素解析を行うことができるものは今回使用する「MeCab」の他に「Janome」や「Juman」「Cabocha」などがあります
それぞれ特徴があり、解析速度に違いもありますが、一般的に使われているのは「MeCab」「Janome」の2つです
Janomeは使用までの手間が少なく、pipでインストールすればすぐに使用可能
MeCabはやや煩雑
Mecabのインストール
pythonで形態素解析を行うために、MeCabをインストールしていきます
https://python-man.club/pythonn_morphological_analysis_mecab/
MeCabを実行する
pythonでMeCabを使用する準備ができたら、MeCabを実行していきます
import MeCab
mecab = MeCab.Tagger()
sent ="今日は形態素解析を行なっていく"
print(mecab.parse(sent))
>>>出力結果
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
形態素 名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ
解析 名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
行なっ 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,行なう,オコナッ,オコナッ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
いく 動詞,非自立,*,*,五段・カ行促音便,基本形,いく,イク,イク
EOS
名詞のみ抽出する
MeCabを実行したら、今度は名詞のみを抽出していきたいと思います
あまり短い文章では自力でカウントできてしまうので、今回使用するテキストは首相の会見内容を行っていきます
こちらのページの内容をコピペしてテキストファイルとして保存しておきましょう
import collections
import MeCab
#textファイルの読み込み
#****には保存したtxtファイルのパス名を入れてください
f= open('****.txt', 'r', encoding='UTF-8')
text=f.read()
f.close()
#読み込んだtextファイルで形態素解析を行う
tagger =MeCab.Tagger()
tagger.parse('')
node = tagger.parseToNode(text)
#取り出す品詞を決めている.今回は名詞
word_list=[]
while node:
word_type = node.feature.split(',')[0]
#名詞の他にも動詞や形容詞なども追加できる
if word_type in ["名詞"]:
word_list.append(node.surface)
node=node.next
word_chain=' '.join(word_list)
#collections.counterでword_list内に含まれている名詞をカウント
c=collections.Counter(word_list)
#printでよく使われている単語top20を出力
print(c.most_common(20))
>>>出力結果
[('こと', 114), ('の', 68), ('接種', 65), ('0', 60),
('1', 52), ('者', 49), ('感染', 48), ('総理', 43),
('状況', 43), ('的', 43), ('よう', 41), ('3', 40),
('日', 38), ('回', 36), ('目', 36), ('対策', 30),
('お願い', 28), ('対応', 27), ('2', 26), ('方', 24)]
おすすめプログラミングスクール(無料体験あり)
WEBCAMPを徹底解説している記事はこちら

アイデミープレミアムを徹底解説している記事はこちら


テックアカデミーを徹底解説している記事はこちら
