読者です 読者をやめる 読者になる 読者になる

MeCabのユーザー辞書追加で引っかかった⇒解決した。

テキストマイニング R Research

日本看護学会論文集のデータを取ってきてRMeCabで遊んでたんですが

「看護師」が「看護」と「師」に分かれてしまう。

ほかにも医療系用語に対応できていない部分がいくつか…。

ということでユーザー辞書の追加にトライしていたんですが…。

いくつかのサイトを参考にしながら

C:\Program Files (x86)\MeCab\bin>mecab-dict-index -d "C:\Program Files (x86)\MeCab\dic\ipadic" -u ComeJisyoV3.dic -f utf-8 -t utf-8 ComeJisyoV3.csv

これを実行すると…

reading ComeJisyoV3.csv ... 41592
emitting double-array: 100% |###########################################|

done!

うまくいったように見えたんですが必要なファイルができない。

 

いろいろなミスがあったみたい。

1.xxx.dicが作成されない。

→管理者権限で実行していなかった。

Cドライブ(programfiles??)は管理者権限が必要なので

エラーしないものの生成されなかったみたい。

ほかのドライブをしてすることで解決。

 

2.辞書が読み込まれない。

文字コードが違ったらしい。

ユーザー辞書ファイルが作成できたあと、実行すると...

viterbi.cpp(50) [tokenizer_->open(param)] tokenizer.cpp(130) [sysdic->isCompatible(*d)] incompatible dictionary: dic\ipadic\ComeJisyoV3.dic

どうも文字コードが違うらしい。

ということでSHIFT-JISに文字コードを変更して手順をし直すと

 

できましたーーーーーーーーーーーーーーーーーーーーー!!!!!!

                            (終わり)