テキストマイニング

MeCabのユーザー辞書追加で引っかかった⇒解決した。

日本看護学会論文集のデータを取ってきてRMeCabで遊んでたんですが 「看護師」が「看護」と「師」に分かれてしまう。 ほかにも医療系用語に対応できていない部分がいくつか…。 ということでユーザー辞書の追加にトライしていたんですが…。 いくつかのサイトを参考…

RMeCabのエラー

個人的な興味からテキストマイニングの勉強を始めたんですが RMeCabを使い始めていきなりぶつかったのが下のエラー。 Error in substring(html, match + 6, match + attr(match, "match.length") - : invalid multibyte string at '<83><e3><80>山縺ォ繧医k繝<86</e3>…