KH coder (テキストマイニング) – データ出力 – 文
テキストマイニングツール KH coder から文を出力してエクセルで見える化します。
目次
文書×抽出語表 不定長CSV
・「ツール」→「文書」→「文書×抽出語」表の出力→「不定長CSV」
(バージョンにより「プロジェクト」→「エクスポート」)
・「集計単位」は「文」です。
・「最小出現数」は「1」です。
「1」にすることで確実にすべての文を出力できます。
出力結果
「h5」が「段」のID番号です。「id」が「文」のID番号です。「h5」はダブり番号あり、「id」はユニーク数になりダブり番号はありません。
出力結果の文を読むと何だかたどたどしい日本語になっていることがあります。
<例>
「まぐろ に 限る ます。」
原文は「まぐろに限ります。」
原文の「限り」が「限る」へ変形されます。
そして「語」と「語」のあいだにスペースが入ります。
テキストファイルの変形から出力
・「ツール」→「テキストファイルの変形」→「HTMLからCSVに変換」
文をとりだすことができますが、「h5」「id」がありません。
文書×抽出語表の「h5」「id」を残した状態で文を「HTMLからCSVに変換」から出力した結果に変更します。
活用例
「抽出語リスト」とリレーションシップします。
スラ―サーで「抽出語」を選択します。「抽出語」が出現する「文」を表示することができます。
データ職人
データ職人