KH coder (テキストマイニング) – データ出力 – 文

KH coder (テキストマイニング) – データ出力 – 文

テキストマイニングツール KH coder から文を出力してエクセルで見える化します。

文書×抽出語表 不定長CSV
文書×抽出語表

・「ツール」→「文書」→「文書×抽出語」表の出力→「不定長CSV」
(バージョンにより「プロジェクト」→「エクスポート」)

・「集計単位」は「文」です。
・「最小出現数」は「1」です。
 「1」にすることで確実にすべての文を出力できます。

出力結果
不定長CSV

 「h5」が「段」のID番号です。「id」が「文」のID番号です。「h5」はダブり番号あり、「id」はユニーク数になりダブり番号はありません。

 出力結果の文を読むと何だかたどたどしい日本語になっていることがあります。
<例>
 「まぐろ に 限る ます。」
 原文は「まぐろに限ります。」
 原文の「限り」が「限る」へ変形されます。
 そして「語」と「語」のあいだにスペースが入ります。

テキストファイルの変形から出力
テキストファイルの変形

・「ツール」→「テキストファイルの変形」→「HTMLからCSVに変換」

 文をとりだすことができますが、「h5」「id」がありません。

文を入れ替え

 文書×抽出語表の「h5」「id」を残した状態で文を「HTMLからCSVに変換」から出力した結果に変更します。

活用例
リレーションシップ

 「抽出語リスト」とリレーションシップします。

語が出現する文

 スラ―サーで「抽出語」を選択します。「抽出語」が出現する「文」を表示することができます。