自由記述をAIで分析する実務 — テキストマイニングとLLMコーディング

リサーチ業務をやっている人なら一度は経験したことがあるはず。選択肢の集計は数分で終わるのに、自由記述だけは「読まなきゃ何も始まらない」まま机の上に残り続ける、あの気持ち悪さ。「あとで読もう」が3週間続いて、最終的に斜め読みして終わり——こういう失敗は、正直どこの現場でも起きていると思います。

ここ数年で生成AIが実務に入ってきて、「自由記述分析、これでようやく片付くんじゃない？」という期待が業界内で大きくなっています。ただ結論から言うと、AIに丸投げで解決する話ではない というのが、学術論文と公開事例を追ってきた私たちの率直な感想です。2024年の査読論文では「Claudeが93.9%の精度で人間に迫った」と報告される一方、別の論文では「fine-tuningしないと実用レベルにならない」と言われています。矛盾しているようで、どちらも正しい。この記事では、テキストマイニングとLLMコーディングという2つの流派を整理した上で、何が期待通りにいって、どこで必ずコケるのか を、運用目線で書きます。

1. 自由記述分析の2つのアプローチ

自由記述の分析は、大きく2つの流派に分かれます。

アプローチ1: テキストマイニング（単語・共起ベース）

頻出語・共起・感情（ポジ / ネガ）を統計的に抽出する古典的手法。形態素解析 → 単語頻度 → 共起ネットワークという流れが基本で、国内では長年主流の手法です。単語レベルの定量分析に強く、「どの言葉がよく出てくるか」が直感的に見える一方、文脈の捉え方には限界があります。

アプローチ2: LLM コーディング（文脈・意味ベース）

GPT / Claude / Gemini などの大規模言語モデルに自由回答を1件ずつ読ませ、事前定義したカテゴリに分類（コーディング）する手法。2023年頃から学術・実務の両面で研究が進み、文脈と意味を踏まえた分類が可能になっています。

2. LLM による自由記述コーディングの最新研究 — 精度と限界

2024年前後から、LLMを使った自由記述コーディングの精度を評価する査読研究が複数発表されています。

人間に近い精度を出せるケースがある

Mellon らの 2024年 Sage 論文は、英国の社会調査の「最も重要な問題は何か」設問の自由回答に対して、Claude-1.3 が 93.9% の精度 でコーディングし、人間のコーダーの 94.7% にほぼ匹敵する結果を得たことを報告しています。十分なサンプルと明確なコーディング体系がある場合、LLM が人間のコーディングに迫る性能を出せることが実証されています。

ただし「ケースによる」格差が大きい

一方で、arXiv 2024 の研究は、ドイツ語の調査動機に関する自由回答のコーディングでは、汎用 LLM では精度が不十分で、fine-tuning したモデルのみが満足できる水準 に達したと報告しています。言語・トピックの複雑性・カテゴリの抽象度によって、期待できる精度は大きく変動します。

LLM には構造的な弱点がある

2024 年の PMC 論文は、LLM による自由回答分析の構造的な限界を以下のように整理しています。

LLM は各回答を孤立して処理する — 人間のコーダーが使うような「回答者の他設問との整合性」「トーンや皮肉の読み取り」「フォローアップ質問の文脈」が使えない
曖昧な回答に弱い — 人間なら文脈から判断できる回答が、LLM ではランダムに分類されがち
プロンプト設計の影響が大きい — 同じデータでもプロンプトを変えると結果が大きく変わる

これらは学術的に繰り返し実証されている、LLM コーディングの構造的な弱点です。

大規模調査での失敗事例

Langer Research のホワイトペーパーでは、2024 年の Texas Education Poll の自由回答を AI ツールでコーディングしたところ、人間のコーディングとの不一致・誤分類・トーンや方向性の読み取りミスが多数発生した、という結果が報告されています。商用 AI ツールが必ずしも実用水準に達していない、という業界内の警告として広く参照されています。

3. 実装ツールの2つの型 — テキストマイニング型 vs LLM 統合型

自由記述分析を実装する際のツールは、大きく2つの型に分かれます。どちらもベンダー公開情報ベースの業界整理であり、最適解は用途によって変わります。

型1: 専用テキストマイニングツール（単語・共起分析中心）

国内では長年利用されている型で、形態素解析 + 共起ネットワーク + 頻度分析が中心です。ユーザーローカルのAIテキストマイニングや見える化エンジンなどが代表例として国内で広く利用されている、と各社の紹介記事で言及されています（ITトレンド、アスピック等）。単語レベルの傾向把握には向く反面、長文や文脈依存の解釈は苦手 という特性が共通して指摘されています。

型2: LLM / 生成 AI 統合型ツール（文脈理解中心）

従来型 QDA（Qualitative Data Analysis）ツールが生成 AI を取り込み始めている流れもあります。

NVivo（Lumivero）は AI アシスタントでテキスト要約・コーディング候補提案・感情分析を提供していると紹介されている
MAXQDA も同様に AI 支援機能を拡充中、と各比較記事で言及されている
国内ではエモーションテックなど運用会社もテキストマイニングと生成 AI の組み合わせを解説している

これらはベンダー公開情報に基づく業界整理であり、学術的厳密性を担保するものではありませんが、従来のテキストマイニングと LLM を組み合わせる という方向性が 2025 年の実務トレンドとして広く共有されています。

4. 現場での使い分け — アプローチ選定の判断基準

学術研究の知見と業界ツールの情報を総合すると、自由記述分析のアプローチ選定は データ量・目的・精度要件 の3軸で決まります。

判断軸1: データ規模

〜500件: LLM に1件ずつ処理させても現実的なコスト。文脈理解を活かす
500〜数千件: テキストマイニングで全体傾向を把握 → 気になるクラスタを LLM で深掘りのハイブリッド型
数万件以上: テキストマイニングで次元を圧縮 → サンプリングしたサブセットを LLM でコーディング

判断軸2: 目的

トレンドの把握（マーケティング用途）: テキストマイニング型で十分なことが多い
セグメント別の課題抽出（CS 用途）: LLM コーディングが強い
定量化して経時比較したい: 事前カテゴリを定義して LLM / 人間併用のコーディング
少数の重要意見を見つけたい: 人間によるレビュー + LLM の補助

判断軸3: 精度要件

意思決定に直接つながる場面（経営報告、製品判断）: LLM + 人間レビューの二段構え推奨
感覚的な傾向把握で十分: テキストマイニング単独でも可

編集部の視点 — 私たちが現場で推したい4つの流儀

業界記事と公開事例を2年ほど追いかけていると、「これが現実的な落とし所だよね」と感じる運用パターンが見えてきます。逆に言うと、AIに全部任せようとして後から手戻りで苦しむ案件も結構な頻度で発生しています。営業トークと現場のギャップがまだ大きい領域なので、ここは強めに言っておきます。

1. データが多いなら、最初から2段階アプローチ一択。 テキストマイニングで概観をつかんでから、重要なクラスタだけLLMで深掘りする。これを面倒くさがって「とりあえず全件LLMにかけよう」でスタートすると、コストも時間も倍以上跳ね上がります。しかも得られる洞察は2段階と大差ない、というのが見ていて感じるところです。

2. プロンプトを「なんとなく」で書くのは絶対にダメ。 「AIが良い感じに分類してくれるだろう」で進めると、ほぼ必ず失望します。カテゴリ定義・例示・境界条件を事前に 文章で書き下ろしてから 投入する。ここを手抜きすると、後工程の人間レビューが地獄になります。

3. 人間レビュー5〜10%は、絶対に省略しない。 「AIがやったから大丈夫」が最も危険な判断です。本番運用前にサンプルで精度を実測する。ここをスキップしたチームが、後日「スコアの裏付けが弱い」と突っ込まれるパターン、公開事例でも繰り返し見ます。

4. 曖昧な回答は「判定不能」で逃がす。 LLMに無理やり分類させると、誤分類がサイレントに紛れ込みます。Otherや判定不能フラグに逃がして、そこだけ人間に回すほうが 最終的な信頼性は圧倒的に高い。「全件分類できました！」より「8割は自動、2割は人間が丁寧に」のほうが、アウトプットの質は確実に上です。

5. アンケートツール Kicue での自由記述処理

Kicue では、自由記述（OA / FA）設問タイプを標準搭載し、AI を活用した設計と運用を支援します。

OA / FA（自由記述）設問タイプ — 短文・長文いずれにも対応（設問タイプの詳細）
自由記述の CSV / Excel エクスポート — 外部の専用ツール（NVivo / MAXQDA / テキストマイニング）で分析する際にそのまま読み込めるフォーマットで出力
回答時のバイアス対策 — 文字数ガイダンス、任意 / 必須の明確化、回答離脱を減らす UI 設計（回答率向上の実践ポイント）
不正回答の検知 — 自由記述欄に AI エージェントが生成したテキストを貼り付ける不正にも対応（不正検知の仕組み）

調査票ファイルをアップロードするだけで、自由記述の設計から回答収集、エクスポートまでを一貫して扱えます。

なお、自由記述データを外部の分析ツール（NVivo / MAXQDA / KH Coder / Excel）で処理する場合、CSV / Excel エクスポートの可否がツール選定で重要になります。無料プランで CSV エクスポートが使えないツール（SurveyMonkey や Questant など）も残っているので、無料アンケートツール 8 選比較で事前確認しておくと安全です。

まとめ

自由記述を AI で分析する際のチェックポイント：

アプローチは2種類 — テキストマイニング（単語・共起）と LLM コーディング（文脈・意味）、それぞれ得意領域が異なる
LLM は人間に近い精度を出せるが条件付き — 十分なサンプル、明確なコーディング体系、プロンプト設計が前提
LLM の構造的弱点を理解する — 回答を孤立処理、曖昧さに弱い、プロンプト依存
商用 AI ツールの精度は用途ごとに検証が必要 — 公開された失敗事例も参考に、実測してから本番運用
実務では2段階アプローチ + サンプルレビューが定着 — テキストマイニングで概観 → LLM で深掘り → 人間が最終チェック

自由記述は「量の壁」があって分析を諦められてきた情報源ですが、AI との組み合わせで実務的に扱える領域が拡大しています。アプローチの特性を理解し、人間のチェックを必ず残す 設計が、これからの自由記述分析のスタンダードになりつつあります。

参考文献 (14件)

学術論文・査読研究

Mellon, J., et al. (2024). Do AIs know what the most important issue is? Using language models to code open-text social survey responses at scale. Research & Politics.
Framework-based qualitative analysis of free responses of Large Language Models: Algorithmic fidelity (2024). PMC.
AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation (2024). arXiv preprint.
A Large Language Model Approach to Educational Survey Feedback Analysis (2024). International Journal of Artificial Intelligence in Education.
Large Language Model for Qualitative Research - A Systematic Mapping Study (2024). arXiv preprint.

業界調査・ベンダー情報

国内運用会社・ツール情報（業界説明として参照）

自由記述にも対応した無料で使えるアンケートツール Kicue を試してみませんか。調査票のアップロードから集計まで、定量パートをワンストップで効率化できます。