자유 기술을 AI로 분석하는 실무 — 텍스트 마이닝과 LLM 코딩

리서치 업무를 해본 사람이라면 한 번쯤 겪어봤을 일입니다. 선택지의 집계는 몇 분 만에 끝나는데, 자유 기술만큼은 "읽지 않으면 아무것도 시작되지 않는" 상태로 책상 위에 계속 남아 있는, 그 찜찜함. "나중에 읽자"가 3주 동안 이어지다가, 결국 대충 훑어보고 끝나는——이런 실패는 솔직히 어느 현장에서나 일어나고 있다고 생각합니다.

최근 몇 년 사이 생성 AI가 실무에 들어오면서 "자유 기술 분석, 이제야 드디어 해결되는 거 아닌가?"라는 기대가 업계 내에서 커지고 있습니다. 다만 결론부터 말하면, AI에 맡겨 두면 해결되는 이야기는 아니다라는 것이 학술 논문과 공개 사례를 따라온 저희의 솔직한 감상입니다. 2024년 피어 리뷰 논문에서는 "Claude가 93.9%의 정확도로 인간에 근접했다"고 보고되는 한편, 다른 논문에서는 "fine-tuning하지 않으면 실용 수준이 되지 않는다"고 말합니다. 모순되어 보이지만, 둘 다 옳습니다. 이 글에서는 텍스트 마이닝과 LLM 코딩이라는 두 가지 흐름을 정리한 다음, 무엇이 기대대로 되고, 어디서 반드시 넘어지는가를 운용 관점에서 써 내려갑니다.

1. 자유 기술 분석의 두 가지 접근법

자유 기술 분석은 크게 두 가지 흐름으로 나뉩니다.

접근법 1: 텍스트 마이닝(단어·공출현 기반)

빈출어·공출현·감정(긍정/부정)을 통계적으로 추출하는 고전적 기법. 형태소 분석 → 단어 빈도 → 공출현 네트워크라는 흐름이 기본이며, 국내에서는 오랫동안 주류 기법이었습니다. 단어 수준의 정량 분석에 강하고, "어떤 말이 자주 나오는가"가 직관적으로 보이는 반면, 문맥 파악에는 한계가 있습니다.

접근법 2: LLM 코딩(문맥·의미 기반)

GPT / Claude / Gemini 등 대규모 언어 모델에 자유 응답을 한 건씩 읽게 하고, 사전에 정의한 카테고리로 분류(코딩)하는 기법. 2023년경부터 학술·실무 양면에서 연구가 진행되어, 문맥과 의미를 고려한 분류가 가능해졌습니다.

2. LLM에 의한 자유 기술 코딩의 최신 연구 — 정확도와 한계

2024년 전후로, LLM을 사용한 자유 기술 코딩의 정확도를 평가하는 피어 리뷰 연구가 여러 건 발표되고 있습니다.

인간에 가까운 정확도를 낼 수 있는 경우도 있다

Mellon 등의 2024년 Sage 논문은 영국의 사회 조사 "가장 중요한 문제는 무엇인가" 문항의 자유 응답에 대해, Claude-1.3이 93.9%의 정확도로 코딩하여 인간 코더의 94.7%에 거의 필적하는 결과를 얻었다고 보고합니다. 충분한 샘플과 명확한 코딩 체계가 있는 경우, LLM이 인간의 코딩에 근접한 성능을 낼 수 있음이 실증되었습니다.

다만 "케이스에 따른" 격차가 크다

한편, arXiv 2024의 연구는 독일어 조사 동기에 관한 자유 응답의 코딩에서는, 범용 LLM으로는 정확도가 불충분하고, fine-tuning한 모델만이 만족할 수 있는 수준에 도달했다고 보고합니다. 언어·주제의 복잡성·카테고리의 추상도에 따라, 기대할 수 있는 정확도는 크게 변동합니다.

LLM에는 구조적 약점이 있다

2024년의 PMC 논문은 LLM에 의한 자유 응답 분석의 구조적 한계를 다음과 같이 정리하고 있습니다.

LLM은 각 응답을 고립시켜 처리한다 — 인간 코더가 사용하는 "응답자의 다른 문항과의 정합성", "톤이나 풍자의 해석", "후속 질문의 문맥"을 활용할 수 없다
모호한 응답에 약하다 — 인간이라면 문맥으로 판단할 수 있는 응답이, LLM에서는 무작위로 분류되기 쉽다
프롬프트 설계의 영향이 크다 — 같은 데이터라도 프롬프트를 바꾸면 결과가 크게 달라진다

이것들은 학술적으로 반복 실증된, LLM 코딩의 구조적 약점입니다.

대규모 조사에서의 실패 사례

Langer Research의 화이트 페이퍼에서는, 2024년 Texas Education Poll의 자유 응답을 AI 도구로 코딩한 결과, 인간 코딩과의 불일치·오분류·톤이나 방향성의 해석 실수가 다수 발생했다는 결과가 보고되었습니다. 상용 AI 도구가 반드시 실용 수준에 이른 것은 아니라는, 업계 내 경고로서 널리 참조되고 있습니다.

3. 구현 도구의 두 가지 유형 — 텍스트 마이닝형 vs LLM 통합형

자유 기술 분석을 구현할 때의 도구는 크게 두 가지 유형으로 나뉩니다. 어느 쪽도 벤더 공개 정보 기반의 업계 정리이며, 최적해는 용도에 따라 달라집니다.

유형 1: 전용 텍스트 마이닝 도구(단어·공출현 분석 중심)

국내에서는 오랫동안 이용되어 온 유형으로, 형태소 분석 + 공출현 네트워크 + 빈도 분석이 중심입니다. 유저로컬의 AI 텍스트 마이닝이나 미에루카 엔진 등이 대표 예로 국내에서 널리 이용되고 있다고 각 사의 소개 기사에서 언급됩니다(IT트렌드, 아스픽 등). 단어 수준의 경향 파악에는 어울리는 반면, 긴 문장이나 문맥 의존의 해석은 서툴다는 특성이 공통적으로 지적됩니다.

유형 2: LLM / 생성 AI 통합형 도구(문맥 이해 중심)

기존 QDA(Qualitative Data Analysis) 도구가 생성 AI를 도입하기 시작한 흐름도 있습니다.

NVivo(Lumivero)는 AI 어시스턴트로 텍스트 요약·코딩 후보 제안·감정 분석을 제공하고 있다고 소개된다
MAXQDA도 마찬가지로 AI 지원 기능을 확충 중이라고 각 비교 기사에서 언급된다
국내에서는 이모션 테크 등 운용 회사도 텍스트 마이닝과 생성 AI의 조합을 해설하고 있다

이것들은 벤더 공개 정보에 기반한 업계 정리이며, 학술적 엄밀성을 담보하는 것은 아니지만, 기존 텍스트 마이닝과 LLM을 조합한다는 방향성이 2025년의 실무 트렌드로 널리 공유되고 있습니다.

4. 현장에서의 구분 사용 — 접근법 선정의 판단 기준

학술 연구의 지견과 업계 도구의 정보를 종합하면, 자유 기술 분석의 접근법 선정은 데이터량·목적·정확도 요건의 3개 축으로 결정됩니다.

판단축 1: 데이터 규모

~500건: LLM에 한 건씩 처리시켜도 현실적인 비용. 문맥 이해를 활용한다
500~수천 건: 텍스트 마이닝으로 전체 경향을 파악 → 신경 쓰이는 클러스터를 LLM으로 심층 분석하는 하이브리드형
수만 건 이상: 텍스트 마이닝으로 차원을 압축 → 샘플링한 서브셋을 LLM으로 코딩

판단축 2: 목적

트렌드 파악(마케팅 용도): 텍스트 마이닝형으로 충분한 경우가 많다
세그먼트별 과제 도출(CS 용도): LLM 코딩이 강하다
정량화하여 경시 비교하고 싶다: 사전 카테고리를 정의하여 LLM / 인간 병용의 코딩
소수의 중요 의견을 찾고 싶다: 인간에 의한 리뷰 + LLM의 보조

판단축 3: 정확도 요건

의사 결정에 직접 이어지는 장면(경영 보고, 제품 판단): LLM + 인간 리뷰의 2단 구성 권장
감각적인 경향 파악으로 충분: 텍스트 마이닝 단독으로도 가능

편집부의 시점 — 저희가 현장에서 추천하고 싶은 4가지 방식

업계 기사와 공개 사례를 2년 정도 따라다니다 보면 "이것이 현실적인 결론이구나"라고 느끼는 운용 패턴이 보이기 시작합니다. 반대로 말하면, AI에 전부 맡기려고 하다가 나중에 되돌리느라 고생하는 프로젝트도 꽤 높은 빈도로 발생하고 있습니다. 영업 토크와 현장의 갭이 아직 큰 영역이므로, 이 부분은 강하게 말씀드리겠습니다.

1. 데이터가 많다면, 처음부터 2단계 접근 한 가지로. 텍스트 마이닝으로 개관을 파악한 다음, 중요한 클러스터만 LLM으로 심층 분석한다. 이걸 귀찮게 여기고 "일단 전 건을 LLM에 걸어 보자"로 시작하면, 비용도 시간도 두 배 이상 뛰어오릅니다. 게다가 얻어지는 통찰은 2단계와 별 차이 없다는 것이 보면서 느끼는 바입니다.

2. 프롬프트를 "대충" 쓰는 것은 절대 안 된다. "AI가 알아서 잘 분류해 주겠지"로 진행하면 거의 반드시 실망합니다. 카테고리 정의·예시·경계 조건을 사전에 문장으로 써 내려간 다음에 투입한다. 여기서 대충하면 후속 공정의 인간 리뷰가 지옥이 됩니다.

3. 인간 리뷰 5~10%는 절대 생략하지 않는다. "AI가 했으니까 괜찮다"가 가장 위험한 판단입니다. 본격 운용 전에 샘플에서 정확도를 실측한다. 여기를 스킵한 팀이, 나중에 "점수의 뒷받침이 약하다"고 지적받는 패턴을, 공개 사례에서도 반복해서 봅니다.

4. 모호한 응답은 "판정 불능"으로 빼낸다. LLM에 무리하게 분류시키면 오분류가 몰래 섞여 들어갑니다. Other나 판정 불능 플래그로 빼내고, 그 부분만 인간에게 돌리는 편이 최종적인 신뢰성은 압도적으로 높다. "전 건 분류 완료!"보다 "80%는 자동, 20%는 인간이 꼼꼼히"가 아웃풋의 질은 확실히 위입니다.

5. 설문조사 도구 Kicue에서의 자유 기술 처리

Kicue에서는 자유 기술(OA / FA) 문항 유형을 기본 탑재하여, AI를 활용한 설계와 운용을 지원합니다.

OA / FA(자유 기술) 문항 유형 — 단문·장문 모두에 대응(문항 유형 상세)
자유 기술의 CSV / Excel 내보내기 — 외부 전용 도구(NVivo / MAXQDA / 텍스트 마이닝)에서 분석할 때 그대로 읽어들일 수 있는 포맷으로 출력
응답 시의 편향 대책 — 글자 수 가이던스, 선택/필수의 명확화, 응답 이탈을 줄이는 UI 설계(응답률 향상의 실천 포인트)
부정 응답의 검지 — 자유 기술 칸에 AI 에이전트가 생성한 텍스트를 붙여 넣는 부정에도 대응(부정 검지의 구조)

설문지 파일을 업로드하는 것만으로, 자유 기술의 설계부터 응답 수집, 내보내기까지를 일관되게 다룰 수 있습니다.

적합한 도구 선택 — 무료 플랜 한도, 분기 로직 지원, AI 기능, CSV 내보내기는 도구마다 크게 다릅니다. 무료 설문조사 도구 비교에서 이 접근법에 맞는 도구를 찾아보세요.

정리

자유 기술을 AI로 분석할 때의 체크포인트:

접근법은 2종류 — 텍스트 마이닝(단어·공출현)과 LLM 코딩(문맥·의미), 각각 잘하는 영역이 다르다
LLM은 인간에 가까운 정확도를 낼 수 있지만 조건부 — 충분한 샘플, 명확한 코딩 체계, 프롬프트 설계가 전제
LLM의 구조적 약점을 이해한다 — 응답을 고립 처리, 모호함에 약함, 프롬프트 의존
상용 AI 도구의 정확도는 용도별로 검증이 필요 — 공개된 실패 사례도 참고하여, 실측한 후 본격 운용
실무에서는 2단계 접근 + 샘플 리뷰가 정착 — 텍스트 마이닝으로 개관 → LLM으로 심층 분석 → 인간이 최종 체크

자유 기술은 "양의 벽"이 있어 분석을 포기해 온 정보원이지만, AI와의 조합으로 실무적으로 다룰 수 있는 영역이 확대되고 있습니다. 접근법의 특성을 이해하고, 인간의 체크를 반드시 남긴다 설계가, 앞으로의 자유 기술 분석의 스탠다드가 되어 가고 있습니다.

참고 문헌

학술 논문·피어 리뷰 연구

Mellon, J., et al. (2024). Do AIs know what the most important issue is? Using language models to code open-text social survey responses at scale. Research & Politics.
Framework-based qualitative analysis of free responses of Large Language Models: Algorithmic fidelity (2024). PMC.
AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation (2024). arXiv preprint.
A Large Language Model Approach to Educational Survey Feedback Analysis (2024). International Journal of Artificial Intelligence in Education.
Large Language Model for Qualitative Research - A Systematic Mapping Study (2024). arXiv preprint.

업계 조사·벤더 정보

국내 운용 회사·도구 정보(업계 설명으로 참조)

자유 기술을 포함한 설문지를 효율적으로 설계·운용할 수 있는 무료 설문조사 도구 Kicue 를 사용해 보세요.