目次
Difyナレッジの検証 ~ファイル形式と設定で精度はどう変わる?~
Difyは、社内外のチャットボットやAIアシスタントにおいて「RAG(検索拡張生成)」を活用できる強力なツールです。今回はその中でも重要な「ナレッジ機能」の精度向上を目的に、ファイル形式や設定条件が出力にどれほど影響するかを検証しました。
🔍 検証の目的と背景
問い合わせ対応チャットボットの回答精度を向上させるため、以下の点を中心に検証を実施しました:
- ファイル形式による精度差
- Difyのナレッジ設定が与える影響
- プロンプトによる出力の違い
- 将来的なAPI・Google Drive連携の有効性
📁 ナレッジデータの準備
同一内容の架空会社の就業規則ドキュメントを使い、以下7種類の形式でそれぞれナレッジ登録を行いました。
- .txt
- .docx(Google Docs)
- .md(Markdown)
- .html
- .xlsx(Excel)
- .csv
各形式ごとに5回ずつチャットボットへ問い合わせを実施し、生成された回答の精度を目視評価しました。
使用プロンプト:{{コンテキスト}}を分かりやすく要点を300字程度に纏めて説明してください。
改行や文字の強弱を意識してください。
⚙️ Difyのナレッジ設定
ナレッジ構築に際し、以下の統一設定を用いました:
- 最大チャンク長:1024 characters
- チャンクのオーバーラップ:50 characters
- テキスト分割ルール:改行とスペース、記号
- 埋め込みモデル:text-embedding-3-large
- 検索方法:全文検索+ベクトル検索(ハイブリッド)
- Rerankモデル:rerank-v3.5(TopK=3 / スコア閾値=0.5)

📊 ファイル形式別 検証結果
ナレッジのファイル形式ごとに、同じ内容であっても出力の精度や安定性に違いが見られました。
ファイル形式 | 精度の印象(5回中) | コメント |
---|---|---|
★★★★☆ | 安定した精度で要点抽出もしっかり。構造が読み取りやすい。 | |
.docx | ★★★★☆ | 見出しや段落構造が残るため、精度は比較的高い。 |
.txt | ★★★★☆ | シンプルな構造でLLMが扱いやすいが、文脈表現が弱くなる場合も。 |
.md | ★★★☆☆ | マークダウン記法が多少ノイズになることもあるが、大きな支障はない。 |
.html | ★★☆☆☆ | タグ情報が多く、文脈が飛びやすい傾向が見られた。 |
.xlsx | ★☆☆☆☆ | 表構造のため文章的文脈が乏しく、抽出精度にばらつきあり。 |
.csv | ★☆☆☆☆ | 内容が単語や列中心で意味のつながりが取りにくい。 |
結果として、PDF・DOCX・TXTが安定的に回答の質が高く、CSVやExcel形式は精度がやや劣るという傾向が確認されました。
💬 出力例
✅ PDF形式での出力
以下のように、文書構造(見出し・段落)が保持され、内容ごとに分かりやすく整理された出力が得られました。
以下は、採用および配属に関する社内規定の要点です。
【採用手続き】
内定後、2週間以内に雇用契約書等の書類提出が必要。採用は正式手続き完了後に確定。虚申告や重大な問題があれば内定取消もあり。
【雇用形態】
正社員・契約社員・嘱託・パート・アルバイトの5種があり、それぞれに採用基準が定められています。
【入社後のサポート】
オリエンテーション、メンター制度、アカウント発行など、総務部がOnboarding支援を実施。
【試用期間】
入社後3か月間。正社員と同条件だが、適性により解雇の可能性あり。
【配置転換・配転】
業務上必要に応じて勤務地や職務内容が変更される場合あり。1か月前通知が原則。
50km以上の転居が必要な場合は会社が費用負担。
⭕️ CSV形式での出力
CSV形式でも「手続き内容の要旨」は概ね抽出されましたが、細かい文脈や文書構造(セクション分け、太字等)は再現されにくい傾向が見られました。
【第1章 総則 要点まとめ】
「入社手続き」とは、採用内定を受け入れた人が当社の社員として正式に登録されるために必要な一連の作業を指します。
具体的には、必要類の提出、雇用契約の特、研修日程の確認などが含まれます。
また、これらの手続きに関する詳しい内容は、総務部が作成する「入社ハンドブック」に記載されており、内容は状況に応じて随時更新されます。
このハンドブックを確認することで、スムーズな入社準備が可能になります。
💡 検証から得られたナレッジ設計のポイント
- ナレッジ登録は PDF・DOCX・TXT のいずれかが理想
- Excel・CSVは「数値表現」や「表データ」が主な内容でなければ使用非推奨
- Q&A形式や見出し構造があると文脈把握しやすく精度向上
- ナレッジファイルを定期的に更新する仕組み(API or Google Drive連携)を導入検討
📌 今後の展望
今後は、Google DriveとDifyを連携してナレッジを自動同期・更新し、運用負荷を削減する方向で検証を進めていきます。