Difyナレッジの検証 ~ファイル形式と設定で精度はどう変わる?~

Difyナレッジの検証 ~ファイル形式と設定で精度はどう変わる?~
目次

Difyナレッジの検証 ~ファイル形式と設定で精度はどう変わる?~

Difyは、社内外のチャットボットやAIアシスタントにおいて「RAG(検索拡張生成)」を活用できる強力なツールです。今回はその中でも重要な「ナレッジ機能」の精度向上を目的に、ファイル形式や設定条件が出力にどれほど影響するかを検証しました。

🔍 検証の目的と背景

問い合わせ対応チャットボットの回答精度を向上させるため、以下の点を中心に検証を実施しました:

  • ファイル形式による精度差
  • Difyのナレッジ設定が与える影響
  • プロンプトによる出力の違い
  • 将来的なAPI・Google Drive連携の有効性

📁 ナレッジデータの準備

同一内容の架空会社の就業規則ドキュメントを使い、以下7種類の形式でそれぞれナレッジ登録を行いました。

  • .pdf
  • .txt
  • .docx(Google Docs)
  • .md(Markdown)
  • .html
  • .xlsx(Excel)
  • .csv

各形式ごとに5回ずつチャットボットへ問い合わせを実施し、生成された回答の精度を目視評価しました。

使用プロンプト:
{{コンテキスト}}を分かりやすく要点を300字程度に纏めて説明してください。
改行や文字の強弱を意識してください。

⚙️ Difyのナレッジ設定

ナレッジ構築に際し、以下の統一設定を用いました:

  • 最大チャンク長:1024 characters
  • チャンクのオーバーラップ:50 characters
  • テキスト分割ルール:改行とスペース、記号
  • 埋め込みモデル:text-embedding-3-large
  • 検索方法:全文検索+ベクトル検索(ハイブリッド)
  • Rerankモデル:rerank-v3.5(TopK=3 / スコア閾値=0.5)

📊 ファイル形式別 検証結果

ナレッジのファイル形式ごとに、同じ内容であっても出力の精度や安定性に違いが見られました。

ファイル形式精度の印象(5回中)コメント
.pdf★★★★☆安定した精度で要点抽出もしっかり。構造が読み取りやすい。
.docx★★★★☆見出しや段落構造が残るため、精度は比較的高い。
.txt★★★★☆シンプルな構造でLLMが扱いやすいが、文脈表現が弱くなる場合も。
.md★★★☆☆マークダウン記法が多少ノイズになることもあるが、大きな支障はない。
.html★★☆☆☆タグ情報が多く、文脈が飛びやすい傾向が見られた。
.xlsx★☆☆☆☆表構造のため文章的文脈が乏しく、抽出精度にばらつきあり。
.csv★☆☆☆☆内容が単語や列中心で意味のつながりが取りにくい。

結果として、PDF・DOCX・TXTが安定的に回答の質が高く、CSVやExcel形式は精度がやや劣るという傾向が確認されました。

💬 出力例

✅ PDF形式での出力

以下のように、文書構造(見出し・段落)が保持され、内容ごとに分かりやすく整理された出力が得られました。

以下は、採用および配属に関する社内規定の要点です。

【採用手続き】
内定後、2週間以内に雇用契約書等の書類提出が必要。採用は正式手続き完了後に確定。虚申告や重大な問題があれば内定取消もあり。

【雇用形態】
正社員・契約社員・嘱託・パート・アルバイトの5種があり、それぞれに採用基準が定められています。

【入社後のサポート】
オリエンテーション、メンター制度、アカウント発行など、総務部がOnboarding支援を実施。

【試用期間】
入社後3か月間。正社員と同条件だが、適性により解雇の可能性あり。

【配置転換・配転】
業務上必要に応じて勤務地や職務内容が変更される場合あり。1か月前通知が原則。
50km以上の転居が必要な場合は会社が費用負担。

⭕️ CSV形式での出力

CSV形式でも「手続き内容の要旨」は概ね抽出されましたが、細かい文脈や文書構造(セクション分け、太字等)は再現されにくい傾向が見られました。

【第1章 総則 要点まとめ】

「入社手続き」とは、採用内定を受け入れた人が当社の社員として正式に登録されるために必要な一連の作業を指します。
具体的には、必要類の提出、雇用契約の特、研修日程の確認などが含まれます。

また、これらの手続きに関する詳しい内容は、総務部が作成する「入社ハンドブック」に記載されており、内容は状況に応じて随時更新されます。

このハンドブックを確認することで、スムーズな入社準備が可能になります。

💡 検証から得られたナレッジ設計のポイント

  • ナレッジ登録は PDF・DOCX・TXT のいずれかが理想
  • Excel・CSVは「数値表現」や「表データ」が主な内容でなければ使用非推奨
  • Q&A形式や見出し構造があると文脈把握しやすく精度向上
  • ナレッジファイルを定期的に更新する仕組み(API or Google Drive連携)を導入検討

📌 今後の展望

今後は、Google DriveとDifyを連携してナレッジを自動同期・更新し、運用負荷を削減する方向で検証を進めていきます。

お問い合わせ

このフォームに入力するには、ブラウザーで JavaScript を有効にしてください。
メールアドレス
ご相談内容
同意事項
プライバシーポリシー

株式会社PRODUCEWAVES

最終更新日:2023年10月26日


株式会社PRODUCEWAVES(以下「当社」といいます)は、お客様の個人情報を尊重し、適切に取り扱うことを重要な責務と考えております。本プライバシーポリシーでは、当社のウェブサイト及びサービスにおける個人情報の収集・利用・保護に関する方針を定めております。


1. 収集する個人情報

当社は、以下の場合にお客様の個人情報を収集することがあります。


お問い合わせをいただいた場合

イベントにご登録いただいた場合

当社サービスをご利用いただく場合

収集する個人情報には、氏名、メールアドレス、電話番号などが含まれますが、必要な範囲内に限定して収集いたします。


2. 個人情報の利用目的

当社は、収集した個人情報を以下の目的で利用いたします。


お客様からのお問い合わせへの対応

当社サービスの提供及び改善

ウェブサイトの品質向上

お客様に最適な情報提供及び体験の実現

3. 個人情報の第三者提供

当社は、以下のいずれかに該当する場合を除き、お客様の個人情報を第三者に提供いたしません。


お客様ご本人の同意がある場合

法令に基づく場合

お客様との契約の履行のために必要な範囲で委託先に提供する場合

当社の合併、事業譲渡等の事由による事業承継に伴う場合

4. 個人情報の安全管理

当社は、個人情報の漏洩、滅失、毀損等を防止するため、適切なセキュリティ対策を講じ、個人情報の安全管理に努めます。また、個人情報を取り扱う従業者に対し、適切な監督を行います。


5. お客様の権利

お客様は、当社が保有するご自身の個人情報について、開示、訂正、利用停止、削除等を請求する権利を有しています。これらの権利を行使されたい場合は、下記のお問い合わせ先までご連絡ください。


6. 未成年者の個人情報

当社のサービスは18歳未満の方を対象としておりません。当社は、18歳未満の方の個人情報を意図的に収集することはありません。18歳未満の方が当社に個人情報を提供された場合、保護者の同意を得たうえでご連絡いただきますようお願いいたします。


7. プライバシーポリシーの変更

当社は、必要に応じて本プライバシーポリシーを変更することがあります。変更した場合は、当社ウェブサイト上に変更後のプライバシーポリシーを掲載し、効力発生日を更新いたします。


8. お問い合わせ

本プライバシーポリシーに関するご質問やお問い合わせは、下記までご連絡ください。


株式会社PRODUCEWAVES

メールアドレス:info@producewaves.com


目次