第3回金融データ活用チャレンジ

プロジェクト概要
企業情報が掲載されたESGレポートや統合報告書を用いたRAGシステムの構築を行う。
プロジェクト詳細
金融データの分析において、複雑なドキュメント構造(テキスト・表・図)が存在するPDFから、必要な情報を効率的に抽出・検索し、正確な回答を得ることは大きな課題です。本チャレンジでは、PDFドキュメントからの情報抽出と、大規模言語モデル(LLM)を活用した高精度な質問応答システムを構築しました。
Azure Document Intelligenceを用いてPDFからテキスト・表・図を抽出し、gpt-4oなどのLLMと組み合わせたRAG(Retrieval-Augmented Generation)方式によって、柔軟かつ正確な回答生成を実現しました。
追加画像・チャート
追加画像はありません。
技術詳細
データソース
- 企業レポートなどのPDFドキュメント
- Azure Document Intelligence によるOCR・図表抽出データ
- gpt-4oを中心とした大規模言語モデル
- FAISSを用いたベクトル検索用データストア
手法・アプローチ
- 前処理: Azure Document IntelligenceでPDFからテキスト・表・画像(png形式)を抽出し、ページごとに構造化
- チャンク分割とメタデータ抽出: gpt-4oを用いて1ページ単位で意味的にチャンクを分割し、企業名やキーワードなどのメタ情報を抽出
- ハイブリッド検索: 質問からメタ情報(企業名・キーワード)を抽出し、類似クエリを複数生成。キーワード検索とベクトル検索を併用して関連チャンクを取得
- 出力整形: 回答を提出用にgpt-4oで要約し、一言に言い換え
結果・分析
高精度なRAGシステムを完成させることはできなかったが、最低限の精度を出すことができた。