第3回金融データ活用チャレンジ

2025年3月
PythonDSML
第3回金融データ活用チャレンジ

プロジェクト概要

企業情報が掲載されたESGレポートや統合報告書を用いたRAGシステムの構築を行う。

プロジェクト詳細

金融データの分析において、複雑なドキュメント構造(テキスト・表・図)が存在するPDFから、必要な情報を効率的に抽出・検索し、正確な回答を得ることは大きな課題です。本チャレンジでは、PDFドキュメントからの情報抽出と、大規模言語モデル(LLM)を活用した高精度な質問応答システムを構築しました。

Azure Document Intelligenceを用いてPDFからテキスト・表・図を抽出し、gpt-4oなどのLLMと組み合わせたRAG(Retrieval-Augmented Generation)方式によって、柔軟かつ正確な回答生成を実現しました。

資料・スライド

このプロジェクトには埋め込みコンテンツがありません。

追加画像・チャート

技術詳細

データソース

  • 企業レポートなどのPDFドキュメント
  • Azure Document Intelligence によるOCR・図表抽出データ
  • gpt-4oを中心とした大規模言語モデル
  • FAISSを用いたベクトル検索用データストア

手法・アプローチ

  1. 前処理: Azure Document IntelligenceでPDFからテキスト・表・画像(png形式)を抽出し、ページごとに構造化
  2. チャンク分割とメタデータ抽出: gpt-4oを用いて1ページ単位で意味的にチャンクを分割し、企業名やキーワードなどのメタ情報を抽出
  3. ハイブリッド検索: 質問からメタ情報(企業名・キーワード)を抽出し、類似クエリを複数生成。キーワード検索とベクトル検索を併用して関連チャンクを取得
  4. 出力整形: 回答を提出用にgpt-4oで要約し、一言に言い換え

結果・分析

高精度なRAGシステムを完成させることはできなかったが、最低限の精度を出すことができた。