SENSORS

コラム

2025.03.31

【論点】RAGに活用するデータの質をどのように高めるか

タグ

RAG活用の際、回答精度がRAGで利用する「データ」に依存することになるため、データが間違っていたり、質が低いデータが入ってしまうと、得られる回答の質も下がってしまいます。本稿ではRAGで活用するデータの質について論じています。

RAGは生成AI(LLM)を活用する際に、自社固有の業務関連データを利用することができるため、一般的な回答ではなく自社業務に即した回答を得ることができるようになる、という大きなメリットがあります。一方で回答精度がRAGで利用する「データ」に依存することになるため、データが間違っていたり、質が低いデータが入ってしまうと、得られる回答の質も下がってしまいます。

業務の分解

特定の業務でRAGを使う場合、その業務を細かくプロセスに分解し、処理・判断(及び基準)などを整理しておくことで、RAGで利用するべきデータやドキュメントを特定したり、データの利用にあたって事前処理が必要かどうかなどを検討することができます。

データの網羅性

前述の通りRAGに蓄積したデータが回答の質あるいは回答可能性を左右するため、データの網羅性を確認する必要があります。格納するデータが部分的であれば、回答に活かされるデータも部分的になりますので、格納を検討しているデータが網羅的に社内に存在し回収できるのかはチェックしておくことが望ましいです。

データの取捨選択

とりあえず保有しているデータをすべて格納すればよい、とするのはデータの質の担保の側面からは合理的ではありません。例えば過去作成した提案書を格納する場合、提案書フォルダすべてを一括で入れるのではなく、あまりに古くて参考にならないものや作成途中で保存されてしまっているもの、顧客の評価が低かったもの、などは1つ1つ確認して除外したほうが当該業務で得たい回答結果の精度がより高まる可能性があります。

データ追加の仕組み

構築時にRAGに格納したデータは、運用中に追加していくことで最新情報にアップデートされ、得られる回答内容もアップデートされます。当該業務に関連するサービス情報や営業資料、FAQの追加、最新の売れ筋情報など、格納したデータがアップデートされるたびに定期的にRAGに追加格納していくことで、現時点での最新情報の回答を継続的に得ることができるようになります。

「ヒューマン・イン・ザ・ループ」の仕組み

RAG活用の懸念点として、RAGに格納するデータに変化がなければ生成AI側のアップデートが無い限り同種の質問には同様の回答が出てくる、という点があります。情報の最新化は前述の通りですが、これに加えて利用者による回答の評価を行うという試みも有効です。利用者が回答結果(あるいは回答なし)に対してなんらかの評価を行うことで、新たなデータ群を追加するための検討に活かされたり、評価データそのものをRAGに追加していくことでLLMへの問い合わせにおいて考慮され、より得たい回答を得られる可能性が高まります。

マイクロウェーブではRAGを構築するために必要な業務コンサルティングや業務システム構築に実績があり、知見を持っています。またRAG構築のエンジン部分を開発し、自社ソリューションとしてご提供しているためスピーディかつリーズナブルにRAGを導入することが可能です。ぜひご相談くださいませ。

タグ

サービスに関するご相談・お問い合わせ

実績や各種サービスに関するご相談やお見積もりなど、お気軽にお問い合わせください。

この記事の著者

マイクロウェーブ マーケティングチーム

マイクロウェーブ マーケティングチーム

「マーケティング」に関係する中長期から短期の戦略、施策、仕組み化、運用、分析、トレンドなど、企業のマーケティング活動を加速させる情報を配信していきます。

一覧に戻る