Amazon BedrockのKnowledge BaseとS3の連携でDocファイルの同期に失敗する

Amazon BedrockのKnowledge Baseを利用しているとタイトルの通りに引っかかりました。

AWSサポートにもご協力いただいて検証を進めたので結果を残しておきます。

※公式のドキュメント等には今回の事象に関して記載がおそらく無く、以下の内容はあくまでも検証結果なのでご留意ください。(2024-11-29時点)

エラー概要

Amazon BedrockのKnowledge BaseとAmazon OpenSearch Serviceを使用してRAG(検索拡張生成)を利用できるようにしています。

S3にRAG用のファイルを配置して同期をするとMicrosoft Office Word(.doc)ファイルの同期で次のエラーが発生し同期に失敗したので調べてみました。

「Ignored x files as their file format was not supported」

原因

Knowledge Baseサポート対象のドキュメント形式は下画像の通りです。

Amazon Bedrock, Knowledge base, Word

(2024-11-29時点)
 

「.doc」はサポートされているはず。

アップロードされていたファイル拡張子が「.doc」「.Doc」あったがどちらでも問題なし。

AWSサポートとも検証を繰り返し連携していくとファイルの内容に問題があることがわかり次の検証結果に至りました。

これらのテスト結果から、ファイルサイズの上限は50MBですが、画像などが挿入されている場合、制限は約15MBに下がると考えられます。」

ファイルの内容によってクォータ値が変わる結果に。。。

「約15MB」としている理由は16MBに近づく場合も成功・失敗両方のパターンがあったためです。

また、AWSサポートによるとエラーとなるDocファイルをPDFに変換した32MBのファイルでは同期に成功したとのこと。

Docファイルに画像が入っている場合はPDFに変換したほうが良さそうです。

結論

Microsoft Office Word(.doc)ファイルでは内容がドキュメントのみの場合はファイルサイズの上限は50MBだが画像が挿入された場合は制限が「約」15MBに引き下げられる。

画像が挿入されているMicrosoft Office Word(.doc)ファイルはPDFに変換するのも回避策の一つになります。

まとめ

    • Amazon BedrockのKnowledge Baseは「.doc)」ファイルをサポートしている

    • ファイルの最大サイズは「50MB」

    • 画像が挿入されている「.doc」ファイルは最大サイズが「約15MB」に引き下げられる

    • 画像が挿入されている「.doc」ファイルはPDF形式にすることで「最大サイズ約15MB」を回避できる