Amazon BedrockのKnowledge BaseとS3の連携でテキストファイルの同期に失敗する

エラー概要

Amazon BedrockのKnowledge BaseとAmazon OpenSearch Serviceを使用してRAG(検索拡張生成)を利用できるようにしています。

S3にRAG用のファイルを配置して同期をするとテキストファイル(.txt)の同期で次のエラーが発生し同期に失敗したので調べてみました。

「Ignored x files as their file format was not supported」

原因

Knowledge Baseサポート対象のドキュメント形式は下画像の通りです。

(2024-11-29時点)
 

「.txt」形式が「プレーンテキスト(ASCIIのみ)」となっていますね。

アップロードされていたファイルエンコードはすべて「Shift JIS」でした。

ちなみに「UTF-8」でエンコードしたもので同期に成功しました。

結論

アップロードしていたテキストファイルのエンコード方式が対応していませんでした。

まとめ

  • Amazon BedrockのKnowledge Baseがサポートするテキストファイルは「プレーンテキスト(ASCIIのみ)」

  • 「Shift JIS」はサポートしていない

  • 「UTF-8」は同期に成功した