Amazon BedrockのKnowledge BaseとAmazon OpenSearch Serviceを使用してRAG(検索拡張生成)を利用できるようにしています。
S3にRAG用のファイルを配置して同期をするとテキストファイル(.txt)の同期で次のエラーが発生し同期に失敗したので調べてみました。
「Ignored x files as their file format was not supported」
Knowledge Baseサポート対象のドキュメント形式は下画像の通りです。
「.txt」形式が「プレーンテキスト(ASCIIのみ)」となっていますね。
アップロードされていたファイルエンコードはすべて「Shift JIS」でした。
ちなみに「UTF-8」でエンコードしたもので同期に成功しました。
アップロードしていたテキストファイルのエンコード方式が対応していませんでした。
Amazon BedrockのKnowledge Baseがサポートするテキストファイルは「プレーンテキスト(ASCIIのみ)」
「Shift JIS」はサポートしていない
「UTF-8」は同期に成功した