AWSチーム ブログ

Bedrock Data Automation(BDA)でマルチモーダルデータから情報抽出してみた

作成者: 岡本 篤志|2024/12/13 4:10:56

Bedrock Data Automation(BDA)とは

  • 非構造化データ(画像・動画など)からなるマルチモーダルデータを、生成AIを活用して自動的に整理・抽出するサービスです。
  • 今まではテキストベースのコンテンツを主に対象としていましたが、それが画像や動画などからも情報を抽出してくれるようになったということですね。
BDAを使ってみる
次のファイルタイプを試してみます。
  • ドキュメント
  • イメージ
  • ビデオ
  • オーディオ
コンソールからAmazon Bedrockページにアクセスします。
リージョンを「オレゴン」に変更します。※現在オレゴンリージョンのみでのプレビュー
リージョンを変更するとサイドバーに「データオートメーション(プレビュー)」が増えました。
サイドバーのデモを押下すると「今すぐ始める」セクションに様々なサンプルを用意してくれています。
次のセクションからタイプ別に試してみます。
 

ドキュメントタイプ

  • 「サンプルデモを使う」
  • アセットのファイルタイプを選択「ドキュメント」
  • 「免許証」
  • 「結果を生成」を押下
「バケット作成の確認」画面が表示されました。
このバケットは、ユーザーのアセットを保存するために使用されるとのこと。
「確認」を押下します。
 
5秒ほどで結果が表示されました。
抽出結果がマークダウンで表示されています。


「Element level」を押下すると要素単位での情報も確認できます。
 

イメージタイプ

  • 「サンプルデモを使う」
  • アセットのファイルタイプを選択「イメージ」
  • 「AWS」
  • 「結果を生成」を押下

こちらは2~3秒で結果が表示されました。

翻訳すると

この画像は、都市の街路に設置された大型デジタル広告ディスプレイを示しています。ディスプレイには、紫から青へのグラデーション背景が描かれ、「Welcome to the infinite toolbox(無限のツールボックスへようこそ)」という白い文字が目立つように表示されています。ディスプレイの右下にはAWSのロゴが見られ、Amazon Web Servicesの広告であることを示しています。 背景の街並みには、装飾的な建築が特徴的な複数階建ての建物が並んでおり、この場所が歴史的なエリアであることをうかがわせます。歩道には歩行者の姿があり、画面左側には「Boulevard SÉBASTOR」と書かれた街路標識が見えます。 全体的に、この画像は活気ある国際都市の雰囲気を伝えており、デジタル広告ディスプレイが焦点となって「infinite toolbox(無限のツールボックス)」というメッセージに注目を集めています。これは、AWSのクラウドコンピューティングサービスやその他の技術関連製品を宣伝している可能性があります。

とても詳細に説明してくれてますね。
標準出力での設定値は、以下が用意されています。
  • Extractive(抽出情報)
    • 画像内に含まれるテキストを検知
    • 不適切または有害なコンテンツを検知
  • Generative(生成)
    • 画像の要約
    • IAB(Interactive Advertising Bureau)が定めた広告のカテゴリ分類を検知

ビデオタイプ

  • 「サンプルデモを使う」
  • アセットのファイルタイプを選択「ビデオ」
  • 「re:Invent Keynote」
  • 「結果を生成」を押下

こちらは7分ちょっとの動画に対して5秒ほどで結果が出力されました。 

 標準出力での設定値が反映されていて全体の要約とシーンごとの要約が出力されています。

すごい。※長いので翻訳は割愛

標準出力での設定値は、以下が用意されています。

  • Extractive(抽出情報)
    • 音声の全内容の書き起こし
    • 動画内で検出されたテキストを検知
    • 不適切または有害なコンテンツを検知
  • Generative(生成)
    • 動画全体の要約
    • 動画シーンごとの要約
    • IAB(Interactive Advertising Bureau)が定めた広告のカテゴリ分類を検知

オーディオタイプ

  • 「サンプルデモを使う」
  • アセットのファイルタイプを選択「オーディオ」
  • 「カスタマーサポートコール」
  • 「結果を生成」を押下

ボタン押下から結果の出力まで1分ほどよそ見してました。。。そのころには結果は出力されてました。

標準出力での設定値は、以下が用意されています。

  • Extractive(抽出情報)
    • 音声全体の文字起こし
    • 不適切または有害なコンテンツを検知
  • Generative(生成)
    • 音声全体の要約
    • 章ごとの要約

終わりに