すべて
タグ
Visual Bank、日本語2話者対話音声のAI学習用データセットを提供開始
リリース
AI関連

Visual Bank、日本語2話者対話音声のAI学習用データセットを提供開始

公開日:

Visual Bank株式会社は、傘下のアマナイメージズを通じて、日本語2話者の対話音声データセット「日本語2話者LR分離済みプライベート対話音声・トランスクリプト」の提供を開始しました。87組・約500時間の自然な会話を収録し、話者の音声が左右チャンネルに分離された状態で提供されます。トランスクリプトも付属しており、音声認識や話者分離などのAIモデル開発にすぐに活用できます。商用利用も可能で、研究から製品開発まで幅広く対応します。

この記事をシェア

ポイント

  • 1
    87組・約500時間の日本語2話者対話をLR分離・トランスクリプト付きで提供
  • 2
    話者ダイアライゼーションやASR、音声基盤モデルの学習に直接活用可能
  • 3
    商用利用・研究利用・生成AI学習利用がすべて許可された権利クリアなデータセット

本データセットは、性別や年齢の多様性を確保した87組の日本人話者によるWEB会議形式の対話を収録しています。趣味や特技、価値観といった日常的な話題を中心に、スクリプトのない自然な発話が特徴です。音声はステレオLR分離形式で提供され、各話者の音声を左右チャンネルから個別に取り出せます。データ形式はMP3、サンプリングレートは48kHz、ビットレートは192kbpsです。

主なユースケース

このデータセットは、話者ダイアライゼーションモデルの学習や評価に適しています。LR分離済みの音声は正解データとして機能し、pyannote.audioやNeMoなどのモデルの性能検証に利用できます。また、対話ドメインの自動音声認識(ASR)のファインチューニングにも有効です。言い淀みや言い直しといった自発話特有の現象を含むため、WhisperやESPnetの対話適応に役立ちます。さらに、音声分離モデルのベンチマークや、音声基盤モデルの事前学習、コンタクトセンター向けのカスタム音声認識エンジン開発にも応用できます。

Qlean Datasetについて

Qlean Datasetは、Visual Bank傘下のアマナイメージズが提供するAI学習用データソリューションです。音声、画像、動画、3D、テキストなど多様な形式のデータを商用利用可能な形で提供しており、法的リスクを気にせずAI開発に集中できます。国内外のデータホルダーやメディアとの協業により、業界特化型のデータラインナップを拡充しており、既存データは最短2営業日で納品されます。

Q&A

Q. Visual Bankとは何ですか?

A. アマナイメージズを通じてAI学習用データセットを提供する企業です。音声や画像など多様な形式のデータを商用利用可能な形で提供しています。

Q. このデータセットは既存の音声データと何が違いますか?

A. 87組・約500時間の自然な日本語対話を収録し、話者の音声が左右チャンネルに分離された状態で提供される点が特徴です。

Q. このデータセットは誰向けですか?

A. 話者ダイアライゼーションや音声認識(ASR)モデルを開発するAI研究者や、コンタクトセンター向け音声エンジンを開発する企業向けです。

関連リンク

O!Productニュース編集部

O!Productニュース編集部からのコメント

87組・500時間の日本語対話がLR分離済みで手に入るのはかなり貴重ですね。音声AI開発チームが話者分離の正解データに困らなくなりそうです。

引用元:PR TIMES

この記事をシェア

この記事の著者

O!Productニュース編集部

O!Productニュース編集部は、IT・SaaS・AI業界のニュースをリアルタイムに解析・発信するメディアチームです。ビジネス向けのプロダクトに関する最新情報をなるべく分かりやすく簡潔にまとめてニュースを提供します。
「日本のすべての企業に、AIトランスフォーメーションを。」をミッションに掲げているGigantic Technologies株式会社によって運営されています。
AIに精通し、2017年設立時から企業のDX支援に取り込んでおり、十分な実績とノウハウを元に情報を発信しています。
公式SNSは以下からフォローできます。
X
Facebook
LinkedIn
note