すべて
タグ
音声AI開発を加速、Qlean Datasetが自然な「一人語り」音声データセットを提供
リリース
AI関連

音声AI開発を加速、Qlean Datasetが自然な「一人語り」音声データセットを提供

公開日:

Visual Bank株式会社は、同社傘下の株式会社アマナイメージズが展開するAI学習用データソリューション「Qlean Dataset」において、「日本語・1話者・レジャーテーマトーク音声コーパスとトランスクリプト」の提供を開始したと発表しました。音声認識や自然言語処理AIの研究開発を支援する新しいデータセットとなります。

この記事をシェア

ポイント

  • 1
    趣味や娯楽をテーマにした、台本なしの自然な「一人語り」音声データを収録
  • 2
    約600時間分の日本語音声と、その内容を書き起こしたテキストで構成
  • 3
    研究用途から音声入力アプリなどの商用開発まで、幅広く活用可能

リアルなユーザー発話に近い音声データを提供

今回提供が開始されたデータセットは、趣味や娯楽をテーマに、話者が一人で語る日本語音声とその書き起こしテキストで構成されています。収録されている音声は、話者自身の体験談や作品レビュー、考察などが中心で、台本に依存しない自然な発話であることが大きな特徴です。

データセットには、20代から50代の男女による合計約600時間分の音声が収録されています。一人語りならではの連続した話題展開や、評価・感想といった表現が豊富に含まれており、実際のユーザーが話す内容に近い言語データとして扱うことができます。

長文音声認識や文脈理解モデルの開発に最適

こうした特性から、このデータセットは長文の音声を扱う音声認識モデルや、前後の文脈理解を必要とする言語モデルの学習・検証に適しています。例えば、長時間の発話における音声認識の精度評価や、誤認識の傾向分析などに活用できます。

産業用途としては、音声検索や音声メモ、レビュー入力機能を持つアプリケーションの開発が想定されています。また、発話内容の要点抽出や話題ごとの分類を行う自然言語処理モデルの学習データとしても利用でき、研究から商用AI開発まで幅広いフェーズでの活用が見込まれます。

権利クリアで安全なAI開発を支援

「Qlean Dataset」は、商用利用が可能なAI学習用データソリューションです。画像や音声、テキストなど多様なデータ形式に対応し、すべてのデータで権利処理が済んでいるため、開発者は法的リスクを気にすることなく安全に利用できます。同社は今後も、様々な業界に特化したデータラインナップを拡充し、AI開発現場のデータ収集・整備の負荷軽減を支援していく方針です。

引用元:PR TIMES

O!Productニュース編集部

O!Productニュース編集部からのコメント

生成AIの性能はデータの質と量で決まります。特に台本のない自然な長文音声は貴重なデータです。レビューや議事録の自動要約など、より実用的なAIサービスの開発が加速しそうですね。

この記事をシェア

AI事例マッチ度診断背景

AI事例マッチ度診断

あなたにビッタリのサービスを診断できます!
個人情報・会員登録は一切不要。完全無料で診断いただけます。

AI事例マッチ度診断
AI事例マッチ度診断

関連ニュース

AI導入支援・コンサルのサービス

この記事を読んだ人はこんなタグにも興味があります

この記事をシェア