
Qlean Dataset、AI開発を加速する「テクノロジー対話」の日本語音声データを提供開始
公開日:
AI開発の現場で高品質な日本語データの需要が高まる中、Visual Bank株式会社は、AI学習用データソリューション「Qlean Dataset」の新ラインナップとして、テクノロジーをテーマにした対話形式の音声・テキストデータセットの提供を開始しました。音声認識や対話AIモデルの研究・開発を支援する狙いです。
ポイント
- 1生成AIなど技術テーマを扱う、台本なしの自然な2者間対話
- 2音声認識や対話AIなど、音声とテキストを扱うモデル開発に活用
- 3商用利用可能で権利クリア、企業が安心して導入できるデータセット
Visual Bank株式会社が、同社傘下のアマナイメージズを通じて展開するAI学習用データソリューション「Qlean Dataset」において、「日本語・2話者・テクノロジーテーマトーク音声トランスクリプト」の提供を開始したと発表しました。このデータセットは、テクノロジーやIT分野をテーマにした、日本語話者2名による対話音声とその書き起こしテキストで構成されています。
データセットには、生成AIを含む最新技術や関連ニュース、日常での活用事例といった複数の文脈を含む話題が収録されています。台本に依存しない自然な会話形式で、質問や説明、意見交換などが実際の技術議論に近い流れで行われているのが特徴です。収録時間は合計で約200時間に及び、AI開発の現場で求められる大規模なデータ需要に応えます。
このデータセットは、音声認識(ASR)や自然言語処理(NLP)、音声対話AIをはじめ、音声とテキストを横断的に扱うAIモデルの研究・開発用途での活用が想定されています。具体的には、技術領域に特化した音声対話AIの学習データや、技術系ポッドキャストなどを想定した自動文字起こし・要約モデルの開発、社内ナレッジ共有システムの検証データとしての利用が見込まれます。
「Qlean Dataset」は、商用利用が可能で、すべてのデータで被写体からの同意を取得しており、企業が法的リスクを懸念することなく安全に利用できる点を強みとしています。同社は、権利クリアなAI開発環境の構築を支援することで、データ収集・整備にかかる現場の負荷を軽減したい考えです。
引用元:PR TIMES

O!Productニュース編集部からのコメント
生成AI開発が過熱する一方、日本語の高品質な学習データは依然として貴重です。特に専門分野の自然な会話データは、より高度なAIモデル開発の鍵となります。こうしたデータセットの充実は、国内のAI技術の底上げに繋がりそうですね。
この記事の著者
O!Productニュース編集部
「日本のすべての企業に、AIトランスフォーメーションを。」をミッションに掲げているGigantic Technologies株式会社によって運営されています。
AIに精通し、2017年設立時から企業のDX支援に取り込んでおり、十分な実績とノウハウを元に情報を発信しています。
公式SNSは以下からフォローできます。
・X:https://x.com/o_product
・Facebook:https://www.facebook.com/oproduct.jp
・LinkedIn:https://www.linkedin.com/company/oproduct/



関連ニュース

パナソニック、リコール探索活動のリアルタイム共有に「ArmBox」を導入

Idea Craft、小規模企業向け「ちょうどいいDXサービス」を提供開始

OpenHeart、写真や動画から3D空間を生成・共有できる「TAVIO」をリリース

要件定義からわずか1週間でリリース、「7 Days MVP」がサービス開始

シスメット、AIで現場の気象リスクを一元管理する「ZEROSAI X-AI」を提供開始

キューアンドエー、AIシステム「UZ」で応対評価工数を80%削減

LILY BROWN、越境ECサービス「WorldShopping BIZ」を導入し世界228地域へ販路拡大

MetaとNVIDIAがAIインフラ構築で長期パートナーシップを締結

打ち合わせ不要、5万円からのWeb制作サービス「VOLT」が提供開始



