すべて
タグ
ベリサーブ、AIエージェントの振る舞いも評価する品質サービス開始
リリース
AI関連

ベリサーブ、AIエージェントの振る舞いも評価する品質サービス開始

公開日:

株式会社ベリサーブが、AIエージェントの品質を評価する新サービス「QA4AIエージェント」の提供を2026年6月18日に開始しました。AIエージェントの活用が広がる一方で、出力結果だけでなく判断過程やツール利用といった振る舞いの評価が難しいという課題が顕在化しています。本サービスは、ベリサーブが第三者として評価設計から実行までを担い、企業が安心してAIエージェントを導入・運用できるよう支援します。

この記事をシェア

ポイント

  • 1
    AIエージェントの出力結果だけでなく判断過程やツール利用まで評価対象に
  • 2
    評価観点を体系化し、モデル変更時も一貫した基準で品質を継続比較可能
  • 3
    第三者視点でリスクを可視化し、開発企業・導入企業の双方を支援

背景と課題

生成AIの活用は、チャットでの出力から業務を自律的に実行するAIエージェントへと広がっています。しかし、AIエージェントは複数のタスクを分解・実行し、途中結果に応じて次のアクションを選択するため、最終的な出力だけでは品質を十分に担保できません。企業からは「どのように評価すればよいか分からない」「変更による影響を把握できない」といった声が上がっていました。

サービス概要

QA4AIエージェント」は、AIエージェントを開発する企業や導入予定の企業を対象に、導入前や本番利用前、モデルや設定の変更時に品質を継続評価するサービスです。ベリサーブが第三者として、現状分析や評価観点の整理、評価指標の設計、データセット設計、評価スクリプトの実装から結果報告までを一貫して提供します。

特長

本サービスの特長は三点あります。第一に、出力結果の正しさだけでなく、タスクが適切に完了しているか、ツール利用が適切か、権限外の情報にアクセスしていないか、想定外の入力にも安定して対応できるか、安全性やコンプライアンス上の問題がないかといった振る舞い全体を評価します。第二に、AIエージェント特有の評価観点を体系化し、評価ツールを整備することで、異なる出力でも同じ基準で品質を評価し続けられます。第三に、ソフトウェア品質向上の知見を持つベリサーブが第三者の立場で評価することで、開発者自身では見落としがちなリスクの検出を支援します。

ユースケース

開発企業は、本番利用前に想定外の入力や複雑なシナリオでの振る舞いを検証し、モデル変更やプロンプト変更、ツール追加時の品質影響を評価できます。導入企業は、業務シナリオに基づいた実運用に近い形で検証し、誤回答や不適切な振る舞いの洗い出し、自社の業務要件への適合性評価、導入可否の判断材料を得られます。

Q&A

Q. QA4AIエージェントとは何ですか?

A. AIエージェントの品質を、出力結果だけでなく判断過程やツール利用まで含めて第三者が評価するサービスです。

Q. どのような企業が利用できますか?

A. AIエージェントを開発している企業と、導入を検討している企業の両方が対象です。

Q. 従来のAI評価と何が違いますか?

A. 出力の正しさに加え、タスクの完了度やツール利用の適切さ、安全性など振る舞い全体を評価する点が異なります。

関連リンク

O!Productニュース編集部

O!Productニュース編集部からのコメント

出力結果だけでなく判断過程まで評価してくれるのは安心ですね。AIエージェント導入のハードルが下がりそうです。

引用元:PR TIMES

この記事をシェア

この記事の著者

O!Productニュース編集部

O!Productニュース編集部は、IT・SaaS・AI業界のニュースをリアルタイムに解析・発信するメディアチームです。ビジネス向けのプロダクトに関する最新情報をなるべく分かりやすく簡潔にまとめてニュースを提供します。
「日本のすべての企業に、AIトランスフォーメーションを。」をミッションに掲げているGigantic Technologies株式会社によって運営されています。
AIに精通し、2017年設立時から企業のDX支援に取り込んでおり、十分な実績とノウハウを元に情報を発信しています。
公式SNSは以下からフォローできます。
X
Facebook
LinkedIn
note