
ベリサーブ、AIエージェントの振る舞いも評価する品質サービス開始
公開日:
株式会社ベリサーブが、AIエージェントの品質を評価する新サービス「QA4AIエージェント」の提供を2026年6月18日に開始しました。AIエージェントの活用が広がる一方で、出力結果だけでなく判断過程やツール利用といった振る舞いの評価が難しいという課題が顕在化しています。本サービスは、ベリサーブが第三者として評価設計から実行までを担い、企業が安心してAIエージェントを導入・運用できるよう支援します。
ポイント
- 1AIエージェントの出力結果だけでなく判断過程やツール利用まで評価対象に
- 2評価観点を体系化し、モデル変更時も一貫した基準で品質を継続比較可能
- 3第三者視点でリスクを可視化し、開発企業・導入企業の双方を支援
背景と課題
生成AIの活用は、チャットでの出力から業務を自律的に実行するAIエージェントへと広がっています。しかし、AIエージェントは複数のタスクを分解・実行し、途中結果に応じて次のアクションを選択するため、最終的な出力だけでは品質を十分に担保できません。企業からは「どのように評価すればよいか分からない」「変更による影響を把握できない」といった声が上がっていました。
サービス概要
「QA4AIエージェント」は、AIエージェントを開発する企業や導入予定の企業を対象に、導入前や本番利用前、モデルや設定の変更時に品質を継続評価するサービスです。ベリサーブが第三者として、現状分析や評価観点の整理、評価指標の設計、データセット設計、評価スクリプトの実装から結果報告までを一貫して提供します。
特長
本サービスの特長は三点あります。第一に、出力結果の正しさだけでなく、タスクが適切に完了しているか、ツール利用が適切か、権限外の情報にアクセスしていないか、想定外の入力にも安定して対応できるか、安全性やコンプライアンス上の問題がないかといった振る舞い全体を評価します。第二に、AIエージェント特有の評価観点を体系化し、評価ツールを整備することで、異なる出力でも同じ基準で品質を評価し続けられます。第三に、ソフトウェア品質向上の知見を持つベリサーブが第三者の立場で評価することで、開発者自身では見落としがちなリスクの検出を支援します。
ユースケース
開発企業は、本番利用前に想定外の入力や複雑なシナリオでの振る舞いを検証し、モデル変更やプロンプト変更、ツール追加時の品質影響を評価できます。導入企業は、業務シナリオに基づいた実運用に近い形で検証し、誤回答や不適切な振る舞いの洗い出し、自社の業務要件への適合性評価、導入可否の判断材料を得られます。
Q&A
Q. QA4AIエージェントとは何ですか?
A. AIエージェントの品質を、出力結果だけでなく判断過程やツール利用まで含めて第三者が評価するサービスです。
Q. どのような企業が利用できますか?
A. AIエージェントを開発している企業と、導入を検討している企業の両方が対象です。
Q. 従来のAI評価と何が違いますか?
A. 出力の正しさに加え、タスクの完了度やツール利用の適切さ、安全性など振る舞い全体を評価する点が異なります。
関連リンク

O!Productニュース編集部からのコメント
出力結果だけでなく判断過程まで評価してくれるのは安心ですね。AIエージェント導入のハードルが下がりそうです。
引用元:PR TIMES
この記事の著者
O!Productニュース編集部


関連ニュース

退職者ネットワーク「りぴすけ」で採用コスト削減、野嵩商会の事例を公開

one moveがmewellで「人生とキャリアを両立できる組織づくり」支援を開始

Wealthy Design、生成AIを実務で使える人材を育てる「AIリスキリング研修」を開始

ワンオペ経営向け予約システム「スムース予約」、0円から提供開始

グロスペリティ、米国市場向け海外進出パッケージを本格提供開始

アンティル、広報DX支援「PR-DXコンサルティング」を開始

プレイネクストラボ、LINEとマイナンバーカードで住民通知をデジタル化する自治体向けCRM提供開始

キョウエイアド、OOH媒体の能力を数値化し比較・管理できる新サービスを開始

教育事業に特化したAI「KNOWLEDGE FORCE」提供開始


