AIエージェントのバージョンを効果測定で比較する

最終更新日: 2026年05月19日 09:44

エージェントアナリティクスの効果測定では、エージェントデータの比較を行い、AIエージェントの変更の影響を測定できます。会話の指標を並べて分析することで、さまざまなエージェント構成、モデル、またはツールのパフォーマンスを比較できます。

ユースケース

効果測定を使用して、さまざまなエージェント変更の影響を測定できます。比較できる内容の例は次のとおりです。

異なるAIモデル。
特定のツールまたはサブエージェントの使用。
ファイルがアップロードされている会話と、アップロードされていない会話の比較。
提案されたプロンプトがある会話と、提案されていない会話の比較。
異なるセグメントでのパフォーマンス。

効果測定を作成する

エージェントにアクセスできるユーザーは誰でも効果測定を作成できます。1回の効果測定で最大5つのグループを作成し、各エージェントに対して複数の効果測定を同時に実行できます。

エージェントの［効果測定］タブに移動します。
［+ 効果測定を作成］を選択してください。
［比較対象］に、テスト対象を説明する目標を追加します。「以前のエージェントバージョンと比較して問題発生率を削減する」や「新しいツール構成で肯定的な反応を増やす」など、明確で測定可能な成果目標を設定してください。
対照群を定義してください。比較対象とする基準値（現在のエージェント構成や以前のバージョンのエージェントなど）を使用してください。
グループの下で［+ 条件を追加］を選択すると、ツール、モデル、セグメント、アップロードされたファイルなどの条件を追加してグループ範囲を絞り込むことができます。
同じ手順で1つ以上の効果測定グループを定義し、テストしたい変数のみを変更します（例：新しいモデル、更新されたツール、異なる提案プロンプトなど）。対照群のセグメントと日付範囲を一致させて、同じトラフィックと期間のバージョンを比較できるようにします。
比較対象のバリアントを追加するには、グループの下にある［+ グループを追加］を選択してください。
必要に応じて、［対照群として設定］を選択して、別のグループを対照群として設定できます。
グループ名（例えば、グループAまたはグループB ）を選択して、「モデルA」や「モデルB」など、より分かりやすい名前に変更してください。
［追跡対象］で、各指標と最大5つの追跡済みユースケースや問題を選択して比較できます。
［効果測定を開始］を選択します。これにより、効果測定リストに新しいカードが作成され、そのカードを開いて結果を確認することができます。

効果測定を解釈する

効果測定結果は、対照群と実験群が別々の列に並んだレイアウトで表示されます。各グループには、日付範囲や推奨プロンプトのステータスなどの条件が表示されるため、結果を解釈する前に、比較対象のトラフィックが類似していることを確認できます。

選択した各指標について、各グループの未加工の値とパーセンテージ差を確認できます。対照群にはラベルが付けられており、各比較では、実験群がその基準値と比較して増加したか減少したかが示されています。効果測定に複数の実験群が含まれている場合は、各群が同じ対照群と比較されるため、複数のバリエーションを一度に評価できます。

一般的に、エンゲージメント指標（肯定的な反応など）に関しては値が高いほど良く、問題関連の指標（怒りの反応率やサポートされていないリクエスト率など）に関しては値が低いほど良いとされています。正式な指標の定義と解釈に関するガイダンスについては、「AIエージェントとのインタラクションを分析する」を参照してください。

効果測定を管理する

［効果測定］タブには、保存したすべての効果測定がリストアップされ、各プレビューカードには、ステータス、グループ名、ゴール、グループと条件の数、作成者、作成日がリストアップされます。

このリストから、以下のことができます。

名前で効果測定を検索します。
クリエイターまたはステータスで絞り込みます。
効果測定を選択して結果を表示します。
効果測定にカーソルを合わせ、削除（ゴミ箱）アイコンを選択すると、不要になった効果測定を削除できます。

すべてのグループの終了日が過ぎると、効果測定は自動的に完了します。効果測定の予定終了日より前に、手動で効果測定を完了済みとしてマークすることもできます。効果測定を開き、［進行中］ステータスを選択し、［完了］を選択します。完了すると、AIが生成した効果測定結果の概要が、効果測定の上部にある［効果測定の概要］セクションに表示されます。

ユースケース

効果測定を作成する

効果測定を解釈する

効果測定を管理する

このセクションの記事