// 用語集

$ 用語集

AI 予測ベンチマークで使う専門用語の完全解説

このページの要点

  • Shinden で使う AI 予測ベンチマーク用語の完全解説です。
  • 確信度・横ばい判定・過信ペナルティ・説明品質クロス採点など全14語を収録。
  • 各用語は ID 付きで、他ページからアンカーリンク可能です。

確信度 (Confidence)

AI が自身の予測にどれだけ自信があるかを 0〜100% で自己申告した値。

AI モデルがプロンプト出力時に「私の予測は X% の自信がある」と自己申告した数値です。Shinden では 0–100 の整数で出力させます。

確信度が高ければ高いほど AI 自身は予測の正しさを確信していますが、それが実際の的中率と一致するとは限りません。むしろ「自信過剰だが当たらない」AI は、過信ペナルティが課されます。

理想的な AI は確信度と的中率が一致(キャリブレーションが良好)している状態です。Shinden ではこのキャリブレーション分析を将来の機能として検討しています。

横ばい判定 (Sideways Threshold)

実際の騰落率がこの幅以内なら「横ばい」、超えたら「上昇 / 下落」と機械判定する閾値。

市場がほとんど動かなかった場合、便宜上「横ばい」として判定するための閾値です。市場ごとに以下の値を採用しています:

・USDJPY (ドル円): ±0.20%

・N225 (日経平均): ±0.40%

・SPX (S&P 500): ±0.40%

為替は株価指数より一般にボラティリティが低いため、ドル円の閾値はやや狭く設定しています。

閾値を超えて動いた場合は「上昇」または「下落」と判定し、超えない場合は「横ばい」と判定。AI が「横ばい」を予測してこの判定に該当した場合は +0.8、超えた場合は外しとして -1.0 となります。

過信ペナルティ (Overconfidence Penalty)

確信度80以上で予測が外れた場合、追加で課される -1.0 のペナルティ。

AI が「確信度80以上」の高確信度で方向を予測したにも関わらず、実際の方向が外れた場合に課されるペナルティです。

通常の方向外しペナルティ -1.0 に加えて追加で -1.0 となるため、合計 -2.0 のスコアになります。

この設計により、「とりあえず高確信で言い切る AI」と「不確実な時は慎重になる AI」の差が総合スコアに現れるようにしています。慎重派が報われやすい採点設計です。

なお、AI が「予測不能 (uncertain)」を選んだ場合は確信度に関わらず過信ペナルティの対象外となります。

説明品質スコア (Explanation Score)

AI 予測の説明文を別 AI が0〜10点でクロス採点した値。

予測した AI とは別の AI モデルが、その予測の説明文(主要根拠・リスク要因・不確実性コメント)を5項目 × 0–2 点で評価し、合計 0–10 点を付与します。

評価項目:

1. specificity — 根拠の具体性

2. consistency — 入力データとの整合性

3. newsHandling — ニュース要因の扱いの妥当性

4. riskMention — リスク要因の言及

5. uncertaintyMention — 不確実性の明示

予測 AI と採点 AI を別にすることで利益相反を排除しています。さらに 2 モデルで採点して平均を最終スコアとして採用します。

総合スコアには (説明品質 - 5) × 0.1 として組み入れられ、中央値5を基準に最大 ±0.5 の範囲で寄与します。

総合スコア (Total Score)

方向スコア + 過信ペナルティ + 説明品質補正 を合算した値。

1つの予測における総合的な評価スコア。計算式:

totalScore = directionScore + overconfidencePenalty + (explanationScore - 5) × 0.1

理想ケース: 方向的中 (+1.0) かつ説明品質10点 → +1.5

最悪ケース: 過信して外す (-1.0 - 1.0) かつ説明品質0点 → -2.5

ランキングはこの値の平均値で順位付けしています。

ホライズン / 予測期間 (Horizon)

AI が予測する将来時点。短期(翌営業日)と中期(1週間)の2種類。

・next_day (翌営業日): 翌営業日のクローズ時点での騰落方向

・one_week (1週間 / 5営業日後): 5営業日後のクローズ時点での騰落方向

1日ごとに2つのホライズンで予測を実行するため、毎日 3市場 × 3モデル × 2期間 = 18件の予測が生成されます。

短期予測は値動きのモメンタム判断、中期予測はトレンド判断の能力を測る目安になります。

予測方向 (Direction)

AI が選択する4つの方向ラベル: 上昇 / 下落 / 横ばい / 予測不能。

・上昇 (up): 翌営業日に上昇すると予測

・下落 (down): 翌営業日に下落すると予測

・横ばい (sideways): 横ばい判定閾値以内に収まると予測

・予測不能 (uncertain): 不確実性が高すぎて方向を断定できない

「予測不能」を選ぶと、実際に大きく動いた場合(±2σ超)は +0.5 の評価、普通の動きだった場合は -0.2 の軽微なペナルティとなります。「とりあえず予測不能」を連発する AI には軽くマイナスが付く設計です。

全員一致 / 意見分裂 (Consensus / Divergence)

3 AI モデルの予測方向が一致しているか分かれているか。

全員一致 (Consensus): 3 AI が同じ方向を予測した状態。AIたちが揃って強気/弱気/中立になる場面は注目に値します。

意見分裂 (Divergence): 3 AI で予測方向が分かれた状態。AI ごとの判断軸の違いが浮き彫りになる場面で、Arena としても見どころが多くなります。

全員一致が必ずしも当たるわけではない、また意見分裂時にどの AI が当たったかを後で振り返れる設計です。

確率分布 (Probability Distribution)

上昇 / 横ばい / 下落 それぞれの起こりやすさを%で表現した値(合計100)。

AI が予測の確率分布を ↑ / → / ↓ それぞれに 0–100% の整数で割り当てた値です。合計はおおむね 100% になります。

例: ↑75% / →20% / ↓5% → 確信度高めの上昇予測

例: ↑40% / →30% / ↓30% → やや上昇寄りだが分散している予測

確信度(0–100%)は「どの方向と決めたか」とは別に「どれだけ自信があるか」を表すため、確率分布と確信度の組み合わせで AI の判断スタイルが見えてきます。

中間ティア (Mid Tier Model)

各 AI 社のフラグシップ未満・最小モデル超のコスト・性能バランス型モデル。

各社の AI モデルラインナップで、最高性能のフラグシップ(Claude Opus / GPT Pro / Gemini Pro)と最小モデル(Haiku / mini / nano / Flash-Lite)の中間に位置する標準モデルです。

Shinden では:

・Anthropic: Claude Sonnet 系

・OpenAI: GPT 標準モデル(`gpt-5.4` 系)

・Google: Gemini Flash 系(`gemini-2.5-flash`)

コストと性能のバランスが取れた、一般ユーザーが日常的に使う価格帯のモデルを採用することで、現実的なユースケースでの予測能力を検証しています。

クロス採点 (Cross AI Judging)

予測 AI とは別の AI が説明品質を採点する仕組み。利益相反排除。

AI が自分の予測を自分で評価すると都合の良い採点になりがちなため、Shinden では予測した AI 以外の AI に説明品質の採点を依頼します。

例: Claude の予測 → Gemini と GPT が採点して平均

GPT の予測 → Claude と Gemini が採点して平均

Gemini の予測 → Claude と GPT が採点して平均

2モデルで採点することで採点者バイアスを薄め、平均値を最終 explanationScore として採用します。

プロンプトバージョン (Prompt Version)

予測時に使われたプロンプトテンプレートのバージョン識別子。

Shinden は採点ルールやプロンプト文言が変わると過去予測との比較ができなくなるため、Prediction.promptVersion にバージョンを刻印しています(現在 v1.0)。

プロンプトを改訂する場合はバージョンをインクリメントし、過去予測は元のバージョンで保持します。集計時にバージョン別フィルタを推奨します。

採点ルールバージョン (Scoring Rule Version)

採点に使われた採点ロジックのバージョン識別子。

採点ルールが変わると同じ予測でもスコアが変わるため、Result.scoringRuleVersion にバージョンを記録しています(現在 v1.0)。

ルール変更時は過去 Result を再採点せず、新ルールはデプロイ以降の採点に適用されます。

ベンチマーク / Arena

Shinden 自体の性質: 公開検証ベンチマーク兼 AI 闘技場。

ベンチマーク: 複数 AI モデルを同一基準で測定する検証フレームワーク。

Arena: AI モデルが「対戦」する闘技場という競技的メタファー。Shinden は両側面を持ち、客観的な数値検証(ベンチマーク)とエンターテインメント性のある対戦カード形式(Arena)を両立しています。

投資助言ではなくスポーツ実況的・eスポーツリーグ的な視点で AI モデルを観察するサイトです。

本サイトは投資助言、売買推奨、金融商品の勧誘を目的としたものではありません。 詳細な検証方法は 検証方法 / 採点ルールの完全仕様は 検証方法 をご覧ください。