再接続中

[市場データ同期中...]

SHINDENv0.1.0 · ビルド 20260613

東京時間 2026/06/13 22:39:53

// AI 市場予測公開ベンチマーク

SHINDEN_Claude・GPT・Gemini の市場予測精度を毎日検証する公開ベンチマーク

$ 主要 AI モデルに完全同一プロンプト・同一市場データ・同一時刻で為替(ドル円)と株価指数(日経平均・S&P500)の方向予測を実行させ、結果を機械採点する公開Arena。
# 投資助言ではありません。AI の予測精度を検証する目的のベンチマークです。

対象 3 市場 · モデル 3 機

ANTHROPIC · OPENAI · GOOGLE

ヤフーファイナンス · RSS 5 ソース

// 本日のAI予測一覧

$ 今日の対戦カード

翌営業日方向 · Claude / GPT / Gemini · 同一プロンプト

▲ ▼ ■ ◇ 予測方向

▲上昇 ▼下落 ■横ばい ◇予測不能。各AIが翌営業日のクローズ時点の方向を選択。

% 確信度

AIが自身の予測にどれだけ自信があるかを 0–100% で自己申告。80以上で外すと過信ペナルティ。

↑ → ↓ 確率分布

上昇/横ばい/下落それぞれの起こりやすさを%で表現(合計100)。

±X% 横ばい判定

実際の騰落率がこの幅以内なら「横ばい」、超えれば「上昇/下落」と機械判定する閾値。

[N225]日経平均Nikkei 225

62833.84

+3320.72(+5.58%)

// 過去30営業日終値推移30本

翌営業日予測 · 2026-06-12◆ 分裂

Claude Sonnet

■ 横ばい

確信度 35%

↑38/→30/↓32

根拠を読む →

Gemini Flash

▲ 上昇

確信度 75%

↑75/→15/↓10

根拠を読む →

Gemini Flash

▲ 上昇

確信度 70%

↑60/→25/↓15

根拠を読む →

横ばい判定 ±0.40% · ホライズン翌営業日 + 1週間

▶ AI予測の根拠を読む

主要根拠・リスク要因・確率分布 (短期 + 中期計6予測)

[SPX]S&P500S&P 500

7209.01

+73.06(+1.02%)

// 過去30営業日終値推移30本

翌営業日予測 · 2026-06-12● 一致

Claude Sonnet

▲ 上昇

確信度 62%

↑65/→15/↓20

根拠を読む →

Gemini Flash

▲ 上昇

確信度 65%

↑65/→20/↓15

根拠を読む →

横ばい判定 ±0.40% · ホライズン翌営業日 + 1週間

▶ AI予測の根拠を読む

主要根拠・リスク要因・確率分布 (短期 + 中期計6予測)

[USDJPY]ドル円USD/JPY

159.623

+0.266(+0.17%)

// 過去30営業日終値推移30本

翌営業日予測 · 2026-06-12◆ 分裂

Claude Sonnet

▲ 上昇

確信度 62%

↑65/→15/↓20

根拠を読む →

Gemini Flash

▲ 上昇

確信度 75%

↑75/→20/↓5

根拠を読む →

GPT (Mid Tier)

■ 横ばい

確信度 44%

↑34/→40/↓26

根拠を読む →

横ばい判定 ±0.20% · ホライズン翌営業日 + 1週間

▶ AI予測の根拠を読む

主要根拠・リスク要因・確率分布 (短期 + 中期計6予測)

システム状況

データ受信 OK · 配信 OK · 自動採点 ON

稼働状態

オンライン

シーズン

2026-04

AIモデル

3 機

対象市場

3 市場

累計予測

566

なぜ AI モデルの予測精度を客観的に検証する必要があるのか

ChatGPT や Claude、Gemini といった生成 AI に「ドル円は明日上がりますか?」と聞けば、それぞれが流暢に回答を返します。しかし、その予測が実際にどれだけ当たるのか、誰も客観的に測っていません。各社のマーケティング資料や個人の体感ベースの感想は溢れているものの、完全同一の条件で並べた公開ベンチマークはほぼ存在しないのが現状です。

Shinden は、この空白を埋めるために設計された公開検証 Arena です。毎日 7:00 JST、Anthropic Claude・OpenAI GPT・Google Gemini の3社に完全同一プロンプト・同一市場データ・同一時刻で為替と株価指数の方向予測を行わせ、結果を機械採点して蓄積します。すべてのプロンプト・採点ルール・生 AI 出力は公開されており、第三者が検証可能です。

予測の精度を方向の的中率だけでなく、確信度・過信率・説明品質(別 AI によるクロス採点)の3軸で測定することで、「自信過剰なのに当たらない AI」「謙虚で当たる AI」「説明が雑だが結果は出る AI」のような人間味のある比較が可能になります。

// 本サイトでわかること

Shinden で何がわかるか

AI モデル予測精度ランキング

3 社の方向予測的中率・平均総合スコア・過信率を通算で比較。今、どの AI が一番市場予測に強いのか。

詳しく見る →

市場別の得意・不得意

ドル円・日経平均・S&P500 でそれぞれの AI がどれだけ当てているかを履歴付きで可視化。

詳しく見る →

モデル別の予測キャラ付け

慎重派(全部「横ばい」)/積極派(高確信度で断定)/堅実派等、AI ごとの予測スタイルが見えてくる。

詳しく見る →

完全公開された採点プロトコル

使用プロンプト全文・採点ルール・公平性プロトコルすべて公開。再現性ある検証を担保。

詳しく見る →

// 採用 AI モデル(中間ティア)

検証している3つの AI モデル

各社のフラグシップではなく、コスト・性能のバランスが取れた中間ティア(標準モデル)を採用。一般ユーザーが日常的に使う価格帯のモデルが、現実の市場でどれだけ通用するかを検証します。

Claude Sonnet

anthropic · claude-sonnet-4-6

Anthropic 中間ティア — Sonnet 4.6 系

通算成績を見る →

Gemini Flash

google · gemini-2.5-flash

Google 中間ティア — Gemini 2.5 Flash

通算成績を見る →

GPT (Mid Tier)

openai · gpt-5.4

OpenAI 中間ティア — GPT-5.4 標準モデル

通算成績を見る →

// 対象市場

検証している3つの市場

日本のトレーダーに馴染みの深い3市場を選定。為替(FX)・国内株価指数・米国株価指数の代表をそれぞれ1つずつ。市場ごとに「横ばい判定」の閾値が異なり、ボラティリティに応じた公正な比較を実現しています。

[USDJPY] ドル円 USD/JPY

代表的な為替ペア。FRB・日銀の金融政策、米雇用統計、CPI 等のマクロイベントに敏感。横ばい判定 ±0.20%。

予測履歴を見る →

[N225] 日経平均 Nikkei 225

日本を代表する株価指数。為替(ドル円)と米株の影響を強く受け、テクニカル要因も効きやすい。横ばい判定 ±0.40%。

予測履歴を見る →

[SPX] S&P 500 S&P 500

米国株式市場の中核指数。FRB 政策、米経済指標、ハイテク企業決算がドライバー。横ばい判定 ±0.40%。

予測履歴を見る →

累計予測

566件

採点済

518件

ランキングを見る →

// よくある質問

FAQ

Q.Shinden は何のサイトですか?

A.Claude・GPT・Gemini の主要 AI 3社に毎日同条件で為替(ドル円)と株価指数(日経平均・S&P500)の方向予測を行わせ、後日結果を機械採点する公開ベンチマークです。投資助言ではなく、AI モデルの予測精度を検証する目的の公開 Arena です。

Q.AI に市場予測させる意味はあるんですか?

A.意味があるかどうかを検証するためのサイトです。各社が「○○できる」とアピールする中、同条件で並べた客観データはほぼ存在しません。Shinden は同一プロンプト・同一データで毎日測定し続けることで、AI モデルの市場予測能力に対する客観的な根拠を蓄積します。

Q.予測を見て投資判断しても良いですか?

A.本サイトは投資助言・売買推奨を目的としていません。掲載される予測は AI モデルの予測能力を検証するためのログであり、投資判断は利用者ご自身の責任で行ってください。

Q.予測は毎日いつ更新されますか?

A.平日朝7:00 JST に予測を実行、翌営業日朝7:30 JST に前日予測を採点します。当日の予測はトップページ「今日の対戦カード」で、過去の予測履歴と採点結果は市場別・モデル別ページで確認できます。

Q.どの AI モデルが一番精度が高いですか?

A.AIモデル予測精度ランキングで通算成績を公開しています。サンプル数 N≥30 で統計的に意味のある比較になります。それまでは目安としてご覧ください。

Q.確信度ってなんですか?

A.AI が自身の予測にどれだけ自信があるかを 0–100% で自己申告した値です。確信度80以上で予測が外れた場合、追加で「過信ペナルティ -1.0」が課されます。詳細は用語集をご覧ください。

Q.採点はどのように行われますか?

A.方向の的中(+1.0)・横ばい的中(+0.8)・方向外し(-1.0)・過信ペナルティ(-1.0)・説明品質(別 AI によるクロス採点 0-10)の3軸で総合スコアを計算します。説明品質採点は予測した AI とは別の AI が行い、利益相反を排除しています。

このページの要点

$ 今日の対戦カード

なぜ AI モデルの予測精度を客観的に検証する必要があるのか

Shinden で何がわかるか

検証している3つの AI モデル

検証している3つの市場

FAQ