過去10年間、人工知能は主に同じリソースを糧に成長してきました:公開ウェブデータです。テキスト、画像、文書、フォーラム、ニュース、ブログ、リポジトリ...モデルが言語と認知能力を構築するために吸収してきた膨大な量の素材です。しかし、この段階は終わりを迎えようとしています。
Messariが引用する予測によると、モデルトレーニングに利用可能な公開テキストの総量—約300兆トークン—は2026年から2032年の間に完全に使い果たされる可能性があります。これは、大規模モデルが「インターネットを食い尽くした」ことを意味し、今や彼らは別のものを必要としています。AIの次のフロンティアはもはやウェブではなく、現実世界になるでしょう。
そしてここでフロンティアデータの概念が登場します。これは将来のモデルの競争力を定義するリソースです。ビデオ、音声、感覚、運動、ロボットデータ、アクションデータ、物理的世界や複雑なデジタルインターフェースとの相互作用から生成されるデータ。単にダウンロードできるデータではなく、収集、調整、検証、そして何よりも、インセンティブを与える必要があるデータです。
このため、ブロックチェーンは単なる詳細や周辺的な追加ではなく、この新しいデータ経済の調整を可能にするインフラストラクチャなのです。
2025年の最先端モデル—言語だけでなく、マルチモーダル、エージェント型、推論指向—は、一般的なテキストデータセットの単なる追加では改善されなくなっています。彼らはより具体的で収集コストの高いものを必要としています:行動、意図、動き、相互作用、操作、コンテキストを反映するデータです。
例えば、コンピュータ使用エージェントの場合がそうです。人間のようにコンピュータと直接対話できるAIです。これらのシステムをトレーニングするには、テキストによる説明だけでは不十分です:「軌跡」が必要であり、これは人々が画面上でタスクを実行する実際の記録です。
レポートで言及されているChakraのようなプロトコルは、ユーザーが日常的なタスクを実行しながら画面を記録できる拡張機能を開発しました:管理システムのナビゲーション、Excelドキュメントの作成、画像編集、専門ソフトウェアの使用など。これらの記録は、GLADOS-1のようなモデルのトレーニングに貴重な素材となります。GLADOS-1は、クラウドソーシングデータをほぼ完全に基にした最初のコンピュータ使用モデルです。
そしてこれがまさに重要な点です:これらのデータは誰かが生成するまで存在しません。そして、それには対価が支払われなければなりません。エネルギーや推論に対価が支払われるのと同じように。
もう一つの印象的な例はゲーム世界から来ています。分散型クラウドゲーミングネットワークとして誕生したShagaのようなプラットフォームは、非常に価値のある副産物を生み出します:いわゆるゲームプレイ-アクションペア(GAP)で、画面上で何が起こっているかとプレイヤーが発行するコマンドの同期ペアです。
これらはYouTubeの動画を見るだけでは取得できないデータです:プレイヤーのデバイス上のソースで捕捉する必要があります。そして、Messariが報告する推定によると、このタイプのデータセットはゲームプレイ1時間あたり50〜100ドルの価値がある可能性があります。
文脈を理解するために:Shagaはすでに259,000時間以上のゲームプレイを蓄積しており、推定価値は2,600万ドル以上です。そして、OpenAIが1年前に、まさにゲームプレイ記録に特化した類似のプラットフォームであるMedalを獲得するために50億ドルを提供したのは偶然ではありません。
これらのデータはワールドモデルのトレーニングに使用されます。これらは単に言語を解釈するだけでなく、物理学、因果関係、エージェントと環境の相互作用をシミュレートするモデルです。これらのモデルにより、より知的なロボット、自律型エージェント、高度な予測システム、そして複雑な環境で「移動」できるAIが可能になります。
そしてここがまさに、フロンティアデータの第二の大きな波に到達する場所です:ロボットデータです。
未来のAIはデータセンターだけに存在するわけではありません。それはロボット、ドローン、自動運転車、分散センサー、スマートホームデバイスに存在するでしょう。各ロボットは動き方、物体の識別、意思決定、環境の操作を学ぶためにデータを必要とします。そしてこのデータ収集は信じられないほど高コストです:物理的なハードウェア、遠隔操作のための人間のオペレーター、継続的なメンテナンス、そして調整が必要です。
PrismaX、BitRobot、GEODNET、NATIXのようなプロジェクトは、Web3の典型的なインセンティブメカニズムを使用して、このコストをグローバルな貢献者ネットワーク全体に分散し始めています。ロボットデータを収集する単一の企業を持つ代わりに、何千ものユーザーが調整された方法でそれを行い、直接的な報酬を受け取ることができます。
これはマイニングと同じ論理です:しかし計算能力の代わりに、ここでの貢献は実データです。
ロボットとAIエージェントが本当に物理的世界と相互作用し始めると、まったく新しいレベルの調整が必要になります。ロボットは以下のことが必要になります:
ここでOpenMindやPeaqのようなイニシアチブが登場し、ロボットの通信とアイデンティティに特化したオンチェーンインフラストラクチャの構築を試みています。DNSに相当するものですが、機械のためのものです。ドローン、自動運転車、ロボットアーム、または産業システムが存在を知らせ、行動を証明し、他のシステムに支払い、サービスを交換できるシステムです。
これは機械経済の始まりであり、分散型ネットワーク上で自律的に相互作用する非人間的なエンティティによって構成される経済です。
レポートはまた、IoTeXに重点を置いています。これは近年、インフラストラクチャを実世界データの収集、認証、調整のための包括的なプラットフォームに変換したプロトコルです。
IoTeXはセンサー、IoTデバイス、ホームシステム、産業機器の接続を可能にし、以下を提供します:
今日、IoTeXは16,000以上のデバイスと数十の垂直プロジェクトを調整し、AIエージェントに実世界からの検証済みデータにアクセスする能力を提供しています。単純なスクレイピングと比較して大きな違いです。
Messariによると、軌道は明確です:データはあらゆる点で金融資産になりつつあります。今日、コンピュート、GPU、コロケーションに投資できるように、将来的には「データストリーム」に投資し、使用権を購入し、フロンティアデータを収集するネットワークをサポートし、その見返りとして経済的リターンを受け取ることが可能になるでしょう。
これはほぼ避けられない進化です:データが希少で、価値があり、生産が困難になると、市場、価格、需要と供給を持つようになります。
ブロックチェーンは、再び、以下のための理想的な層です:
AIはますます大きなモデルを通じてではなく、より豊かなデータを通じて進歩するでしょう。実世界から取得され、貢献者のグローバルネットワークを通じて収集されるデータです。これは次の10年間の最大のゴールドラッシュです:チップのそれではなく、データのそれです。
Web3プロトコルは単なる詳細ではありません:それらはデータを提供する人々を収集、検証、配布、報酬を与えるための自然なプラットフォームです。ウェブが最初のAI波の原材料だったとすれば、実世界は2番目の原材料になるでしょう。
そして今回は、初めて、収集は少数の巨人によって支配されるのではなく、ネットワークによって支配されるでしょう。
オープンで、インセンティブを与えられた、分散型ネットワーク:フロンティアデータの新しいインフラストラクチャです。


