過去2年間で、著作権所有者はAI企業に対して数十件の訴訟を提起し、許可なく自分たちの作品がスクレイピングされモデルに取り込まれたと主張しています。2025年後半の時点で、米国だけでもAI開発者に対して少なくとも63件の著作権訴訟が提起され、海外ではさらに多くの訴訟が起きています。これらの訴訟の一部はテキストに関するものでした。[...] 「AIの新たなボトルネック:ライセンス付き視覚データ」の記事がTechBullionに最初に掲載されました。過去2年間で、著作権所有者はAI企業に対して数十件の訴訟を提起し、許可なく自分たちの作品がスクレイピングされモデルに取り込まれたと主張しています。2025年後半の時点で、米国だけでもAI開発者に対して少なくとも63件の著作権訴訟が提起され、海外ではさらに多くの訴訟が起きています。これらの訴訟の一部はテキストに関するものでした。[...] 「AIの新たなボトルネック:ライセンス付き視覚データ」の記事がTechBullionに最初に掲載されました。

AIの新たなボトルネック:ライセンスされた視覚データ

2025/12/09 22:47
14 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

過去2年間で、著作権所有者たちはAI企業に対して数十件の訴訟を起こし、許可なく自分たちの作品がスクレイピングされモデルに取り込まれたと主張しています。2025年後半の時点で、米国だけでもAI開発者に対して少なくとも63件の著作権訴訟が提起され、海外ではさらに多くの訴訟が起きています。 

これらの訴訟の一部はテキストに関するものでした。しかし、画像や動画に関する訴訟が増加しています。企業にとっての重要な教訓:スクレイピングされた視覚データは、もはや商業製品の安全な基盤ではありません。

ライセンス済み視覚データのボトルネック

高度な視覚モデルには同時に3つの要素が必要です:特定のコンテンツ、多様性、法的明確さです。現在、ほとんどのデータセットはこれらのうち少なくとも1つが欠けています。

スクレイピングされたウェブ画像は幅広いですが、乱雑でリスクがあります。従来のストックアーカイブはクリーンですが、西洋的、商業的、スタジオ設定に偏っていることが多いです。オーダーメイドの撮影は正確ですが、時間がかかり高価です。 

ライセンス契約は現在、多くの注目されるパートナーシップの中心となっています。例えば、Getty ImagesとPerplexityの複数年契約では、スタートアップがGettyのクリエイティブおよび編集ビジュアルにアクセスし、AI検索に使用することができ、帰属と報酬が伴います。

特定コンテンツの不足

開発者は一般的なライフスタイル画像を豊富に見つけることができます。問題は、ニッチまたは珍しいシナリオが必要になったときに始まります。

例えば:

  • 特定の機械における産業故障
  • 地域特有のインフラと公共サービス
  • 西洋のストックアーカイブにはめったに登場しない文化的・宗教的設定
  • 安全性、アクセシビリティ、障害のコンテキストにおけるエッジケース

これらのシーンが大規模に存在しない場合、モデルは幻覚を見たり失敗したりします。それに基づいて訓練されたモデルは真実の歪んだ見方を発展させます。データにほとんど存在しなかった人々や場所に関しては性能が低下し、支配的なフレーム外の誰にとっても違和感のある、あるいは明らかに不快なビジュアルを生成します。 

データ品質と欠落したメタデータ

チームが権利を持っていても、ファイル自体がトレーニングの準備ができていないことがよくあります。画像は不完全なタグ、一貫性のないカテゴリ、またはラベルがまったくない状態で届きます。重要なコンテキストが欠けており、エンジニアは推測するか手作業で再ラベル付けする必要があります。

業界の対応方法

パフォーマンスと規制の両方からの圧力の下、セクターは3つの主要な対応に収束しています。 

  1. データインフラとしてのライセンスプラットフォーム

スクレイピングされたウェブ画像を置き換えるために、AIチームはますますライセンスされたアーカイブへのアクセスを購入しています。大手コンテンツ企業は現在、明確な権利とメタデータを持つトレーニング準備完了の画像と動画パッケージを販売しており、顧客が事後に同意を逆エンジニアリングする必要がなくなっています。

これらの既存企業と並んで、新しいプラットフォームはAIトレーニングのユースケースを直接中心に構築されています。Wirestockはクリエイターのコンテンツを集約し、ライセンスを処理し、明示的なAIトレーニング条件の下で視覚データセットを提供しています(Wirestockについて詳しくはこちら)。

クリエイターにとって、この仕事は「アップロードして期待する」ストックというよりも、定義されたプロジェクトとして現れます。AI フリーランス写真の仕事を通じて、クリエイターはブリーフを受け取り、トレーニングに使用される承認されたセットに対して報酬を得ます。

ギャップを埋める合成データ

実世界の画像の収集が難しい場合、チームは合成データに目を向けています。彼らはシミュレーションツール、3Dパイプライン、または生成モデルを使用してタスク固有のビジュアルを作成し、それらを実際のライセンスされたコンテンツと混合します。

合成データセットはエッジケースをカバーし、分布のバランスを取ることができますが、それでも参照点として実際の画像に依存しています。そのアンカーがなければ、モデルは自身の出力の閉ループから学習するリスクがあります。

透明性を要求する規制

立法者はトレーニングソースの可視性を要求し始めています。例えば、カリフォルニア州のAB-2013は、州にサービスを提供する多くの生成AI開発者に、使用したデータの種類とその出所を開示することを要求することになります。

トレーニングデータはもはや名前のないバケットに置いておくことはできません。規制当局、顧客、クリエイターがどのように組み立てられたかを確認できるように、十分に文書化する必要があります。

AIビルダーにとっての意味

スクレイピングされた匿名の画像フォルダは現在、負債となっています。チームの速度を遅くし、法的精査を引き付け、新製品の会話を必要以上に難しくします。

より安全なパターンは、説明できる視覚データでトレーニングすることです。チームの誰かが、データセットに何が含まれているか、どこから来たのか、ライセンスが何を許可しているかを一文で言えるべきです。それが不可能な場合、モデルは借り時間の上に座っています。

収益や評判に関わるモデルの短いリストを作成し、その主要なトレーニングソースを文書化してください。スクレイピングされたものや文書化されていないものはすべて「レビュー中」として扱い、それらのセットをライセンスされたデータや委託されたデータに置き換え始めてください。 

よくある質問

私たちは大きなAIラボではありません。今これを心配する必要がありますか?

AIの機能を顧客に提供している場合は、はい。企業の規模に関係なく、エンタープライズバイヤー、規制当局、パートナーはトレーニングデータがどこから来ているのかを尋ね始めています。 

視覚データのリスクを軽減するための現実的な第一歩は何ですか?

スプレッドシートから始めましょう。主要なモデル、使用したデータセット、それらのデータセットがどのように取得されたか(ライセンスされたアーカイブ、内部コンテンツ、公開スクレイプ、または「不明」)をリストアップします。そこから、影響力の高いモデルを1つか2つ選び、置き換えるためのライセンスされたデータセットを探し始めます。

合成データだけでこれを解決できますか?

いいえ。合成画像はカバレッジとレアなシナリオに役立ちますが、それでも参照として実際のライセンスされた画像が必要です。そのアンカーがなければ、モデルは自身の出力の閉ループにドリフトし、実際のシーンで失敗するリスクがあります。

Techbullionからもっと読む

コメント
市場の機会
Sleepless AI ロゴ
Sleepless AI価格(SLEEPLESSAI)
$0,02105
$0,02105$0,02105
+%2,63
USD
Sleepless AI (SLEEPLESSAI) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

USD1ジェネシス:手数料0 + 12%のAPR

USD1ジェネシス:手数料0 + 12%のAPRUSD1ジェネシス:手数料0 + 12%のAPR

新規ユーザー限定:最大600%のAPRでステーキング。期間限定!