27億パラメータの細胞モデルに関する新しい論文は、生物学だけの話ではありません。それはデータエンジニアリングであり、応用AIの未来の設計図です。チームは科学的発見をした27Bパラメータモデルを構築しました。27億パラメータの細胞モデルに関する新しい論文は、生物学だけの話ではありません。それはデータエンジニアリングであり、応用AIの未来の設計図です。チームは科学的発見をした27Bパラメータモデルを構築しました。

Google と Yale が生物学を言語に変えた ここでは、それが開発者にとってなぜゲームチェンジャーなのか

2025/11/22 23:00
15 分で読めます
本コンテンツに関するご意見・ご感想は、crypto.news@mexc.comまでご連絡ください。

270億パラメータの細胞モデルに関する新しい論文は、生物学だけの話ではない。それはデータエンジニアリングであり、応用AIの未来の設計図だ。

\ AIエンジニアなら、今やっていることを中断して、イェール大学とGoogleの共同研究による新しいC2S-Scaleのプレプリントを読むべきだ。

\ 表面上は、ニッチなバイオインフォマティクス論文のように見える。しかし実際には、私が近年見た中で最も重要な応用AI向けのアーキテクチャ宣言の一つだ。チームは270億パラメータのモデルを構築し、生物学的データを分析するだけでなく、潜在的ながん治療法について新規の、ウェットラボで検証された科学的発見を行った。

\ 開発者として、私は彼らが発見した特定の薬剤よりも、どのようにそれを発見したかにより興味を持っている。彼らの方法論は、すべてのAIアーキテクトとエンジニアが理解すべき指南書だ。

核心的な問題:AIモデルはスプレッドシートが苦手

科学的またはエンタープライズデータにLLMを適用する際の中心的な課題は、これらのモデルが言語でトレーニングされているのに対し、私たちのデータはスプレッドシート、データベース、そして巨大で高次元の配列に存在していることだ。LLMに生のscRNA-seq遺伝子発現マトリックスを理解させようとするのは悪夢だ。

\ 長年、標準的なアプローチは科学のためのオーダーメイドのカスタムアーキテクチャを構築することだった - 数値データ用に設計されたモデルに自然言語機能を無理やり追加しようとするAIだ。これは遅く、高価で、主流のLLMエコシステムの大規模なスケーリング法則と急速なイノベーションを活用できない。

\ C2S-Scaleチームの素晴らしい洞察は、問題を逆転させることだった。

アーキテクチャの妙技:Cell2Sentence

Cell2Sentence(C2S)フレームワークの天才的な点は、ほとんど馬鹿げているほどのシンプルさにある。彼らは単一細胞の複雑な数値的遺伝子発現プロファイルを取り、それをシンプルなテキスト文字列に変換する。

\ どうやって?彼らは細胞内のすべての遺伝子をその発現レベルでランク付けし、上位K個の遺伝子の名前を順番に書き出すだけだ。

\ 細胞の複雑な生物学的状態、例えば:\n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ これがシンプルで人間が読める細胞文になる:\n GeneB GeneC GeneA …

\ これはデータエンジニアリングの深遠な行為だ。この一手で、彼らは:

  1. カスタムアーキテクチャの必要性を排除した: この生物学的言語を、GemmaやLlamaのような標準的な既製のTransformerアーキテクチャに直接供給できるようになった。彼らは無料で全LLM研究コミュニティの波に乗ることができる。
  2. マルチモダリティを解放した: 彼らのトレーニングコーパスは細胞文だけではなかった。データの出所となる科学論文の実際の要約も混ぜることができるようになった。モデルは単一の統一されたトレーニング実行で、細胞の言語と科学者の言語を関連付けることを学んだ。
  3. 生物学のための真のバイブコーディングを可能にした: 最終的なモデルは物事を分類するだけではない。膵臓のCD8+ T細胞を生成するというようなプロンプトを受け取り、これまで存在したことのない細胞の遺伝子発現を表す新しい合成細胞文を生成することができる。

成果:科学的発見の産業化

この素晴らしいアーキテクチャが、論文のキラーアプリを可能にした。チームは、がん細胞の免疫系への可視性を高める薬剤を見つけるための仮想スクリーニングを実行した。

\ これは単純なデータベースクエリではなかった。それはインシリコ実験だった。モデルは特定の薬剤、シルミタセルチブがこの効果を持つと予測したが、特定のインターフェロンシグナル伝達のコンテキストの下でのみだった。

\ 彼らはこの新規のAI生成仮説を実際のウェットラボに持ち込み、物理的な実験を行い、それが正しいことを証明した。

\ これが新しいパラダイムだ。AIはトレーニングデータの中から答えを見つけただけではない。生物学的言語と人間の言語の両方の理解を統合して、新しい、明白でない、そして最終的に真実の知識を生成した。これは偶然の産業化のためのシステムだ。

これが開発者にとって意味すること

C2S-Scale論文は、金融からロジスティクス、製造業まで、あらゆる複雑な非テキストドメインで高インパクトなAIシステムを構築する方法のフィールドガイドだ。

  1. モデルを曲げるのをやめ、データの翻訳を始めよう。 最も重要な作業はもはやカスタムニューラルネットワークの設計ではない。それは特定のドメインのためのデータから文への表現を見つける創造的で戦略的な作業だ。あなたのサプライチェーンの言語は何か?あなたの財務データの文法は何か?
  2. マルチモダリティは機能ではなく要件だ。 真の力は、細胞文と論文の要約を組み合わせたときに解放された。AIシステムは構造化データだけでなく、それを取り巻く非構造化の人間の知識—メンテナンスログ、サポートチケット、戦略メモなど—でもトレーニングされるべきだ。
  3. 目標は回答マシンではなく、仮説生成器だ。 将来の最も価値のあるAIシステムは、すでに知られていることに答えられるものではない。それらはC2S-Scaleのように、可能性の境界を押し広げる新しい、検証可能な仮説を生成できるものになるだろう。

実際に構築してみよう:データから文への例

これはすべて抽象的に聞こえるので、具体的にしてみよう。ここに「データから文へ」の概念の超簡略化されたPythonの例を、別のドメインに適用したものを示す:サーバーログ分析。

\ 構造化されたログデータがあるとしよう。生のJSONとしてAIに供給する代わりに、それを「ログ文」に翻訳できる。

import json def server_log_to_sentence(log_entry: dict) -> str: """ 構造化されたサーバーログ辞書を人間が読める「ログ文」に翻訳します。 私たちの文の「文法」は重要度の固定順序です: status -> method -> path -> latency -> user_agent """ # 「文法」の重要度の順序を定義する grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # 値をそのまま追加するのではなく、意味的な接頭辞を付ける # これはLLMが各部分の意味を理解するのに役立つ sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_ -> str: """ 機械生成の「ログ文」と人間が提供するコンテキストを組み合わせて、 LLMのための豊かなマルチモーダルプロンプトを作成します。 """ prompt = f""" 以下のサーバーリクエストを分析してください。 **人間のコンテキスト:** "{human_context}" **ログ文:** "{log_sentence}" 人間のコンテキストとログ文の両方に基づいて、ユーザーの意図は何か、そして懸念すべきか? """ return prompt # --- メイン実行 --- if __name__ == "__main__": # 1. 生の構造化データ(例:データベースやログファイルから) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. データを新しい「言語」に翻訳する log_sentence = server_log_to_sentence(raw_log) print("--- 元の構造化データ ---") print(json.dumps(raw_log, indent=2)) print("\n--- 翻訳された'ログ文' ---") print(log_sentence) # 3. マルチモーダルプロンプトのために人間のコンテキストと組み合わせる human_context = "ブラウザではなく、スクリプトからの失敗したAPI呼び出しのシリーズを見ています。" final_prompt = create_multimodal_ print("\n--- LLMのための最終マルチモーダルプロンプト ---") print(final_prompt) # これで、この最終プロンプトを任意の標準LLMに送信して深い分析を行うことができる。 # LLMは構造化ログデータ(文として)と非構造化の人間の観察の両方について # 同時に推論できるようになった。

このシンプルなスクリプトは、コアとなるアーキテクチャパターンを示している。データから文への変換が鍵だ。これにより、どんな構造化データでも取り、最も強力なAIモデルのネイティブ言語で表現することができ、マルチモーダル推論の新しい世界を解き放つ。

市場の機会
SQUID MEME ロゴ
SQUID MEME価格(GAME)
$24.9612
$24.9612$24.9612
+0.86%
USD
SQUID MEME (GAME) ライブ価格チャート
免責事項:このサイトに転載されている記事は、公開プラットフォームから引用されており、情報提供のみを目的としています。MEXCの見解を必ずしも反映するものではありません。すべての権利は原著者に帰属します。コンテンツが第三者の権利を侵害していると思われる場合は、削除を依頼するために crypto.news@mexc.com までご連絡ください。MEXCは、コンテンツの正確性、完全性、適時性について一切保証せず、提供された情報に基づいて行われたいかなる行動についても責任を負いません。本コンテンツは、財務、法律、その他の専門的なアドバイスを構成するものではなく、MEXCによる推奨または支持と見なされるべきではありません。

USD1ジェネシス:手数料0 + 12%のAPR

USD1ジェネシス:手数料0 + 12%のAPRUSD1ジェネシス:手数料0 + 12%のAPR

新規ユーザー限定:最大600%のAPRでステーキング。期間限定!