БіржаDEX+

Купити криптовалюту Ринки Спот Ф'ючерси500X Earn Події

Ще

Розіграш золотого злитка та BTC2000g

Нова стаття про 27-мільярдну параметричну модель клітини стосується не лише біології. Це інженерія даних і план на майбутнє для прикладного ШІ. Команда створила модель з 27 мільярдами параметрів, яка зробила наукове відкриття.Нова стаття про 27-мільярдну параметричну модель клітини стосується не лише біології. Це інженерія даних і план на майбутнє для прикладного ШІ. Команда створила модель з 27 мільярдами параметрів, яка зробила наукове відкриття.

Google і Yale перетворили біологію на мову: ось чому це революційно для розробників

Автор: Hackernoon

2025/11/22 23:00

Поділитись

Нова стаття про клітинну модель з 27 мільярдами параметрів — це не лише про біологію. Це інженерія даних і план на майбутнє для прикладного ШІ.

\ Якщо ви ШІ-інженер, вам потрібно зупинитися і прочитати новий препринт C2S-Scale, створений у співпраці між Єльським університетом і Google.

\ На перший погляд, це виглядає як вузькоспеціалізована стаття з біоінформатики. Насправді, це один із найважливіших архітектурних маніфестів для прикладного ШІ, які я бачив за останні роки. Команда створила модель з 27 мільярдами параметрів, яка не просто аналізувала біологічні дані — вона зробила нове, підтверджене в лабораторії наукове відкриття щодо потенційної терапії раку.

\ Як розробник, я менше зацікавлений у конкретному препараті, який вони знайшли, і більше захоплений тим, як вони його знайшли. Їхня методологія — це посібник, який повинен зрозуміти кожен архітектор і інженер ШІ.

Основна проблема: ШІ-моделі ненавидять електронні таблиці

Центральна проблема застосування LLM до наукових чи корпоративних даних полягає в тому, що ці моделі навчаються на мові, але наші дані зберігаються в електронних таблицях, базах даних і масивних багатовимірних масивах. Спроба змусити LLM зрозуміти необроблену матрицю експресії генів scRNA-seq — це кошмар.

\ Протягом років стандартним підходом було створення спеціальних, індивідуальних архітектур для науки — ШІ, які намагаються додати деякі можливості природної мови до моделі, розробленої для числових даних. Це повільно, дорого, і ви втрачаєте переваги масштабних законів і швидких інновацій основної екосистеми LLM.

\ Блискуче розуміння команди C2S-Scale полягало в тому, щоб перевернути проблему з ніг на голову.

Архітектурний шедевр: Cell2Sentence

Геніальність фреймворку Cell2Sentence (C2S) полягає в його майже абсурдній простоті. Вони беруть складний, числовий профіль експресії генів однієї клітини і перетворюють його на простий рядок тексту.

\ Як? Вони ранжують кожен ген у клітині за рівнем його експресії, а потім просто виписують імена топ-K генів у порядку.

\ Складний біологічний стан клітини, наприклад: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Стає простим, зрозумілим для людини реченням про клітину: \n GeneB GeneC GeneA …

\ Це глибокий акт інженерії даних. Цим одним кроком вони:

Усунули потребу в спеціальних архітектурах: тепер вони можуть подавати цю біологічну мову безпосередньо в стандартну, готову архітектуру Transformer, як Gemma або Llama. Вони можуть безкоштовно користуватися досягненнями всієї дослідницької спільноти LLM.
Розблокували мультимодальність: їхній навчальний корпус не обмежувався лише клітинними реченнями. Тепер вони могли додавати реальні анотації наукових статей, з яких були отримані дані. Модель навчилася співвідносити мову клітини з мовою вченого в єдиному, уніфікованому навчальному процесі.
Забезпечили справжнє "вайб-кодування" для біології: фінальна модель не просто класифікує речі. Вона може взяти запит на кшталт Згенеруй панкреатичну CD8+ T-клітину, і вона згенерує нове, синтетичне клітинне речення, що представляє експресію генів клітини, якої ніколи не існувало.

Результат: індустріалізація наукових відкриттів

Ця блискуча архітектура уможливила головну перевагу статті. Команда провела віртуальний скринінг, щоб знайти препарат, який міг би підвищити видимість ракової клітини для імунної системи.

\ Це не був простий запит до бази даних. Це був експеримент in-silico. Модель передбачила, що конкретний препарат, сілмітасертіб, матиме такий ефект, але лише в конкретному контексті інтерферонової сигналізації.

\ Вони взяли цю нову, згенеровану ШІ гіпотезу до реальної лабораторії, провели фізичні експерименти і довели, що вона правильна.

\ Це нова парадигма. ШІ не просто знайшов відповідь у своїх навчальних даних. Він синтезував своє розуміння як біологічної, так і людської мови, щоб створити новий, неочевидний і, зрештою, істинний фрагмент знань. Це система для індустріалізації випадкових відкриттів.

Що це означає для розробників

Стаття C2S-Scale — це польовий посібник з того, як будувати високоефективні системи ШІ в будь-якій складній, нетекстовій галузі, від фінансів до логістики та виробництва.

Перестаньте згинати модель. Почніть перекладати свої дані. Найважливіша робота більше не полягає в розробці спеціальної нейронної мережі. Вона полягає у творчій, стратегічній роботі з пошуку представлення "Дані-в-Речення" для вашої конкретної галузі. Яка мова вашого ланцюга поставок? Яка граматика ваших фінансових даних?
Мультимодальність — це вимога, а не функція. Справжня сила була розкрита, коли вони об'єднали клітинні речення з анотаціями статей. Ваші системи ШІ повинні навчатися не лише на ваших структурованих даних, але й на неструктурованих людських знаннях, що їх оточують — журналах технічного обслуговування, заявках на підтримку, стратегічних записках.
Мета — генератор гіпотез, а не машина відповідей. Найцінніші системи ШІ майбутнього будуть не ті, які можуть відповісти на вже відоме. Це будуть ті, які, як C2S-Scale, можуть генерувати нові, перевірювані гіпотези, що розширюють межі можливого.

Давайте побудуємо це: приклад "Дані-в-Речення"

Все це звучить абстрактно, тому давайте зробимо це конкретним. Ось надспрощений приклад на Python концепції "Дані-в-Речення", застосований до іншої галузі: аналізу серверних логів.

\ Уявіть, що у вас є структуровані дані логів. Замість того, щоб подавати їх в ШІ як необроблений JSON, ми можемо перекласти їх у "речення логу".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Цей простий скрипт демонструє основний архітектурний патерн. Трансформація "Дані-в-Речення" є ключовою. Вона дозволяє нам взяти будь-які структуровані дані і представити їх рідною мовою найпотужніших моделей ШІ, відкриваючи новий світ мультимодальних міркувань.

Відмова від відповідальності: статті, опубліковані на цьому сайті, взяті з відкритих джерел і надаються виключно для інформаційних цілей. Вони не обов'язково відображають погляди MEXC. Всі права залишаються за авторами оригінальних статей. Якщо ви вважаєте, що будь-який контент порушує права третіх осіб, будь ласка, зверніться за адресою service@support.mexc.com для його видалення. MEXC не дає жодних гарантій щодо точності, повноти або своєчасності вмісту і не несе відповідальності за будь-які дії, вчинені на основі наданої інформації. Вміст не є фінансовою, юридичною або іншою професійною порадою і не повинен розглядатися як рекомендація або схвалення з боку MEXC.