Поява великої кількості баз даних, що зберігають у відкритому доступі послідовності ДНК, структури білків і фенотипічні описи тисяч організмів, призвело до перевороту в біології. Тепер вчені можуть здійснювати відкриття, ні разу не доторкнувшись до піпетки і не провівши жодного експерименту. У статті розповідається про успіхи і перспективи застосування комп'ютерних технологій в біологічних дослідженнях.
Більшість вчених, що працюють в галузі природничих наук, будують свої наукові кар'єри навколо одного конкретного організму або захворювання, іноді - одного молекулярного шляху або сімейства білків. Це не дивно, адже часто для того, щоб навчитися культивувати в чашці Петрі певний тип клітин або освоїти новий лабораторний метод, потрібні місяці наполегливої роботи. Але є і такі вчені, які легко переходять від однієї теми до іншої, що не заважає їм регулярно отримувати важливі наукові результати і здійснювати відкриття. Приклад цьому - Атул Б'ють ( Atul Butte ), Який в свої 44 роки завдяки відкриттям у вивченні діабету, ожиріння, трансплантології та виявлення нових ліків для лікування раку легенів і інших захворювань вже є одним з провідних дослідників медичного факультету Стенфордського університету (рис. 1).
Малюнок 1. Атул Б'ють виступає на конференції «Бази даних в біомедицині» (Big Data in BioMedicine).
Виступ Атул Бьюта на конференції TedMed 2012: як витягти знання з усіх тих даних, що ми вже маємо (англійською мовою).
Як кар'єра Бьюта відрізняється від кар'єри класичного біолога, так само і його лабораторія відрізняється від лабораторій більшості його університетських колег. Вона не заповнена реагентами і інкубаторами для клітинних культур, а більше нагадує робоче місце інженера або розробника програмного забезпечення: більшу частину часу Б'ють працює на своєму ноутбуці, іноді звертаючись до великого комп'ютерного кластеру Стенфордського університету або іншому суперкомп'ютера. Замість вирощування клітин і секвенування ДНК, його колеги по лабораторії проводять час перед моніторами і ретельно аналізують знаходяться у вільному доступі біологічні бази даних, такі як послідовність генома людини, генетичні дані хворих на рак, записи сканування головного мозку, набори біомаркерів різних захворювань, таких як хвороба Альцгеймера і діабет.
В англійській мові такі лабораторії жаргонно називають «сухими» (dry lab), на противагу класичним «мокрим» лабораторіям (wet lab), де основу досліджень складають зроблені руками експерименти. Два роки тому Б'ють і його колеги, використовуючи публічно доступні дані, досліджували активність великого набору людських генів і прийшли до несподіваних висновків. Були досліджені дві групи даних: активність цих генів у людей, хворих сотнею різних захворювань, і їх активність у клітинних культурах, оброблених різними лікарськими препаратами. Після цього вчені зіставили, які гени стають більш, а які - менш активними при різних хворобах і при застосуванні лікарських засобів. Виявилося, що ліки, що використовуються зараз для лікування виразки, також може виявитися корисним в лікуванні раку легенів, а антиепілептичних препаратів, ймовірно, допоможе впоратися із запаленням кишечника (рис. 2). Наступні лабораторні дослідження на модельних тварин підтвердили обидва припущення, так що попереду - перевірка в клінічних випробуваннях. Такий же біоінформатіческій підхід показав, що антидепресант іміпрамін може бути ефективними ліками при дрібноклітинному раку легенів, стійкому до стандартної хіміотерапії. Це відкриття вже призвело до запуску клінічних випробувань нового ефекту іміпраміну. «Зараз дивовижне і хвилююче час для того, щоб займатися біологічними дослідженнями в" сухий "лабораторії", - говорить Б'ють.
Малюнок 2. Візуальне представлення результатів аналізу, проведених командою Бьюта. Синім позначені ліки, які можуть викликати погіршення хвороби, жовтим - ті, які можуть допомогти в лікуванні. Наприклад, антиепілептичних препаратів топирамат може бути використаний і для лікування хвороби Крона і виразкового коліту.
Зростання кількості публічно доступних баз біологічних даних з послідовностями генів, описом їх активності, структурою білків і їх взаємодіями відкриває нові перспективи для вчених. Останні розробки в області комп'ютерної техніки - зростання обчислювальних потужностей, можливість зберігання великих обсягів інформації і нові алгоритми, які допомагають ефективно відокремити зерна від плевел, - дають дослідникам-біоінформатики можливість здійснювати фундаментальні відкриття без необхідності брати в руки піпетку. Наприклад, завдяки проекту iPlant Colaborative з'являється нове покоління ботаніків, які займаються лише аналізом даних і при цьому жодного разу не забруднили руки, копаючи землю або поливаючи молоді паростки.
«Зараз не обов'язково працювати в класичній" мокрою "лабораторії для того, щоб займатися біологічними дослідженнями», - підтверджує Девід Хекерман ( David Heckerman ), Інформатик в Microsoft Research в Лос-Анжелесі (рис. 3). Але не варто думати, що біоінформатики пропонують замінити традиційні методи комп'ютерними обчисленнями. Навпаки, вони закликають до більшої інтеграції і тісної взаємодію двох методологічних підходів сучасної біології, що на їхню думку має призвести до дивних результатів.
Малюнок 3. Так виглядає робоче місце Девіда Хекермана - ні колб з реактивами, ні піпеток.
Дані, доступні всім
Великі обсяги даних - не новина для науки. наприклад, Великий адронний коллайдер в ЦЕРНі отримує 15 петабайт (1015) даних щорічно, а Слоанівський цифровий огляд неба в рік зберігає кілька терабайт (1012) інформації. Немає нічого незвичайного в великих базах даних і в біології. Наприклад, на кінець серпня 2013 року в базі генетичної інформації GenBank , Якої в цьому році виповнився 31 рік, містилося приблизно 167 мільйонів послідовностей генів, або 154 мільярда нуклеотидів.
Чи не в новинку для біологів і використання комп'ютерних технологій. Вже багато років вчені активно використовують алгоритмічні підходи для оперування з базами біологічних даних, створивши з їх допомогою геноміку, протеоміки, метаболоміку і інші «-омікі» (див. « "Будиночок" - епоха великий біології » [1] ). Однак більшість з цих досліджень до недавнього часу велися великими дослідницькими групами, які мали виняткове право на обробку отриманих даних до того, як зробити їх публічно доступними. Тепер значна частина цієї інформації вільно може бути використана іншими дослідниками.
Для вирішення об'ємних завдань необхідні гарне комп'ютерне забезпечення та спеціалізовані алгоритми, і вони стають краще з кожним роком. Хекерман і його колеги з Microsoft Research недавно викликали фурор в біоінформатики, розробивши покращений алгоритм для роботи з великими обсягами генетичних даних і повногеномне пошуку асоціацій . У таких дослідженнях вивчають послідовності ДНК великої групи хворих людей і порівнюють їх з аналогічними результатами для групи людей здорових, намагаючись виявити послідовності ДНК, характерні для того чи іншого захворювання. Найчастіше ці характерні послідовності дуже складно помітити, тому що спадкування захворювань не схоже на спадкування простих генетичних ознак, таких як колір зерен у гороху в експериментах Менделя. Зелений або жовтий колір зерен гороху кодується одним геном, але схильність до того чи іншого захворювання найчастіше пов'язана з особливостями багатьох генів.
Малюнок 4. У дослідженнях Абеліовіча порівнювалися два набори даних про експресії генів: експресія генів при хворобі Альцгеймера (БА) і експресія генів у носіїв алелі APOE4. В результаті вдалося виявити гени, експресія яких змінюється в обох випадках. Ймовірно, саме від роботи цих генів і залежить вірогідність розвитку БА у людей з аллель APOE4.
«Щоб помітити ці маленькі особливості, необхідно обробити тонни даних. Потрібно вивчити десятки тисяч або навіть сотні тисяч людей », - каже Хекерман. - «Але у великому обсязі даних криється свій підступ. При аналізі великої кількості інформації ви можете втратити, що в ній є внутрішня структура ». Ця структура пов'язана з тим, що деякі з досліджуваних індивідуумів можуть мати безліч подібних генетичних особливостей, які не мають відношення до досліджуваного захворювання. Це, як правило, пояснюється тим, що ці індивідууми більш близькі одна одній з точки зору популяційної генетики, ніж інші. В результаті дослідник отримує дані, які схожі на значущий результат, але при найближчому розгляді їм не є.
Один із способів вирішити цю проблему - використовувати підхід під назвою лінійна змішана модель (linear mixed model). Математична точність цього методу допомагає зменшити кількість хибнопозитивних результатів, але комп'ютерні потужності, необхідні для застосування цього методу - це кількість аналізованих об'єктів, зведена в третю ступінь. Це не проблема, якщо аналізуються дані трохи більше десятка пацієнтів, але якщо потрібно вивчити сотні геномних послідовностей, застосування такого підходу стає неможливим.
Після декількох спроб вирішити проблему хибнопозитивних результатів Хекерман і його колеги придумали те, що він називає «простий алгебраїчної хитрістю». Новий алгоритм, названий FaST-LMM (Factored Spectrally Transformed Linear Mixed Models), не вимагає великих обчислювальних потужностей, але не менш ефективний. Він допоміг позбутися спірних результатів, дозволив збільшити допустимий розмір аналізованої вибірки і зміг, таким чином, підвищити шанси виявити щось дійсно важливе при повногеномне пошуку асоціацій або інших видах аналізу великих наборів даних. У 2012 році група Хекермана використовувала FaST-LMM і суперкомп'ютер Microsoft Azure для зіставлення геномів кількох тисяч чоловік з бази даних благодійної британської біомедичної організації Wellcome Trust . Вони проаналізували в цілому 63 524 915 020 пар генетичних маркерів і виявили безліч нових асоціацій, які можуть служити біомаркерами біполярного розладу *, ішемічної хвороби серця, гіпертонії, запалення кишечника, ревматоїдного артриту і діабету 1 і 2 типів [2] .
Підходи «сухий» лабораторії знайшли своє застосування не тільки в повногеномне аналізі асоціацій, але і в інших областях біомедичних досліджень. Наприклад, наукова група з Колумбійського університету під керівництвом Ази Абеліовіча ( Asa Abeliovich ) Нещодавно опублікувала в журналі Nature статтю з результатами аналізу великого масиву даних для виявлення нових факторів ризику розвитку хвороби Альцгеймера [4] . Раніше було відомо, що люди, які є носіями алелі APOE4, схильні до високого ризику хвороби Альцгеймера, проте залишалося неясним, чи є які-небудь додаткові генетичні чинники, що підвищують або знижують цей ризик. Проаналізувавши публічно доступні дані про експресії генів в головному мозку людей, у яких діагностували хворобу Альцгеймера, і здорових людей, вчені з'ясували, що два гени - SVA2A і RNF219 - були значно менш активні у хворих в порівнянні зі здоровими (рис. 4).
Ця нова інформація, об'єднана з більш ранніми даними про можливі функції цих двох генів, підказала, що SVA2A і RNF219, ймовірно, відіграють важливу роль в накопиченні амілоїдних агрегатів. амілоїдні агрегати являють собою скупчення білка β-амілоїд , Що з'являються в мозку хворих людей і є можливою причиною розвитку хвороби Альцгеймера *. Група Абеліовіча підтвердила отримані результати в лабораторних дослідженнях на мишах, а щоб отримати більш вагомі докази своєї гіпотези, привернула до аналізу публічно доступні дані про сканування головного мозку пацієнтів з хворобою Альцгеймера. Виявилося, що різні варіанти гена RNF219 корелюють з кількістю амілоїдних агрегатів в мозку пацієнтів.
Це дослідження важливо не тільки тому, що в перспективі призведе до розробки нових лікарських засобів, а й тому, що може допомогти лікарям застосовувати більш індивідуальний підхід до пацієнтів. Генетичний аналіз допоможе розділяти пацієнтів на групи, як це зараз роблять при лікуванні раку, а ефект від індивідуальної терапії значно вище. Це комплексне дослідження є прикладом того, що було складно собі уявити ще п'ять років тому: спільне використання аналізу молекулярно-генетичних даних, лабораторних експериментів і залучення результатів сканування мозку привело до важливого відкриття.
Не тільки біологія і медицина
Те, що за останні роки були визначені послідовності великої кількості геномів рослин, і багато хто з них з'явилися у вільному доступі, не могло не підштовхнути ботаніків до проведення власних біоінформатіческіх досліджень. Такими дослідженнями в Корнельському університеті займається лабораторія Еда баклер ( Ed Buckler ) - фахівця з генетики кукурудзи. Баклер і його колег цікавить стійкість до захворювань різних видів кукурудзи. В одній зі своїх недавніх публікацій вони порівнюють геноми 103 видів кукурудзи, вивчивши тисячу послідовностей генів і не кодують ділянок (рис. 5). Було виявлено, що деякі ознаки рослини, такі як стійкість до патогенів або час цвітіння, пов'язані з певними некодуючими ділянками ДНК [7] . Тепер вчені допомагають селекціонерам в відбирати лінії рослин з необхідними ознаками по послідовності некодирующей ДНК.
Малюнок 5. Так буде виглядати дослідження багатьох сучасних ботаніків: порівняння послідовностей ДНК, а не вирощування розсади.
Біоінформатика допомагає відповісти і на більш абстрактні питання про життя рослин. Девід Санкофф (David Sankoff) - математик з університету Оттави - вивчив послідовності геномів 30 видів покритонасінних рослин для того, щоб спробувати реконструювати геном їх загального предка, що жив близько 120 мільйонів років тому. При цьому його цікавить не точна послідовність ДНК цього древнього рослини, а принципи пристрою його генома. Нещодавно були зроблені перші успішні кроки в цьому напрямку. Після аналізу кількості дуплікацій і тріплікацій в геномах сучасних еудікот - однієї з груп покритонасінних рослин - Санкофф і його колеги зробили висновок, що у загального предка цих рослин було сім хромосом, що містили 20-30 тисяч генів (тобто, значно менше, ніж є в геномі сучасних рослин). Незважаючи на те, що подібні відкриття навряд чи принесуть користь сільському господарству або іншим комерційним галузям, багатьох вчених цікавлять фундаментальні питання біології, а біоінформатика допомагає знаходити на них відповіді.
проблема сумісності
Активно розвивається обчислювальна біологія стикається з великою кількістю труднощів, і одна з головних - отримання доступу до даних інших дослідників. Найчастіше люди, які витратили роки або навіть десятки років на створення бази даних, не горять бажанням поділитися результатом з усіма. Вони сподіваються самостійно обробити отриману інформацію до того, як інші зроблять революційне відкриття, спираючись на їх дані. А може бути, дані ще занадто сирі і потребують доопрацювання. «Це дійсно непрості і важливі проблеми», - коментує Б'ють. - «Нам потрібна хороша система для заохочення людей, готових ділитися результатами своєї роботи».
Ще одна проблема, яка заважає біоінформатики - відсутність стандартів записи біологічної інформації. Проблема не тільки в тому, що різні дослідницькі групи використовують різні файлові системи для зберігання даних, але і в тому, що іноді дизайн експериментів може значно різнитися, через що обов'язково виникнуть суперечки про те, що ж все-таки було вивчено в ході роботи. Б'ють і деякі з його колег погоджуються, що проблема різних форматів файлів неприємна, але вирішуване, чого не скажеш про проблему відмінностей в дизайні експериментів, які важко врахувати при великомасштабному аналізі.
Але є і успіхи в рішенні цієї проблеми. Роки роботи, витрачені на те, щоб стандартизувати експериментальні методики, починають приносити свої плоди. Завдяки розвитку РНК і ДНК-мікрочіпів і мас-спектрометрії останнім часом біологічні дані стають все більш стандартизованими.
Іншім приводом для занепокоєння становится Збереження конфіденційності генетичної информации. Як стверджують генетики, даже анонімні генетичні дані могут Видати свого власника І, таким чином, віявіті НЕ только его медичні проблеми, а й Схильність до захворювань у его родічів. Одне з можливіть РІШЕНЬ цієї проблеми Вже існує и вікорістовується на практике. Для того, щоб отріматі доступ до бази даних генотіпів и фенотіпів американського національного центру біотехнологічної информации ( NCBI ), Необхідно пройти реєстрацію і отримати схвалення адміністрації цього центру. Більш того, всі запити до бази доступні публічно, а значить, будь-яка людина може дізнатися, хто і навіщо намагався отримати доступ до певної інформації.
Влітку 2013 року Національні Інститути Охорони здоров'я США ( NIH ) Запустили новий проект під назвою Big Data to Knowledge (BD2T, «Від баз даних - до нових знань»). Цей проект має буде два напрямки роботи. З одного боку, він повинен сприяти розвитку і появи нових біоінформатіческіх центрів, з іншого - організувати мережу експертних груп в різних інститутах для того, щоб вирішити проблеми стандартизації даних і доступу дослідників до інформації за умови збереження необхідної конфіденційності. Можливо, що найближчим часом дослідження в «сухий» лабораторії отримають ще один поштовх до розвитку, тому що уряд США планує ввести відкритий доступ до баз даних як обов'язкова умова для досліджень, що фінансуються державою.
Звичайно, не варто забувати, що крім безперечного блага для дослідників, відкритий доступ до наукової інформації може принести їм і чимало проблем. Необхідно буде піклуватися про збереження конфіденційності і про те, щоб всі дані були представлені в однаковому форматі. Для вчених це означає додаткові турботи: хтось повинен витрачати свій час на підготовку інформації і приведення її в стандартний формат для розміщення в публічних джерелах. А значить, частина грошей і часу дослідників буде витрачатися вже не на експерименти. Особливо важливою ця проблема може стати для невеликих лабораторій. І чи захочуть взагалі вчені з традиційних лабораторій відволікатися на вирішення подібних питань, раз для них це не несе ніякої вигоди? *
Незважаючи на ряд очевидних проблем нове покоління біологів-інформатиків повно ентузіазму. Вони бачать великий потенціал в обчислювальному підході до біології і вірять, що всі перешкоди на шляху до нових відкриттів можливо подолати. «Я відчуваю себе як дитина в магазині з солодощами», - посміхається Атул Б'ють. - «Перед нами стільки можливостей».
Переклад редакційної колонки журналу Science [8] .
- «Будиночок» - епоха великий біології ;
- Lippert C., Listgarten J., Davidson RI, Baxter J., Poon H., Kadie CM, Heckerman D. (2013). An Exhaustive Epistatic SNP Association Analysis on Expanded Wellcome Trust Data . Sci. Rep. 3, 1099;
- Як запобігти самогубству ;
- Rhinn H., Fujita R., Qiang L., Cheng R., Lee JH, Abeliovich A. (2013). Integrative genomics identifies APOE ε4 effectors in Alzheimer's disease . Nature 500, 45-50 .;
- Альцгеймера нейротоксин: отруйні не тільки фібрили ;
- Можливо, β-амілоїд хвороби Альцгеймера - частина вродженого імунітету ;
- Crossa J., Beyene Y., Kassa S., Pérez P., Hickey JM, Chen C., de Los Campos G., Burgueño J., Windhausen VS, Buckler E., Jannink JL, Lopez Cruz MA, Babu R. Genomic Prediction in Maize Breeding Populations with Genotyping-by-Sequencing . G3 (Bethesda) 3, 1903-1926 ;;
- Service RF (2013). Biology's dry future . Science 342, 186-189 ..