BioHack 2019

Третий хакатон по биоинформатике BioHack2019

1-3 марта 2019 года прошёл третий и самый масштабный в России хакатон по биоинформатике. Ежегодно BioHack проводится в первые дни весны и собирает под одной крышей сотню биоинформатиков, программистов, биологов и data science специалистов.

Отбор участников осуществлялся на основе опыта реализации учебных и исследовательских проектов, уровня образования и мотивационных писем. В этом году заявки оказались настолько сильными, что отобрать 100 участников из 450 заявок организаторам было тяжело. В конечном итоге над 25 проектами работали 114 человек.

Уже третий год подряд BioHack объединяет специалистов из разных областей. Это позволяет участникам взглянуть на задачу с разных сторон и найти нетривиальное решение, что было бы невозможным при любых других обстоятельствах. «Важную роль играет командная работа и формат хакатона, он учит ребят общаться и находить общий язык друг с другом, работая как настоящая команда. При этом они стараются не просто решить задачу, но и интересно подать аудитории свои
результаты, прорабатывая презентации проектов и вкладывая в них душу», - Андрей Александрович Миронов, профессор факультета биоинженерии и биоинформатики МГУ им. М.В. Ломоносова.

Главный приз составил 150 000 рублей, а победителем стала команда Garlic с проектом «Разработка унифицированного алгоритма поиска геномных перестроек заданной структуры». За 48 часов, отведённых на работу, команда создала инструмент – GARLIC-Finder, который позволяет искать в заданной структуре геномные перестройки.

Второе место на BioHack заняла команда SclerNET, забрав приз в 100 000 рублей. Её участники работали над поиском «потерянной наследуемости» атеросклероза и его осложнений, в результате создав не только модуль заболевания, но и прототип веб-сервиса, обрабатывающего аналогичные запросы.

За работу над проектом «Fragment-based peptide assembly» команда TheoMAT Gang выиграла третий приз хакатона - 50 000 рублей. Участники разрабатывали алгоритм сборки длинных пептидов из структур коротких три- и тетрапептидов. Итогом стало создание оценочной функции для ранжирования длинных пептидов.

Команды, получившие поощрительные призы от компании ЕРАМ и Института биоинформатики – Одноногая лошадь и RNA Torch. Команда «Одноногая лошадь» с помощью машинного обучения сформировала в виде data-pipeline предсказания предшественников В-клеточной лимфомы. А команда RNA Torch разработала алгоритм эффективного картирования и типирования нереференсных инсертов средней длины в транскриптомных данных (RNA-seq). Со всеми проектами и результатами можно познакомиться на сайте: biohack.ru.

Популярность BioHack растёт с каждым годом, объединяя вокруг себя всё больше и больше талантливых ученых и программистов. «В этом году выбрать победителей было ещё сложнее, чем в предыдущие годы, так как сильно вырос уровень вопросов и уровень качества решений. Ребята не боялись экспериментировать и применять новые подходы из области data science и машинного обучения, они совмещали различные инструменты, придумывали новые алгоритмы и способы решения» - Заал Льянов, директор по управлению проектами, руководитель тренинг-центра ЕРАМ.
Такие мероприятия как BioHack дают отличный шанс попробовать себя, завести новые знакомства и даже начать карьеру в IT. Проекты, представленные на BioHack, продолжают развиваться, участники публикуют научные статьи с итогами, а некоторые продолжают исследования.
ПОБЕДИТЕЛИ BIOHACK 2019
1 место | 150 000 | команда Garlic

Грибкова Анна, Елисеев Антон, Беляев Роман

Проект: Разработка унифицированного алгоритма поиска геномных перестроек заданной структуры

Куратор: Дмитрий Конанов

2 место | 100 000 | команда SclerNET

Убогоева Елена, Дягель Анастасия, Цуринов Пётр, Валиев Иван, Замятин Владимир

Проект: Поиск «потерянной наследуемости» атеросклероза и его осложнений

Куратор: Герман Осьмак

3 место | 50 000 | команда TheoMAT_Gang

Бондаренко Антон, Соловьёв Ярослав, Орехов Дмитрий, Домин Антон, Газимагомедов Магомед

Проект: Fragment-based peptide assembly

Куратор: Артур Залевский

Специальный приз, команда RNA Torch

Мелешко Дмитрий, Ведерникова Дарья, Ешмагамбетова Галия, Фёдоров Александр, Зарубин Алексей

Проект: Разработка алгоритма для эффективного картирования и типирования нереференсных инсертов средней длины в транскриптомных данных (RNA-seq)

Куратор: Виктор Гурьев

Специальный приз, команда Одноногая лошадь

Николаева Евгения, Панков Викентий, Болотин Пётр, Поляков Даниил

Проект: Предсказание предшественников В-клеточной лимфомы с помощью машинного обучения

Куратор: Виктор Свеколкин
список проектов biohack 2019
Cross species comparison of single cell RNA seq

Колченко Сергей | Institut Pasteur
Клетки - базовый блок любого организма. Однако, используя традиционные методы РНК-секвенирования, мы можем увидеть только усредненное состояние всей системы, в то время как нас интересует гетерогенность и отдельные клеточные состояния. Single cell РНК-секвенирование - мощный инструмент, который позволяет нам все это увидеть с невероятным разрешением. Свое применение sc РНК-секвенирование нашло и в эволюционных работах, где, отсеквенировав отдельный организм, можно полностью восстановить его "транскрипционную карту" и найти группы клеток, которые раньше было почти невозможно увидеть. Однако, остается вопрос - а как сравнивать между собой родственные/далекие организмы, чтобы найти общие черты и различия.

Результат

Задачи
В этом проекте участникам предлагается создать систему, которая способна сравнивать два набора данных sc РНК-секвенирования (возможно, разных организмов) и выдавать похожесть между различными группами клеток.
Работа состоит из двух частей:
1. Разработка системы сравнения РНК секвенирования двух организмов\датасетов
- В случае разных организмов: составление ортологии между генами
- Кластеризация данных, выделение известных кластеров на основе маркеров
- Разработка системы сравнения и метрики "похожести" между кластерами
2. Разработка системы визуализации и интерфейса
- Создание GUI для загрузки и управления данными, визуализация результатов
- Опционально: online кластеризация и возможность её изменять

Требования к участникам
В команду нужны:
- Биолог, понимающий эволюционные процессы, для составления ортологии и карты кластеров - по основным маркерам. Не обязательно эксперт, но с у мением делать tblastx и гуглить гены.
- Фронтенд для GUI.
- ML специалист для создания системы сравнения датасетов и кластеризации.
Поиск «потерянной наследуемости» атеросклероза и его осложнений

Осьмак Герман | Институт Экспериментальной Кардиологии
Атеросклероз - многофакторное полигенное заболевание с невыясненной до конца этиологией, часто осложняющееся ишемической болезнью сердца и инфарктом миокарда. Анализ генетической архитектуры этих заболеваний показал, что от 40 до 60% предрасположенности к их развитию определяется отягощенной наследственностью, однако полногеномные ассоциативные исследования (GWAS) полиморфных вариантов позволили объяснить менее 20% наследуемости. По этой причине, не теряют своей актуальности исследования по типу "ген-кандидат", но и тут есть сложности из-за белых пятен в понимании патогенеза. Одна из возможных причин возникновения этих проблем может заключаться в том, что сигналы, приводящие к возникновению патологического фенотипа, формируются значительной частью генома посредством сетей ген-генных взаимодействий, объединяющих малые эффекты многих генов, которые не имеют очевидной связи с заболеванием и слишком слабы, чтобы детектироваться в GWAS. Таким образом, более глубокое понимание характера и путей взаимодействия генов, вовлеченных в развитие заболевания, может пролить свет на его патогенез и области генома, скрывающие в себе "потерянную наследуемость".

Результат

Задачи
1. Обработка сырых данных (.CEL) MicroArray для выявления дифференциально-экспрессирующихся генов, вовлеченных в развитие осложнений атеросклероза.
2. Поиск наборов из коррелированных генов, принадлежащих к одному сигнальному пути, экспрессия которых различна у больных и здоровых (Enrichment analysis).
3. Поиск перепредставленных сигнальных путей среди дифференциально экспрессирующихся генов (Overrepresentation analysis).
4. Анализ особенностей структуры сети молекулярных взаимодействий белковых продуктов дифференциально экспрессирующихся генов и их ближайших соседей.
5. Подтверждение результатов на наборах доступных в GEO DataSets (при наличие таковых).

Требования к участникам
Владение Python/R. Опыт работы с библиотеками типа Limma, NetworkX, Igraph - приветствуется (если нет, то придется его приобрести). В команде обязательно должны быть 1-2 биолога, можно без навыков программирования. Английский на уровне позволяющем читать и понимать статьи по тематике, а также документацию по библиотекам.
Разработка алгоритма детектирования окончаний нейронов на гистологических срезах с помощью технологий машинного обучения

Северюхин Юрий | Университет "Дубна"
Участникам предстоит разработать максимально эффективный алгоритм обнаружения окончаний аксонов и дендритов нейронов головного мозга грызунов на изображениях, полученных с гистологических препаратов при использовании световой микроскопии.

Результат

Задачи
1. Выбор оптимальной гистологической техники для выявления отростков нейронов.
2. Выявление и разработка эффективных принципов первичной обработки изображений.
3. Разработка алгоритма поиска и подсчета окончаний нейронов на гистологических срезах с помощью технологий машинного обучения.

Требования к участникам
Владение базовыми алгоритмами машинного обучения, базовые знания в области компьютерного зрения, уверенное владение языком программирования Python, знание библиотек OpenCV, TensorFlow/Keras.
Знание морфологии нервной ткани и профессиональное биологическое или медицинское образование.
Предсказание предшественников В-клеточной лимфомы с помощью машинного обучения

Свеколкин Виктор | BostonGene
Лимфомы являются одним из самых агрессивных опухолевых заболеваний. Низкодифференцированные крупноклеточные лимфомы классически делятся на ABC и GCB подтипы, что отражает вид B-клеток, на которые клетки данной опухоли похожи фенотипически, и определяет ход терапии. Современные методы классификации на данные подтипы имеют ряд проблем:
- не устойчивы к проценту подтипов в выборке,
- зависят от платформы, на которой определяется экспрессия,
- при разделении присутствуют неклассифицированные образцы.
Задачей команды является реализация кроссплатформенного классификатора который разрешил бы данные проблемы.

Задачи
1) Создать кроссплатформенный классификатор ABC/GCB подтипов для лимфомы DLBCL, попытаться разделить неклассифицированные образцы
2) Протестировать применимость данного классификатора для других типов лимфом
3) Используя датасеты других типов лимфом, собрать большую выборку и выделить новые группы

Требования к участникам
Для выполнения этой задачи требуется опыт работы в R, либо Python. Так же требуется опыт биолога для аннотирования и определения биологической осмысленности полученных генов и процессов.
Biomarkers discovery in silico

Котлов Никита | BostonGene
Онкологические заболевания - вторая по частоте причина смертности пациентов по всему миру. На данный момент существует более 2000 противораковых препаратов. Современные технологии секвенирования позволяют анализировать тысячи параметров пациентов, что еще больше затрудняет выбор подходящей терапии для пациента. Для выбора лучшего лечения, которое с максимальной вероятностью поможет пациенту, применяют анализ биомаркеров.
Биомаркеры - клинические параметры, которые позволяют стратифицировать пациентов по вероятности ответа на разные терапии. Новые биомаркеры, полученные с использованием современных технологий (NGS), позволяют увеличить вероятность ответа пациента на терапию. В качестве биомаркеров может быть использована экспрессия гена, выраженность сигнатуры, наличие или отсутствие мутации. Новые биомаркеры помогают нам лучше понимать механизмы работы лекарств.

Результат

Поиск биомаркеров in silico затруднен недостатком данных, вариативностью технологий секвенирования и сложностью устройства клеток. С другой стороны, в литературе можно найти огромное количество экспериментов на клеточных линиях по измерению чувствительности к разным препаратам, а также NGS пациентов и результаты их ответа на разные терапии. Анализ различий между чувствительными и резистентными раковыми линиями может привести к открытию новых биомаркеров, для применения в клинике. В большинстве случаев эти находки не доходят до клинических испытаний из-за малой достоверности полученных результатов. Для доказательства работы биомаркеров можно использовать опубликованные данные пациентов, проходивших лечение теми же препаратами. Идеальным клиническим испытанием было бы найти биомаркер на клеточных линиях, а потом проверить его на пациентах.

Задачей команды является найти биомаркер(-ы) ответа на препараты, направленные на семейство рецепторов эпидермального фактора роста (EGFR), на основе транскриптомных данных.

Задачи
1) Провести поиск биомаркеров чувствительности к препаратам, применяющимся в лечении онкологических заболеваний (рак легкого, рак молочной железы) на клеточных линиях.
2) Провести валидацию полученных биомаркеров на публичных данных пациентов.
3) Объяснить механизм чувствительности и резистентности к терапии с использованием найденных биомаркеров.

Требования к участникам
Для выполнения этой задачи требуется опыт работы в Python, R. Также требуется опыт биолога для аннотирования и определения биологической осмысленности полученных генов и процессов.
Определение клеточного состава опухоли

Нуждина Екатерина | BostonGene
Нобелевскую премию в области физиологии и медицины в 2018 году присудили за открытие нового способа лечения рака - иммунотерапии моноклональными антителами, нацеленными на чекпоинты иммунной системы. Данный вид терапии показал долговременную выгоду или даже лечебный потенциал при различных раковых заболеваниях. Однако только ~20% пациентов реагируют на иммунные чекпоинт ингибиторы. Актуальной задачей является выявление предиктивных маркеров ответа на терапии. Одним из таких маркеров, может является количественная оценка клеточного состава опухоли.

Микроокружение опухоли может играть критическую роль в развитии рака. Клеточный состав можно определять иммуногистохимией, но этот вид анализа имеет свои недостатки. В последнее время, в рутинную клиническую практику все чаще входят методы NGS. Используя результаты RNA-seq так же можно определять проценты клеток, составляющие образец. Клетки микроокружения опухоли имеют свой экспрессионный профиль, в сумме дающий экспрессию опухоли.

В результате проекта предлагается выделить транскриптомный экспрессионный профиль для клеток микроокружения по данным RNA-seq очищенных популяций и по возможности создать свой алгоритм предсказания клеточного состава опухолевого образца.

Задачи
- Расчет экспрессии по данным RNA-seq очищенных популяций клеток.
- Поиск генов значимо экспрессирующихся в определенных типах клеток.
- Поиск транскриптов значимо экспрессирующихся в определенных типах клеток.
- Ответить на вопрос можем ли мы увидеть разницу в экспрессионном профиле для клеток на уровне трансрипта, если не увидели на уровне гена?
- Объяснить с биологической точки зрения, с чем может быть связана высокая экспрессия определенного транскрипта.
- *Написать свой алгоритм определения клеточного состава опухоли по данным RNA-seq.

Требования к участникам
Биолог, понимающий основы иммунологии.
Биоинформатик, владеющий основами работы с данными NGS, анализом экспрессии.
Программист, знающий python/R и опционально ML (для задачи про алгоритм определения клеточного состава).
Подходы к визуализации уровней экспрессии ортологичных генов

Адамьян Дмитрий | Genestack
Компанией Genestack был разработан инструмент визуализации транскриптомных данных (полученных при помощи RNA-Seq и ДНК-чипов) Expression Data Miner. Он позволяет сравнивать и анализировать уровни экспрессии генов, полученные как в одном эксперименте, так и в большом массиве различных экспериментов.
Одной из возможностей, которую мы бы хотели реализовать, но пока не смогли, является сравнение результатов для гомологичных (имеющих сходную функцию и локализацию) генов различных организмов. Участникам проекта предлагается исследовать существующие подходы к анализу результатов экспрессии ортологичных генов, создать прототип интерфейса такого сравнения и опробовать его на данных, доступных в платформе Genestack (или других данных).

Результат

Задачи
- Изучить имеющиеся подходы к сравнению данных экспрессии ортологичных генов
- Найти примеры публичных данных, пригодные для такого сравнения
- Создать прототип визуализации сравнения экспрессии ортологичных генов

Требования к участникам
Участники команды должны обладать базовыми навыками программирования (желательно на языке Python), иметь общее представление о молекулярной биологии и биоинформатике. Желательно присутствие в команде дизайнера или кого-то увлекающегося подходами к визуализации данных.
CADD utility optimization and parallellization

Захаров Геннадий | EPAM
Утилита CADD (Combined Annotation Dependent Depletion, https://cadd.gs.washington.edu/) используется для оценки клинической значимости вариаций в геноме человека. CADD рассчитывает единую оценку на основании комбинации большого число различных аннотаций. По заявления авторов, эта оценка коррелирует с патогенностью как кодирующих, так и некодирующих вариаций, экспериментально обнаруженными регуляторными эффектами, и может применяться для приоритезации вариаций как в фундаментальных исследованиях, так и в клинической диагностике.
В связи с этим, можно использовать CADD для оценки клинической значимости вариаций, полученных в результате экзомного и полногеномного секвенирования.

К сожалению, текущая архитектура утилиты CADD плохо приспособлена для параллельной обработки больших объёмов данных в облачных платформах по следующим причинам:
1. Для работы утилиты требуется набор аннотаций размером около 100Gb данных, а для использования заранее рассчитанных оценок требуются дополнительные данные объёмом ещё порядка 200 Gb. Все эти данных хранятся в сжатых текстовых файлах с tabix-индексами и должны быть доступны на файловой системе. Это порождает ряд затруднений.
1. Установка большого объёма локальных файлов при инициализации виртуальной машины (фактически загрузка этих данных из распределенной системы хранения облака) замедляет подготовку машины к работе.
2. Размещение баз данных на общей файловой системе NFS создаёт проблемы с производительностью при большом числе параллельно обрабатываемых образцов (50 и более).
3. Построение производительной распределенной файловой системы (LustreFS) требует сложной настройки и администрирования.
2. Работа утилиты не параллельна, при аннотировании используется только один поток. Поэтому при наличии выделенных машин, на которых работает CADD, это становится узким местом вычислительной системы и затрудняет масштабирование.

Команде предлагается решить эти проблемы и сделать утилиту CADD более приспособленной к работе в параллельных средах. поэтому Поставленная задача не предполагает решения фундаментальной научной проблемы, однако имеет очень высокую практическую значимость.

Результат

Задачи
1. Разобраться в имеющихся алгоритмах и наборах данных, используемых утилитой CADD для оценки клинической значимости вариаций
2. Придумать, как оптимизировать доступ к данным для того чтобы обеспечить параллельную обработку большого числа образцов в облачной среде. В качестве возможных вариантов решения этой задачи можно рассмотреть следующие:
1. Перенос данных из текстовых файлов в базу данных, способную обслуживать одновременно несколько работающих машин.
2. Разбиение кода утилиты на параллельно выполняющиеся потоки.

Требования к участникам
Крайне желательно одновременное наличие в команде участников с опытом разработки программного обеспечения, которые смогут конвертировать имеющиеся данные и оптимизировать алгоритм работы утилиты, и участников, имеющих образование в области биологии и способных разобраться в данных, используемых CADD для оценки значимости вариаций.
Утилита CADD написана на Python, так что опыт разработки на этом языке будет дополнительным преимуществом.
Так ли мыши хороши?

Потапова Надежда | МГУ им. М.В. Ломоносова
Для того, чтобы изучать болезни человека и их причины, создавать лекарства, используются различные модельные организмы. Например, существуют линии мышей, у которых часто встречается ожирение, различные типы рака, нейродегенеративные заболевания и др. Но не всегда есть «консенсусная» модель, то есть единственная линия, с которой проводятся все исследования, и патогенные мутации в которой максимально похожи на таковые у человека. Используются разные мышиные линии, а у них один и тот же фенотип может быть вызван совершенно разнообразными мутациями, в том числе не совпадающими с таковыми у человека. Из-за отличий, мыши могут показывать разный ответ на лекарства, у них будет отличаться метаболизм и другие характеристики. Но на это зачастую не обращают внимания. В конечном счёте возникает вопрос — насколько обосновано использование той или иной линии, насколько похожи мутации в них на человеческие и правильно ли они моделируют болезнь.
Цель проекта: разработать пайплайн для проверки того, насколько подходят мышиные линии для моделирования одного из типов рака.

Результат

Задачи
Найти датасеты для одного из типов рака: выборка пациентов и мышей (геномы, транскриптомы и др.). Определить сходства и отличия между данными мышиных линий и данными пациентов, например, сравнить каузативные гены и мутации в них; в какие пути они вовлечены; сравнить мутационные подписи и др. Определить, какая мышиная модель лучше подходит для выборки.

Требования к участникам
Двое участников, умеющие работать с геномами и транскриптомами. Программист, чтобы смог быстро написать пайплайн для всех сравнений данных и помогал оптимизировать скрипты. Можно врача/биолога, чтобы объяснить результаты с биологической точки зрения.
Моделирование молекулярного докинга (попытка уложить то или иное соединение в структуру, например, белковой мишени) - один из важнейших подходов при разработке лекарств. Зачастую, в ходе скрининга проверяются десятки и сотни тысяч соединений различной структуры и химической природы.

Традиционный подход состоит в отборе только перспективных кандидатов и всего проверенного набора. Мы же хотим пойти другим путем и использовать весь массив полученных данных для конструирования, как из кубиков LEGO, соединений большего размера.

Задачи
В рамках проекта надо будет предложить алгоритм для эффективной сборки из структур коротких пептидов длиной 3-4 аминокислоты, расположенных на поверхности белка-мишени, пептидов длины порядка 9-12 аминокислот.
Однако задача усложняется тем, что на вход подается массив от 160 тысяч до 1.6 миллиона индивидуальных структур пептидов.

Требования к участникам
Хотелось бы, чтобы в команде были участники со специализацией в области ИТ и алгоритмов:
- знакомых с Python
- теорией графов
- технологиями параллельного программирования (из-за объемов данных)

и участники с экспертизой в области молекулярной биологии:
- знакомых со структурами аминокислот
- знакомых с основами структурной биоинфомартики
Предсказание наличия цитомегаловирусной инфекции пациентов по большим данным репертуаров иммунных рецепторов

Назаров Вадим | ImmunoMind
Адаптивная иммунная система - "невидимая рука" организма, направляющая триллионы лимфоцитов на защиту от различных патогенов. Ключевая особенность адаптивного иммунитета заключается в уникальной системе генерации его основных агентов - Б- и Т-клеточных рецепторов на поверхности соответствующих лимфоцитов. Другими словами, вместо кодирования огромного объема информации о рецепторах в геноме, организм собирает рецепторы случайным образом в процессе соматической рекомбинации генов. В процессе столкновения с различными заболеваниями, первоначально рожденное множество рецепторов изменяется в ту или иную сторону, сохраняя в себе историю борьбы с заболеваниями. На выходе мы получаем уникальные репертуары рецепторов для каждого человека - или практически уникальные, что и позволяет нам поставить текущую задачу.

Развитие технологий секвенирования позволило идентифицировать геномные последовательности для сотен тысяч вариантов клеточных рецепторов в образце крови или исследуемой ткани. Такие данные позволяют заглянуть в личную историю болезней по репертуарам рецепторов, однако для этого необходимо разработать соответствующие методы анализа данных. Этим вы и займетесь в рамках проекта. У вас будет доступ к более чем семиста клеточным репертуарам с более чем ста пятьюдесятью миллионами рецепторов. Иммунные репертуары получены от пациентов, про которых известен их серостатус для одной из наиболее распространенных инфекций - цитомегаловируса. Вашей задачей будет являться разработка модели для анализа истории заболеваний и предсказания наличия цитомегаловирусной инфекции по репертуарам клеточных рецепторов.

Задачи
1) Разобраться с темой иммунных репертуаров,
2) Разобраться в сложной структуре данных,
3) Выделить основные направления проверки гипотез для построения классификаторов и начать проверять их.

Требования к участникам
1) иммунолог / медик / биолог с хоть каким-то знание иммунологии,
2) биоинформатик,
3) два специалиста по машинному обучению.
A tissue-wide map of human phenome

Барбитов Юрий | Институт биоинформатики
Большие наборы генетических данных предосталвяют возможность исследовать генетику человека на полнофеномном уровне, то есть на уровне всей совокупности различных признаков. Выборка из 500,000 человек, собранная в UK Biobank, является наиболее удобным набором данных для таких феномных исследований. В ходе хакатона команде участников будет предложено составить карту ассоциации всех сложных признаков человека из набора UK Biobank с различными тканями и системами органов человека. Такая карта позволит выявить ключевые системы, отвечающие за развитие сложных признаков, а также дополнительно поможет детальнее изучить генетические факторы, определяющие этих признаков.

Задачи
1. Агрегировать данные о генетических ассоциациях различных признаков, предоставляемые лабораторией Бенджамина Нила (http://www.nealelab.is/blog/2017/7/19/rapid-gwas-of-thousands-of-phenotypes-for-337000-samples-in-the-uk-biobank), а также данные об экспрессии генов из GTEx.
2. Разработать статистический метод оценки связи признака с конкретной тканью по данным ассоциаций и уровням экспрессии генов в ткани.
3. Провести анализ ассоциации всех признаков и тканей между собой, выявить группы фенотипов, которые имеют сходные профили тканевой ассоциации.
4*. Разработать метод интерактивной визуализации данных (веб-интерфейс), способный отображать данные по взаимосвязи признаков и тканей (и наоборот :))

Требования к участникам
Кто-то из участников должен иметь хорошие знания статистических методов, используемых для анализа взаимосвязи признаков. Также в команде хотелось бы видеть человека, который имеет базовые навыки разработки интерактивных веб-приложений (но не факт, что для выполнения задачи (4) у команды останется время). Желательно, чтобы команда имела смешанный состав, но найти задачу для биолога без каких-либо навыков работы в UNIX будет очень проблематично.
Ген рыжего окраса у домашних кошек

Погода Алексей | Фрактал Био
Цель: найти нуклеотидную последовательность в геноме домашних кошек (Felis catus), определяющую наличие рыжего окраса.

Несмотря на то, что геном домашней кошки полностью отсеквенирован, на данный момент неизвестно какой ген (группа генов) или наличие/отсутствие каких-то существенных мутаций приводят к биосинтезу феомеланина, дающего рыжий окрас, а не эумеланина, дающего черный окрас.
Казалось бы отличить рыжего кота от черного несложно, но существуют различные модификации окрасов (разбавление и т. п.) при которых рыжий от черного уже не так легко отличим, особенно у маленьких котят. Или рыжий окрас может скрываться под доминантным белым (не альбиносы). Что, в целом, создает определенные трудности заводчикам породистых кошек.
Знание нуклеотидной последовательности позволит разработать соответствующий генетический тест.

Результат

Задачи
1) Сформировать стратегию поиска и собрать необходимые молекулярные данные из доступных баз данных.
2) Провести поиск
3) Если результат это ген, то предоставить теоретическую интрон/экзонную структуру.

Требования к участникам
Особых требований нет.
Разработка унифицированного алгоритма поиска геномных перестроек заданной структуры

Конанов Дмитрий | ФНКЦ физико-химической медицины
В лаборатории биоинформатики ФНКЦ ФХМ разрабатывается графовая модель представления вариантов чередования генов в наборе геномов прокариот. Рассчитанные группы ортологии определяются как узлы графа, а ребра проводятся между узлами, расположенными последовательно хотя бы в одном из геномов. Главное преимущество подобной модели в том, что существует обширная алгоритмическая база теории графов, позволяющая такие структуры обрабатывать. Нашим главным объектом исследования являются геномные перестройки. Очевидно, что любая произошедшая геномная перестройка приводит к изменению структуры графа, а точнее, к возникновению некоторого подграфа-шаблона, соответствующего данному типу перестройки. Наша идея - создать унифицированный алгоритм поиска заданных подграфов, чтобы иметь возможность оценивать частоту и локализацию в хромосоме разных событий у разных групп прокариот. Нам известно, что поиск подграфов - это NP-полная задача, и потому мы надеемся на творческий подход участников, чтобы найти либо эвристические, либо вероятостные методы, которые бы достаточно хорошо решали поставленную задачу за приемлемое время.

Задачи
1) разработка языка описания подграфов (нами уже разработан рабочий прототип, но при наличии у участников идеи более оптимального синтаксиса можно переписать заново)
2) разработка метода (или методов) поиска заданных подграфов
3) описание структур подграфов, соответствующих различным типам элементарных перестроек (транслокация, делеция, вставка, инверсия)
4) тестирование разработанного метода на любой понравившейся группе прокариот

Требования
- иметь представление о графах и алгоритмах их анализа
- иметь представление о том, какие бывают геномные перестройки, как протекают, и к чему могут привести
- иметь опыт программирования на Python 3
Сопоставление данных экспрессии генов с текстами статей

Сергушичев Алексей | Университет ИТМО
Анализ экспрессии генов и, в частности, РНК-секвенирование является достаточно прямолинейным и очень распространенным инструментом в современной биологии для широкомасштабного описания процессов в клетках. Кроме того, эти данные часто выкладываются в открытый доступ вместе с выходом научных статей, где они использовались.
Целью проекта является исследование возможностей интеграции текстов статей с профилями экспрессии.
В рамках проекта участникам проекта будет предоставлен таблицы с экспрессией генов, полученные по данным РНК-секвенирования в рамках проекта ARCHS4 (человек и мышь), база с метаданными экспериментов (включая ссылки на соответствующие статьи), и частичный архив записей из базы данных Pubmed (абстракты, ключевые слова, MeSH Terms, и т.д.) и Pubmed Centreal (полные тексты статей).

Результат

Задачи
1) Подготовить размеченные наборы для обучения разных уровней сложности: по простым аннотациям, по более специализированным аннотациям и т.д.
2) Научиться делать простые предсказания пола/ткани/экспериментального протокола по данным экспрессии.
3) Научиться предсказывать ключевые слова: указанные авторами, MeSH terms из базы Pubmed или выделенных самостоятельно из абстрактов и полных текстов.
4) Проанализировать ложно-положительные срабатывания предсказаний ключевых слов: не являются ли они в действительности ошибками в разметке данных.
5) Выполнить валидацию предсказаний, например, с помощью анализа представленности по базе биологических процессов Gene Ontology.
6) Придумать и реализовать любые другие идеи по совместному использованию этих данных: например, построение единого векторного представления ключевых слов и профилей на манер word2vec для поиска профилей для комбинаций ключевых слов.

Требования к участникам
При выполнении проекта помогут:
опыт работы с данными экспрессии генов;
опыт работы с текстами (text mining) и машинным обучением в целом;
знания общей биологии и/или глубокое знание какой-то отдельной области биологии.
Разработка алгоритма для эффективного картирования и типирования нереференсных инсертов средней длины в транскриптомных данных (RNA-seq)

Гурьев Виктор | University of Groningen
Определение точечных нуклеотидных замен или больших структурных вариантов не представляет таких сложностей, как нахождение инсертов средней длины (20-200 bp). Варианты меньшей длины легко определяются из первичных выравниваний, варианты большего размера - по неконкордантности картирования парных фрагментов. Для вариантов промежуточного размера характерна высокая доля ложно положительных и ложно негативных результатов. В данном проекте предлагается разработать гибридный алгоритм, позволяющий с высокой точностью определять инсерты средней длины на данных NGS (RNA-Seq и RIBO-seq как контроль работы алгоритма), которые, в частности, могут быть полезны для определения сайтов и функциональной характеризации интеграцией вирусов в геном человека.

Результат

Задачи проекта
1. Определить достоинства и недостатки существующих алгоритмов.
2. Разработать свой алгоритм/оптимизировать один из имеющихся.
3. Провести валидацию полученных инсертов на данных RIBO-seq крыс.

Требования к участникам
Программирование на языке Python, R; базовые знания биологии.
Путь транспозонов в геноме растений

Дивашук Михаил | ВНИИСБ
Транспозоны есть в каждом геноме, но особенно их много в растительных (до 95%). Раньше они считались "ненужным хламом", однако сейчас есть мнения, что они играют роль в том числе в видообразовании. Оценить скорость эволюции транспозонов у растений (и не только у них) -- далеко не тривиальная задача из-за гигантского количества копий каждого мобильного элемента внутри генома. На модельной системе из растений Aegilops tauschii (2n=14, геном DD) и Triticum urartu (2n=14, геном AA), имеющих полноценные сборки, предлагается оценить эволюционные изменения, произошедшие с транспозонами, обитающими в геномах D и A.

Что хотелось бы узнать и понять:
- Найти варианты самого первого "захватчика" для каждого класса транспозонов
- Оценить, насколько эволюционировали от "нулевого пациента" транспозоны внутри геномов - зависела ли скорость их эволюции от места встройки на хромосоме?
- Предпочитают ли одинаковые транспозоны одинаковые места на хромосомах?
- Есть ли "живые" транспозоны в геномах двух растений? Кто быстрее эволюционирует - живой и бодрый, но преследуемый геномом транспозон, или "умерший" и никому не нужный?
И главное: всё-таки растения для транспозонов, или транспозоны для растений?

Задачи проекта
Участникам предстоит:
- Найти мобильные элементы в сборках геномов Aegilops tauschii и Triticum urartu, относящиеся к известным классам транспозонов (и, может быть, к неизвестным тоже)
- Оценить их вариабельность внутри геномов и между родственными видами
- Оценить локализацию наибольшего скопления транспозонов на хромосомах
- Оценить сходства локализации между хромосомами одного вида, а также сходство и различие между гомеологичными хромосомами двух видов.
- Выявить мобильные элементы, находящиеся под давлением отбора и потенциально "живые", а также остатки инактивированных транспозонов
- Оценить предположительную скорость их эволюции

Требования к участникам
- Один-два биоинформатика с навыками программирования: нужно будет искать транспозоны и писать скрипты для их сравнения и оценки их поведения. Биоинформатик и программист - так тоже можно.
- Биолог, который поможет осмыслить полученные результаты с эволюционной точки зрения.
Классификация речевых сигналов по реакции слухового нерва в системе машинного слуха

Яковенко Антон | СПбПУ
Машинный слух представляет способность интеллектуальной вычислительной системы воспринимать и интерпретировать звуковую информацию в манере, свойственной человеку, т.е. выполнять обработку, анализ и синтез сенсорных данных. Отличительной чертой систем машинного слуха от более традиционных систем обработки акустических данных является биологически инспирированный подход: для параметризации входного сигнала применяется имитационное моделирование периферического отдела слуховой сенсорной системы. Практический интерес к такому подходу с одной стороны обусловлен необходимостью создания помехоустойчивого признакового описания речевых сигналов в задачах распознавания, а с другой – созданием естественных человеко-машинных интерфейсов нового поколения, которые могли бы найти своё применение в слуховом нейропротезировании и кохлеарной имплантации, устройствах, позволяющих обойти повреждённые участки нервной системы, транслируя информацию из сенсоров в головной мозг.

Результат

К настоящему времени, в отличие от машинного зрения, машинный слух находится на начальной стадии своего развития. Однако, это перспективная область для исследований, поскольку при относительно слабой изученности наблюдается повышенный спрос на решение задач в области его применения.
Целью проекта является реализация алгоритмов извлечения речевой информации посредством обработки и анализа активности ансамблей волокон слухового нерва. Работа предусматривает использование имитационной модели слуховой периферии и согласование её выходов с нейрокомпьютерной системой для классификации сложных звуковых стимулов на примере гласных фонем.

Задачи проекта
1. Обзор и описание модели слуховой периферии
2. Получение данных: имитационное моделирование реакции слухового нерва
3. Признаковое описание речевого сигнала
4. Обзор алгоритмов для решения задачи классификации
5. Программная реализация
6. Проведение численного эксперимента и оценка результатов.

Требования к участникам
Ввиду междисциплинарной основы предлагаемого проекта, в команду приглашаются биологи, ориентирующиеся в вопросах электрофизиологии, сенсорного кодирования стимулов, строения и функций слуховой периферии; программисты (python, matlab); люди с хорошей математической подготовкой и знаниями в области цифровой обработки сигналов.
Эпителиально-мезенхимальный переход: охота за генами

Довидченко Никита | Институт белка РАН
Одна из особенностей развития эпителиальных клеток - их возможность в определенный момент менять свой фенотип и превращаться в мезенхимальные клетки посредствам эпителиально-мезенхимального перехода (ЭМП). Этот процесс запускается в эмбриогенезе, активируется при заживлении ран и регенерации тканей, а также, как считается, является ключевым в приобретении опухолью способности к метастазированию. Интересно, что процесс является обратимым (мезенхимально-эпителиальный переход (МЭП)) и, по-видимому, МЭП ответственен за возможность формирования вторичных опухолей.

Оба перехода регулируются активацией и супрессией огромного числа генов, некодирующими РНК, хроматиновыми перестройками и эпигенетическими модификациями, что делает их описание довольно трудоёмкой задачей. К настоящему моменту существуют базы данных, в которых перечислены гены, вовлеченные в ЭМП (например, dbEMP), однако данные накапливаются с ужасающей быстротой (так, dbEMP содержит информацию собранную из 2300 статей, в то время как на настоящий момент на запрос epithelial-mesenchymal transition сервис NCBI pubmed находит в 10 раз больше статей). Участникам проекта будет предложено на основе NCBI pubmed создать свою актуальную базу данных по генам, участвующим в процессах и, если позволит время, проанализировать данные.

Задачи проекта
1) Используя сервис NCBI pubmed, собрать коллекцию аннотаций (abstract) к статьям по запросу "epithelial-mesenchymal transition".
2) На основе text-mining'а по ключевым словам (gene, act suppress, activate, etc) создать модель для поиска интересующих генов и их роли в эпителиально-мезенхимальном переходе.
3) Полученные в результате применения модели к коллекции аннотаций данные объединить в базу данных.

Требования к участникам
Приоритетными навыками участников являются: умение программировать (в том числе навыки использования REST API, базовые навыки обращения с базами данных), навыки в области NLP (natural-language processing), базовые знания в биологии.
В поисках бактериальных транспозонов и захваченных ими генов

Старикова Елизавета | ФНКЦ ФХМ
Изменения, которые происходят в бактериальном геноме, нередко вызваны активностью транспозонов, которые могут в том числе "захватывать" и переносить гены с одного места на другое -- в первую очередь устойчивости к антибиотикам, чем, по-видимому, вносят свой вклад в распространение антибиотикорезистентности у патогенных бактерий. Чтобы как следует оценить масштабы этого явления, нужно научиться искать транспозоны и захваченные ими бактериальные гены.
Существующие программы для поиска транспозонов не учитывают особенностей транспозонов именно бактериальных: а тем временем среди них встречаются "сложные" транспозоны, состоящие из более простых, и даже матрёшкообразные структуры из вложенных мобильных элементов.

Задачей данного проекта является написание программы для поиска бактериальных транспозонов, и, при наличии времени, её немедленное применение для расследования конкретных "дел" о захвате и распространении генов антибиотикорезистентности транспозонами.

Задачи проекта
Участникам предстоит написать программу, которая будет:
- Осуществлять поиск прокариотических транспозонов de novo (в том числе сложных транспозонов и матрёшкообразных структур)
- Осуществлять их предположительную классификацию (для этого придётся разобраться с разными типами интеграз)
- Обозначать захваченные транспозонами "дополнительные" гены.
*Если успеем, то используем её для расследования "историй" захвата конкретных генов устойчивости к антибиотикам транспозонами условно-патогенных бактерий (в первую очередь возбудителей вагинозов).

Требования к участникам
- Биоинформатик, который сориентируется в бактериальных геномах, с которыми будем работать. Ещё лучше -- два биоинформатика
- Программист, который будет писать программу на Python
- Биолог, который будет готов разобраться, какие формы принимают прокариотические транспозоны и почитать статьи
Taq полимераза с транскриптазной активностью

Погода Алексей, Муртазина Рамиля | Фрактал Био
Цель: смоделировать и предложить варианты изменений в аминокислотной последовательности Taq полимеразы, чтобы она обрела способность синтезировать ДНК на матрице РНК.
Taq полимераза - термостабильная ДНК зависимая ДНК полимераза. Широко применяется в ПЦР. Обладает высокой скоростью синтеза и 5' экзонуклеазной активностью, что позволяет применять её в real-time ПЦР. Использует в качестве матрицы только ДНК, что не позволяет проводить ПЦР напрямую с РНК и, соответственно, требует дополнительного этапа обратной транскрипции. Текущие разработки в мире, в основном, направлены на придание свойств термостабильности ферменту обратной транскриптазе. Что, на наш взгляд, сужает возможности разработки диагностических методов на основе ПЦР, а именно не позволяет уйти от этапа выделения нуклеиновых кислот. В то время, как есть модифицированные Taq полимеразы, позволяющие проводить ПЦР напрямую без выделения. Основная идея проекта - за счет внесения изменений в первичную последовательность Taq полимеразы снизить её специфичность по используемой матрице.

Задачи проекта
1) Провести анализ известных ДНК и РНК полимераз на выявление основополагающих элементов связанных с субстратной зависимостью.
2) Предположить возможные изменения в первичной структуре и смоделировать изменения в третичной структуре.

Требования к участникам
1) Хорошо бы иметь знания по биофизике.
2) Иметь опыт работы с 3D моделями белков.
Learning what's missing in single-cell Hi-C

Галицына Александра | Skolkovo Institue of Science and Technology
Метод секвенирования единичных клеток (single-cell) захватывает заголовки ведущих журналов и умы ученых. Можно получить даже трехмерную структуру ДНК одной клетки с помощью single-cell Hi-C. Однако данные, полученные этим методом секвенирования, разреженные и шумные. Традиционно, по ним анализируют усредненные глобальные свойства хроматина (например, средние петли хроматина или средние домены), но не говорят о локальных эффектах. Наша задача - разобраться со "спарсностью" данных single-cell Hi-C, подобрать нейронную сеть для улучшения их качества и испытать для проверки биологических гипотез о локальной структуре хроматина.

Результат

Задачи проекта
Предлагаются готовые наборы данных single-cell Hi-C ооцитов и single-nucleus Hi-C зигот мыши из статей Flyamer et al. (Nature 2017), а также Gassler et al. (EMBO Journal 2017). К ним прилагаются соответствующие данные секвенирования для популяций клеток, разметки доменов, петель и компартментов хроматина, а также эпигенетические данные.
В задаче нужно:
1. Подобрать архитектуру сети для улучшения качества разреженной карты single-cell Hi-C. Обучить и протестировать сеть.
2. Сформулировать критерии качества с учетом имеющихся эпигенетических данных и данных на популяциях клеток.
3. Оценить, какие признаки карт важны для работы сети и провести биологическую интерпретацию результатов.

Требования к участникам
Для задачи потребуется хорошее владение методами глубокого обучения, как на практическом, так и на теоретическом уровнях. Не помешает знание статистики.

Ссылки
Check out these awesome single-cell Hi-C papers:
1. "Single-nucleus Hi-C reveals unique chromatin reorganization at oocyte-to-zygote transition" Ilya M. Flyamer et al., Nature 2017: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC56396...
2. "A mechanism of cohesin‐dependent loop extrusion organizes zygotic genome architecture" Johanna Gassler et al., EMBO Journal 2017: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC57308...
Предсказание селективности действия Cry-токсинов

Антонец Кирилл, Данилов Лаврентий | ВНИИСХМ, СПбГУ
Бактерии вида Bacillus thuringiensis являются важными для сельского хозяйства, так как синтезируют белковые Cry-токсины, специфично убивающие насекомых-вредителей. Эти токсины попадают в кишечник насекомого, связываются с мембранным белком-рецептором, а именно с небольшим его эпитопом, и образуют пору в клетках эпителия. Одной из ключевых проблем является подбор токсинов, специфичных в отношении заданного вида насекомых. Не смотря на большое количество известных токсинов, расшифровку трехмерной структуры ряда токсинов и выявления ряда рецепторов, с которыми связываются эти токсины, задача до сих пор не решена, при этом токсины из разных семейств могут быть эффективны против одной группы насекомых и наоборот. Предлагается выявить механизмы, которые определяют специфичность взаимодействия. А именно, научится для последовательностей двух произвольных токсинов определять, насколько близки последовательности пептидов, с которыми они взаимодействуют.

Результат

Задачи проекта
1. Определение аминокислот в последовательности токсинов, влияющих на специфичность их взаимодействия с рецептором.
2. Определение количества замен в рецепторе, которые необходимы для компенсации замен в токсине, чтобы не нарушалось взаимодействие токсин-рецептор.

Требования к участникам
Желательно, чтобы участники умели программировать, работать с базами данных биологических последовательностей, структурами белков, имели представление о машинном обучении.
Раннее распознавание системной воспалительной реакции в ответ на местный инфекционный процесс

Потапов Николай | СПбГЭТУ ЛЭТИ
Сепсис - это опасное для жизни состояние, которое возникает, когда реакция организма на инфекцию вызывает повреждение тканей, недостаточность органов или смерть . В России за 2017 год от сепсиса погибло более 15 тысяч человек. Во всем мире же, по оценкам, у 30 миллионов человек активно развивается сепсис, а 6 миллионов человек умирают от сепсиса ежегодно. По данным ВОЗ, поражено также 4,2 миллиона новорожденных и детей. Сепсис обходится больницам дороже, чем любое другое состояние здоровья и большая часть этих расходов предназначена для пациентов с сепсисом, которые не были диагностированы при поступлении. Главная опасность в том, что развивающиеся страны подвергаются наибольшему риску. В целом, сепсис является основной проблемой общественного здравоохранения, ответственной за значительную заболеваемость, смертность и расходы на здравоохранение.

Результат

Задачи проекта
1. Изучить имеющиеся исследования в предметной области.
2. Найти примеры открытых данных, пригодные для анализа.
3. Разработать алгоритм с открытым исходным кодом, который будет определять риск сепсиса у пациента на основе представленных данных.
4. Классифицировать полученные с использованием алгоритма данные для предсказания дальнейшего развития заболевания.
5. Разработать пользовательский интерфейс для работы с системой анализа.

Требования к участникам
Для решения поставленной задачи необходимы специалисты следующих направлений:
• специалист биомедицинского профиля;
• специалист по анализу данных и ML(Python);
• специалист по разработке web-приложений(JS);
• специалист по BigData(Scala, Java, Spark).
Консалтинг-платформа для биологов

Чукреев Константин | EMBL, Rome
Как много информации из своих экспериментов биологи не получают просто из-за того, что не анализируют данные со всех сторон? Лаборатории зачастую проводят масштабные эксперименты ради пары вопросов, но ничего не мешает показать весь спектр и натолкнуть на новые.
В этом проекте мы попробуем выжать максимум из всех датасетов single-cell секвенирований от одной конкретной римской лаборатории. Соберем "джентельменский набор" инструментов, которые пригодятся для валидации, вдохновения и дальнейших исследований. Важно не высвечивать что-то конкретное, а дать много оценок происходящего из разных сфер.
В идеале платформа должна представлять собой разносторонний отчет о предложенных датасетах: взаимосвязь друг с другом, положение на общем атласе организма, стастические различия и т д.
Поможем биологам знать об их датасетах больше, чем пара циферок!

Задачи проекта
1. Соберем воедино все данные и поймем, какие у нас есть возможности и ограничения
2. Поштурмим основные разделы, которые потенциально заинтересуют лабораторию, проводящую подобные эксперименты
3. Найдем существующие инструменты и напишем простые версии своих
4. Начнем с простых задач по типу картирования на атлас клеток и потихоньку будем двигаться в сторону применения GAN для реконструирования траекторий эволюции
5. Совместными усилиями соберем это в какой-то отчет-презентацию о проведенных экспериментах с заделом на автоматизацию.

Требования к участникам
Команде лучше всего быть "разношерстной" биологам предстоит проводить экспертизу и оценивать адекватность предложений (насколько нам вообще нужно знать ту или иную информацию?), а биоинформатикам и программистам попытаться реализовать простые решения за ограниченное время. Проект легко масштабируется на количество участников: каждый может делать свой кусочек платформы.
организаторы biohack 2019