BioHack 2017

Первый хакатон по биоинформатике BioHack2017

В 2017 году впервые в Санкт-Петербурге прошел BioHack 2017. Основной целью проведения BioHack — было объединение талантливых, инициативных и амбициозных профессионалов и энтузиастов в области биоинформатики для развития перспективных идей и ИТ-решений для биологии и современной медицины. Партнером мероприятия стал Университет ИТМО, на площадке которого собрались участники и руководители проектов. Каждая команда объединила в себе начинающих специалистов из областей биологии и IT.

Сервис для анализа данных по болезни Альцгеймера, мобильное приложение для знакомства с основами биоинформатики, предсказание сайтов посадки транскрипционных факторов в геноме, создание программного обеспечения для определения перинатального риска, интерактивный анализ большого объема данных RNA-seq, микросервисы в облаке для биоинформатики — это далеко не весь список амбициозныз проектов, представленных на хакатон.

После 48 часов упорной работы участниками были представлены результаты. Призерами BioHack стали команды проектов «Исследование связанных состояний молекул воды в интерфейсах биомакромолекул» и «Горизонтальный перенос генов бактериофагами в метагеномах». Первое место жюри присудило проекту, в рамках которого предлагалось с помощью анализа генома животного реконструировать демографическую историю его вида – события и их последствия, которые сформировали геном именно таким, каким его можно наблюдать сейчас.
ПОБЕДИТЕЛИ BIOHACK 2017
1 место | 100 000

Владислав Мыров, Иван Сосин, Екатерина Носкова, Игорь Бездворных

Проект: Анализ демографической истории по геномным данным
Руководитель: Павел Добрынин

2 место | 70 000
Ксения Черенкова, Даниил Никитин, Наталья Зорина, Артур Позняк, Людмила Корнилова

Проект: Горизонтальный перенос генов бактериофагами в метагеномах
Руководитель: Елизавета Старикова

3 место | 50 000

Артур Залевский, Александр Злобин, Севастьян Рабдано

Проект: Исследование связанных состояний молекул воды в интерфейсах биомакромолекул
Руководитель: Алексей Швецов
список проектов biohack 2017
База российских MAF

Андрей Афанасьев | iBinom
Цель проекта — на базе пары десятков экзомов научиться строить базу Minor Allele Frequncies российской популяции.

Задачи
В минимальном виде — научиться собирать таблицу MAF из выдаваемых vcf и сделать минимальный web-сервис, принимающий номер хромосомы, позицию и нуклеотид и выдающий в ответ частоту встречаемости или ""none"". В качестве референса использовать hg19.

Дальше можно улучшать это многими способами. Например, сделать версию под hg38, описать CNV и т.д. и т.п. Можно вдохновляться https://github.com/konradjk/exac_browser и http://exac.broadinstitute.org/.

Требования к участникам
Желательно, чтобы участники понимали, что такое MAF и VCF и умели программировать.
Что известно про человеческие белки?

Илья Корвиго, Андрей Афанасьев | МФТИ
Существует набор качественно проаннотированных белковых замен humsavar, собранный в рамках базы данных UniProt. Эти данные часто используются для обучения автоматических классификаторов вредоносных мутаций. Поскольку все связанные с перечисленными мутациями заболевания должны быть сравнительно хорошо изучены, возникает интерес проверить покрытие соответствующих белков несколькими типами экспериментальной информации.

Задачи
Установить, какую долю всех человеческих белков покрывают варианты из humsavar. Для каждого белка оценить покрытие следующими типами информации
1. Сайт-направленный мутагенез.
2. Белок-белковые взаимодействия.
3. 3D-структуры (хотя бы для одного функционального домена белка)

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Крайне поможет знание BioPython: пакет содержит парсеры для многих баз данных.
Могут пригодиться навыки SQL.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.
Анализ локомоторного поведения дрозофилы

Геннадий Захаров | Институт физиологии им. И.П. Павлова, EPAM
Метод анализа движения (локомоторного поведения) часто применяется для быстрой проверки экспериментальных животных на наличие нарушений в работе нервной системы. Коммерческие пакеты для анализа локомоции по видеозаписи ориентированы в основном на доклинические исследования и цена их, как правило, слишком высока для фундаментальных лабораторий в России, а открытые программные пакеты для записей, получаемых в лаборатории нейрогенетики ИФ РАН, по разным причинам плохо пригодны.

Участникам проекта предлагается оптимизировать существующее ПО или разработать собственное, которое позволило бы улучшить скорость и точность анализа локомоторного поведения.

Задачи
Разработка программы для анализа видеозаписей, способной выполнять следующие действия:
1. Получать на вход видеозапись локомоторного поведения.
2. Устранять искажения записи, связанные с положением камеры (barrel distortion, …). Параметры для устранения искажений может подобрать экспериментатор, автоматизация их подбора не требуется.
3. Определять положение мух на видеозаписи, строить траекторию движения, возможно определять дополнительные параметры (ориентация мухи).
4. Вычислять по полученной траектории параметры, по которым можно было бы классифицировать движение.

Требования к команде
Любые навыки, связанные с анализом видео и изображений (фильтрация изображений, вычитание фона, object tracking).

ПРЕЗЕНТАЦИЯ
Эволюция кодирующих последовательностей в человеческих популяциях

Илья Корвиго, Андрей Афанасьев | МФТИ
Важным инструментом для предсказания эффектов мутаций является оценка консервативности позиций в геноме. Такой подход, правда, часто приводит к ложно-положительным результатам (когда мутация предсказывается как патогенная). Это связано с тем, что отбор по позиции, идущий в течение десятков и сотен миллионов лет, стремится найти наиболее оптимальное состояние для белка, что не всегда означает, что переход в другие состояния сказывается на функции белка настолько, чтобы вызвать заметные отклонения в фенотипе. Соответственно, с эволюционной точки оценка кратковременных флуктуаций последовательности вокруг локального оптимума может служить куда более показательной мерой для предсказания патогенности мутаций. В рамках этого проекта предлагается использовать популяционные данные для анализа этой проблемы.

Задачи
1. Используя популяционную информацию из базы данных Exac, оценить dn/ds-статистику по каждому человеческому белку по всем популяциям вместе взятым.
2. Используя популяционную информацию из базы данных Exac, оценить dn/ds-статистику по каждому человеческому белку по топ-5 популяций (по представленности в базе) отдельно.
3. Найти белки, консервативность которых сильно разнится между популяциями.

Требования к участникам
Навыки работы с биологическими последовательностями. Базовая сравнительная статистика.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.
В каких белках мутации предсказываются лучше?

Илья Корвиго, Андрей Афанасьев | МФТИ
На данный момент разработано большое множество автоматических классификаторов патогенности аминокислотных замен. Все они работают с разной точностью и часто дают противоречивые результаты. Мы предлагаем оценить, на каких подмножествах функциональных групп белков (выраженных в виде терминов GO по разметке доменов) разные скоры работают лучше/хуже.

Задачи
1. Используя разметку доменов из pfam, составить разбор белков из базы VariBench по функциональным доменам.
2. Для каждого функционального домена перечислить термины GO.
3. Оценить полноту и точность предсказания эффекта мутаций для скоров Polyphen-2, SIFT, FATHMM, MutationTaster, MetaLR, CADD, Eigen, DANN, DeepEVS. Для этого использовать базу предсказаний dbNSFP 3.2
4. Оценить для каждого скора, в доменах с какими терминами GO скор работает лучше/хуже.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы). Базовая описательная статистика.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.
Мобильное приложение, знакомящее с основами биоинформатики

Юлия Кондратенко | Институт биоинформатики
Цель проекта — создать мобильное приложение с одной или несколькими играми, знакомящими пользователя с важными биоинформатическими понятиями — такими, как комплементарность нуклеотидов, выравнивание последовательностей, сборка генома. Пример игры для знакомства с понятием выравнивания – внизу экрана расположен геном, сверху, как в тетрисе, падает рид. Пользователю нужно, перемещая рид вправо и влево, добиться как можно лучшего выравнивания. Чем лучше выравнивание, тем больше очков получает пользователь.

Задачи
Реализовать хотя бы одну игру в виде приложения на платформе Android. Желательно создать систему с несколькими уровнями сложности – например, в случае выравнивания, рид может все больше отличаться от матрицы, и выровнять его становится все сложнее.

Интересно реализовать систему, которая подстраивала бы сложность игры под успехи пользователя. Опционально можно встроить систему достижений — например, когда пользователь набирает определенное число очков, он изучил бактерию, а потом и что-то более сложное.

Требования к участникам
Знание Java и базовых биоинформатических алгоритмов, желателен опыт разработки мобильных приложений.
Чем открытая HGMD отличается от ClinVar?

Илья Корвиго, Андрей Афанасьев | МФТИ
Существует известная платная база патогенных мутаций HGMD, которая, тем не менее, предоставляет открытую версию. Принято считать, что эта база данных содержит больше всего качественных данных об аминокислотных полиморфизмах. Так ли это?

Задачи
1. Построить сопоставление между координатами аминокислотных замен в номенклатуре HGMD и ClinVar.
2. Оценить размеры пересечения, объединения и дополнения HGMD и ClinVar.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы). Крайне поможет знание BioPython.

Результаты этого проекта будут использованы в публикациях. В случае успешного выполнения, все участники будут перечислены в качестве соавторов соответствующих работ.
Горизонтальный перенос генов бактериофагами в метагеномах

Елизавета Старикова | ФНКЦ физико-химической медицины
Объект интереса — это бактериофаги. Иногда они переносят функциональные гены от бактерии к бактерии, таким образом вмешиваясь в их метаболизм. Нас интересуют не модельные бактериофаги, а совокупность всех существующих в природе. Самый очевидный способ их обнаружить — использовать метагеномные данные.

Цель исследования — найти последовательности бактериофагов, переносящих "чужеродные" гены, в метагеномных контигах. Существует несколько инструментов для поиска профагов, но у них есть недостатки. Мы попробуем их обнаружить своим способом (либо модифицировать алгоритмы, использующиеся в существующих инструментах).

Задачи
1. Предсказать белок-кодирующие последовательности в метагеномных контигах.
2. Определить фаговые и нефаговые гены с использованием HMM.
3. Выделить регионы с высоким содержанием фаговых генов.
4. Определить функциональные бактериальные гены в составе этих регионов.
5. (Опционально) Поискать в окружении полученных (про-)фагов сайты связывания.

Требования к участникам
Знания в области молекулярной биологии будут крайне полезны.
Умение работать с основными биоинформатическими инструментами.
Способность распарсить файл.
Знание статистики и R (не обязательно виртуозное).
Поиск партнёров по взаимодействию для инсулина

Оксана Галзитская | Институт белка РАН
Используя опубликованные базы данных, создать протеомную карту взаимодействий для инсулина: включая белки и небольшие молекулярные реакции, связанные с диабетом.

Задачи
1. Используя опубликованные базы данных (STRING, BIOGRID, PUBMED, UNIPROT и другие), создать протеомную карту взаимодействий для инсулина.
2. Проверить пересечение данных по различным базам данных.

Требования к участникам
Навыки парсинга баз данных (включая xml-файлы).
Знание BioPython.

Результаты этих проектов будут использованы при написании статей, участники проектов войдут в число соавторов.
What's the buzz about или что можно узнать о заболевании вооружившись pubmed и словарем

Оксана Галзитская, Никита Довидченко | Институт белка РАН
Cуществует агрегатор библиографической информации медико-биологической направленности под названием pubmed (www.pubmed.com). Кроме непосредственно ссылок на статью и ее абстракт, сервис предоставляет набор ключевых слов, ассоциированных со статьей (например, термины MeSH), а также cписок химических веществ, упоминаемых в статье. Данные о веществах и описание интересующих терминов можно посмотреть в сервисе UMLS (словарь MeSH один из словарей, на которых построен UMLS).

Участникам нужно собрать данные о болезни Альцгеймера.

Задачи
1. Что находилось в фокусе внимания n лет назад и куда он сместился на данный момент.
2. Какие вещества и почему активнее всего изучались ранее, и каким веществам сейчас уделяется наибольшее внимание.

Требования к участникам
В команде желательно иметь как биологов (чтобы верифицировать полученные данные), так и программистов
(написание оболочки к ncbi api, UMLS api, знание xml/json парсеров).
Навыки написания оболочек под REST API.
Навыки парсинга (xml, json).
Анализ демографической истории по геномным данным

Павел Добрынин | Институт биоинформатики
Демографическая история вида оставляет следы в геноме. Анализируя эти следы, можно пытаться реконструировать различные события и их последствия, которые сформировали геном животного в том виде, в каком мы его наблюдаем сейчас.

Задачи
1. Подготовка популяционных данных для работы.
2. Построение демографических моделей.
3. Сравнение наблюдаемых данных с тем, что предсказывает модель.

Требования к участникам
Знание Python, или желание освоить его на рудиментарном уровне =)
Предскажи их всех!

Николай Панюшев | СПбГУ
Предсказание сайтов посадки транскрипционных факторов в геноме — непростая задача, которую пытаются решать многие биоинформатические лаборатории. Тем не менее, чтобы предсказать, экспрессия каких генов изменится в ответ на транскрипционный фактор, нет необходимости рассматривать все гены организма. Многие гены в норме не транскрибируются в клетках взрослого организма.

Поэтому, чтобы получить данные, об уровне транскрипции конкретного гена, приходится принимать во внимание профиль экспрессии генов в данном типе клеток, знать расположение регуляторных элементов в геноме, где транскрипционные факторы взаимодействуют с ДНК, и т.п. А если интересно, какие гены отвечают на активацию известного транскрипционного фактора в малоизученном типе клеток, для которого имеется ограниченное число экспериментов? Очевидно, экстраполировать эти данные на новый тип клеток.

Участникам проекта предлагается реализовать алгоритм, который позволит использовать данные секвенирования для построения модели и последующего выдвижения биологических гипотез по уровню транскрипции генов.

Задача проекта — разработка программы для анализа данных секвенирования.
1. Получать на вход обработанные NGS-эксперименты в виде текстовых файлов (Chip-seq, RNA-seq, etc.).
2. Выявлять закономерности, влияющие на экспрессию генов в модельном типе клеток.
3. Предсказывать уровни транскрипции в экспериментальных клетках.

Требования к участникам
В команде должны обязательно присутствовать биологи и информатики.
Желательно знакомство с методами машинного обучения.
Интерактом протеоформ человека

Михаил Пятницкий | Институт биомедицинской химии имени В. Н. Ореховича
Международный проект «Протеом человека», о начале которого было объявлено 23 сентября 2010 года в Сиднее, является логичным продолжением проекта «Геном человека». Координатором выполнения российской части проекта «Протеом Человека» является Научно-исследовательский институт биомедицинской химии имени В.Н. Ореховича. Основная цель проекта «Протеом человека» — инвентаризация всех белков человека и выяснение взаимодействий между ними. Одним из результатов выполнения проекта должна стать карта интерактома белков человека.

Целью данного проекта является выявление сходства и различий между интерактомными профилями сплайс-вариантов одного белка. Источником данных для построения интерактомных профилей является протеомный ресурс GPMDB, среди прочего содерщащий результы идентификации белков, полученных методом аффинной очистки (AP-MS). В проекте предполагается использование так называемого метода виртуальной ко-преципитации (ВКП). Метод заключается в выявлении белков, совместно идентифицированных в наборе экспериментов, выполненных методом аффинной очистки в сочетании с масс-спектрометрией. В основе ВКП лежит гипотеза, что взаимодействующие белки должны чаще идентифицироваться совместно в масс-спектрометрических экспериментах, чем не взаимодействующие.

Задачи
1. Из базы данных GPMDB получить список экспериментов, выполненных методом аффинной очистки (AP-MS).
• Убедиться в специфичности экспериментов;
• Проверить, что эксперименты выполнены для белков человека.
2. Для каждого эксперимента получить список белков, детектированных в нем и перечень пептидов, по которым идентифицировали белки. Удалить белки, которые были идентифицированы по критериям, не удовлетворяющим требованиям HUPO (http://www.thehpp.org/guidelines/). Разделить идентифицированные белки на канонические изоформы, сплайс-изоформы и те, где невозможно определить изоформу.
3. Для каждого белка построить его интерактомный профиль: перечень белков, с которыми он был идентифицирован в одних и тех же экспериментах.
4. Выявить случаи, в которых интерактомный профиль канонической и сплайс-изоформы существенно отличаются. Предоставить гипотезу биологического значения этого различия.

Требования/пожелания к участникам
Навык работы с базами данных – формирование запросов в автоматическом режиме.
Владение языком программирования для автоматической обработки текста.
Понимание особенностей дизайна масс-спектрометрических экспериментов, в частности экспериментов с использованием афинной очистки (AP-MS).
Знание строения, структуры белков и методов их идентификации.
Понимание структуры и умение работать с такими ресурсами как UniProt, GPMDB.
Навык статистической обработки данных.

ПРЕЗЕНТАЦИЯ
Программное обеспечение для определения перинатального риска

Анна Малкова | СПбГУ
Для определения риска перинатальных осложнений в акушерской практике используется шкала О. Г. Фроловой и Е. И. Николаевой в модификации В. Е. Радзинского, И. Н. Костина. Это позволяет врачам продумать тактику ведения беременности, дабы избежать серьезных патологий как у матери, так и у ребенка. Для расчета риска необходимо учитывать порядка 50 характеристик пациента, часть из которых постоянные (например, наличие абортов ранее), а часть меняются ежедневно (например, артериальное давление). В данный момент в большинстве государственных клиник эта работа проделывается вручную, на бумаге.

Участникам хакатона предлагается разработать программу, основная задача которой — на базе указанной шкалы высчитывать риск по текущим показателям пациента. Так как часть показателей меняются во время беременности, усовершенствованием программы будет создание функционала для отслеживания динамики состояния женщины. Графическое представление меняющихся параметров позволит наглядно оценить эффективность назначенных методов лечения.

Задачи
Создать программу для определения перинатального риска по вводимым параметрам пациента.
Добавить возможность просмотра истории параметров, измеренных в разные даты, в виде графиков.

Требования к участникам
В команде должен быть минимум один биолог/медик и программист.

Дополнительно
Пример системы расчета перинатального риска (шкала О. Г. Фроловой и Е. И. Николаевой)
Контроль пациентов после выписки

Михаил Папков | Институт биоинформатики
При некоторых типах операций необходимо длительное наблюдение за пациентами после выписки. Поскольку пациенты наносят повторные визиты неохотно (особенно если приехали из другого города), можно проводить опросы о самочувствии автоматически, при надобности уведомляя лечащего врача. Важно удобство системы как для врача, так и для пациента.

Задачи
1. Реализация базы данных пациентов.
2. Создание удобного для врачей фронтенда.
3. Автоматизация опроса (возможны варианты: от телеграм-бота до обзвона роботом с ответами в тональном режиме).

Требования к участникам
Врач или человек из околомедицинской среды, понимающий процесс ведения пациента и желания других врачей;
3-4 программиста, желательно обладающие пониманием проблемы и чувством прекрасного (примерно по одному на задачу).

Дополнительно
Потребность в подобной системе высказали сотрудники НИИ детской онкологии, гематологии и трансплантологии им. Р.М. Горбачевой. Команда практически сформирована, но к предложениям открыта.
организаторы biohack 2017