BioHack 2018

Второй хакатон по биоинформатике BioHack2018

В 2018 году офис компании ЕРАМ в Санкт-Петербурге собрал 100 лучших участников с 30 городов России, которые прошли конкурсный отбор. В составе каждой команды были биологи и программисты. В течение 48 часов 22 команды решали прикладные задачи от МФТИ, Медико-генетического научного центра, Института белка РАН, ФНКЦ физико-химической медицины, Института биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова Российской академии наук, Institut Pasteur и других работающих в сфере биоинформатики научных центров, лабораторий и независимых институтов.

Модель, позволяющая предсказывать развитие нейродегенеративных заболеваний, нейросеть, которая по входным данным выдает матрицу, имитирующую HiC карту, приложение для ранжирования вариаций по предполагаемой клинической значимости, интерактивный анализ большого объема данных RNA-seq, микросервисы в облаке для решения биоинформатических задач, модели идентификации личности по ЭКГ — выбирать задачи для реализации из почти 40 вынесенных на хакатон тем каждый из участников мог по своему вкусу и компетенциями. За неделю до хакатона у участников была возможность выбрать проект и зарегистрироваться командой.
ПОБЕДИТЕЛИ BIOHACK 2018
1 место | 100 000 | команда Good Vibrations

Станислав Наумов, Александр Кислюк, Севастьян Рабдано, Сергей Беломестных, Кирилл Быков

Проект: Анализ звукопродукции дрозофилы
Руководитель: Геннадий Захаров

2 место | 70 000 | команда m(олот)TORa

Герман Осьмак, Пётр Цуринов, Пётр Болотин, Артём Ильин, Наталия Сухих

Проект: Регуляция сигнального пути mTOR факторами плюрипотентности
Руководитель: Николай Панюшев

3 место | 50 000 | команда No PasaRAN!

Дмитрий Смирнов, Ярослав Соловьев, Алёна Кизенко, Лаврентий Данилов, Наталья Родина

Проект: Поиск возможных сайтов RAN трансляции
Руководитель: Антон Бондаренко


Специальный приз, команда AUsome

Александра Малышева, Станислав Беляев, Юрий Ребрик, Георгий Новиков, Ирина Пахомова

Проект: Разработка метода оценки предполагаемой клинической значимости вариаций при помощи методов машинного обучения
Руководитель: Геннадий Захаров

Специальный приз, команда Phage in rage

Антон Шиков, Ольга Бойченко, Андрей Цибин, Екатерина Белякова, Вадим Данилов

Проект: Бактериофаги в метагеномах крови человека
Руководитель: Елизавета Старикова

Специальный приз, команда .bedcode corporation

Денис Клеверов, Максим Клеверов, Роман Бельтюков, Любовь Курафеева, Александра Галицына

Проект: Предсказание 3D организации структуры хромосомы
Руководитель: Сергей Колченко
список проектов biohack 2018
Предсказание 3D организации структуры хромосомы

Сергей Колченко | Institut Pasteur
В последние годы выходит большое количество статей, в которых анализируется структура хромосомы в использованием метода HiC, который позволяет создавать карты "взаимодействий" отдельных участков ДНК. Однако существующие модели, которые описывают такие "карты" не могут в полной мере отобразить всю вариабельность структуры. В данном проекте участникам предлагается написать нейросеть, которая по входным данным (Сhip-seq, ATAC-seq, эпигенетические характеристики и линейная последовательность нуклеотидов) моделировала бы "карту" структурной организации хромосом.

Результаты

Задачи
1. Разобраться со статьей ncbi.nlm.nih.gov/pmc/articles/PMC5651218/
2. Разобраться с пакетом github.com/mirnylab/cooler
3. Сгенерировать обучающую и валидирующие выборки из существующих HiC карт, описать их на языке входных данных 4. Написать нейросеть, которая бы по входным данным выдавала матрицу, имитирующую HiC карту.

Требования к участникам
Знание Python (в стандартном объеме - pandas, numpy, scipy, желательно biopython), опциональное знание нейросетей (в целом + фреймворка Keras) и машинного обучения (как составлять выборки, как бороться с переобучением, как визуализировать результаты). Желательно знание биологии для понимая того, что такое Chip-seq и ATAC-seq, как они работают и что могут показать.
Поиск возможных сайтов RAN трансляции

Антон Бондаренко | Университет ИТМО
Для ряда нейродегенеративных заболеваний (Спиноцеребральная атаксия, миотоническая дистрофия, БАС (боковой амиотрофический склероз) и ФТД (фронтотемпоральная деменция), болезнь Хантингтона) показано образование ранее неизвестных белков с характерными аминокислотными повторами, получаемых в результате активации механизма RAN трансляции. RAN трансляция происходит при наличии определенных гомоповторов в интронах ряда генов. Количество повторов коррелирует с развитием заболеваний. Существует предположение, что определенные трех/шести-нуклеотидные повторы способствуют укладке мРНК в особые вторичные IRES-подобные структуры (G-квадруплексы и др), способствующие связыванию свободных рибосом и белков-факторов активации трансляции эукариот. Эти белки способны образовывать агрегаты между собой и с РНК в цитоплазме клетки.

Результаты

Задачи
1. Распарсить геномы здоровых доноров и с нейродегенеративными заболеваниями.
2. Проанализировать геномы на наличие гомоповторов определенной длины.
3. Построить модель, позволяющую предсказать развитие определенного нейродегенеративного заболевания при увеличении числа выявленных повторов в интронах выявленных генов.
4. Проанализировать последовательности интронов, богатых повторами:
а) с помощью QGRS Mapper/QuadBase2 предсказать возможность наличия G-квадруплексов
б) получить вероятные последовательности белков, на основе поиска близлежащих стоп-кодонов, проанализировать с помощью поиска консервативных доменов NCBI conserved domain.

Требования к участникам
Фундаментальные знания молекулярной биологии, понимание механизмов траскрипции/трансляции. Знание Python, умение работать с биологическими базами данных.
Анализ звукопродукции дрозофилы

Геннадий Захаров | Институт физиологии им. И.П. Павлова, EPAM
Запись звуковых сигналов, которые издает самец мухи-дрозофилы в процессе ухаживания за самкой, позволяет получить достаточно много информации о работе его нервной системы. Используемые для анализа компоненты песни известны, но точность их детектирования в данный момент невелика и все без исключения записи требуют ручной проверки и обработки.

Участникам проекта предлагается разработать подход, который позволил бы улучшить точность детектирования компонентов песни и сократил бы количество ручной работы.

Результаты

Задачи
Необходимо разработать программу для анализа аудиозаписей, способную выполнять следующие действия:
1. Получать на вход аудиозаписи в формате wav.
2. Находить в этой записи участки импульсной и синусной песни.
3. Экспортировать полученные результаты.

Требования к команде
Любые навыки, связанные с анализом сигналов (звуки, спектрограммы и т.д.)
Регуляция сигнального пути mTOR факторами плюрипотентности

Николай Панюшев | Институт Цитологии РАН, СПбГУ
Участникам предлагается ответить на вопрос - могут ли факторы плюрипотентности (Klf, Sox2, Oct4, Nanog) регулировать экспрессию генов, участвующих в сигнальном пути mTOR. Для этого необходимо проанализировать данные экспериментов по связыванию факторов плюрипотентности с ДНК и, желательно, данных об экспрессии из публичных баз данных. После обработки этих данных участники смогут ответить на вопрос, как активация пути mTOR способна изменить состояние плюрипотентности.

Результаты

Задачи
Найти все датасеты, провести весь пайплайн обработки Сhip-seq и RNA-seq, проанализировать и интерпретировать данные.

Требования к участникам
Опыт работы с геномными данными, R и/или Python, разбираться в биологии для интерпретации данных.
Предсказание профагов и транспозонов в бактериальных геномах

Елизавета Старикова | ФНКЦ ФХМ
Ученым, занимающимся геномикой прокариот, иногда нужно определять последовательности профагов (бактериофагов, встроенных в геном бактерии). На данный момент не существует достойной программы для командной строки, которая позволяла бы это делать, поэтому мы разрабатываем свою. Частично эта задача была реализована на BioHack-2017, однако у нашего подхода есть недостаток: он не позволяет отличать "настоящие" профаги от скоплений транспозонов и деградировавших мобильных элементов. Участникам предлагается написать скрипт, позволяющий классифицировать профаги и транспозоноподобные элементы на основании последовательности генов.

Результаты

Задачи
1. Предсказать вирусоподобные гены в геномах бактерий с известными профагами и известными транспозонами.
2. Написать скрипт, позволяющий отличать "жизнеспособные" профаги от деградировавших, а также от скоплений транспозонов на основании информации о функциях генов.
3. Протестировать работу скрипта на "тёмной материи" - сборках неизвестных профагов, встроенных в неизвестные бактерии.

Требования/пожелания к участникам
Знание Python, базовые знания по биологии, готовность прочесть несколько статей по геномике вирусов.
Поиск случаев горизонтального переноса ДНК ретровирусами человека

Елизавета Старикова | ФНКЦ ФХМ
Человеческие ретровирусы, такие как ВИЧ и Т-лимфотропный вирус, в течение своего жизненного цикла встраиваются в геном человека, оставаясь там какое-то время в качестве провируса, после чего при возможности покидают клетку. Отсюда возникает вопрос: могут ли вирусы "ошибаться", захватывая с собой часть человеческой ДНК? Это бы означало, что возможен горизонтальный перенос ДНК от одного человека к другому. Участникам предлагается проанализировать виромы людей, зараженных ВИЧ и Т-лимфотропным вирусом, в поисках химерных последовательностей.

Результаты (в течение работы проект был изменнён на Бактериофаги в метагеномах крови человека)

Задачи
Проанализировать виромы крови больных и найти химерные последовательности.

Требования/пожелания к участникам
Умение работать в командной строке Linux (будем запускать базовые биоинформатические инструменты)
Готовность прочитать и понять пару статей про жизненный цикл вирусов
Осознание авантюрности проекта и моральная готовность к получению отрицательного результата :)
Разработка метода оценки предполагаемой клинической значимости вариаций при помощи методов машинного обучения

Геннадий Захаров | Институт физиологии им. И.П. Павлова, EPAM
Бурное развитие технологий секвенирования следующего поколения (NGS) сделало возможным использование полноэкзомного секвенирования не только для проведения клинических исследований, но и для клинической диагностики.

По современным стандартам диагностический отчет должен быть проверен и утвержден специалистом-медиком. Так как экзомный сиквенс содержит порядка 40-50 тыс вариаций, очень важной задачей для облегчения работы специалиста является правильная приоритезация обнаруженных вариаций. Вариации с максимальной предполагаемой клинической значимостью желательно предоставлять для проверки в первую очередь.

Большое количество существующих в настоящий момент алгоритмов для ранжирования и оценки клинической значимости вариаций говорит об отсутствии решения, которое было бы существенно лучше других и могло бы служить в качестве стандарта для индустрии. Команде предлагается применить методы машинного обучения для того, чтобы разработать собственное решение на основании данных оценок имеющихся алгоритмов.

Результаты. Команда AUsome
Результаты. КомандаЧитатели генома

Задачи команды
1. Создать при помощи методов машинного обучения приложение для ранжирования вариаций по предполагаемой клинической значимости.
2. Протестировать полученное решение, оценить качество работы.
3. Опционально: применить полученное решение к секвенированному экзому.

Требования к участникам
1. Наличие как минимум одного человека (биолога), знакомого с технологиями секвенирования и способного объяснить команде, что такое вариации, клиническая значимость и ее оценка. Поможет опыт работы с анализом вариаций.
2. Наличие как минимум одного человека (программиста) знакомого с методами машинного обучения и способного объяснить команде, как их применять и что для этого требуется.
3. Команде поможет наличие навыков работы в командной строке Linux (для подготовки и фильтрации входных данных).
В команде должен быть минимум один биолог/медик и программист.

Используемые данные
Для обучения планируется использовать исходные данные из открытых баз gNOMAD и ClinVar.
Для создания собственной ранжировочной функции команда может использовать любые имеющиеся алгоритмы и функции (SnpEff, PolyPhen, SIFT, Mapp).
Предсказание антигенной специфичности Т-клеточных рецепторов

Михаил Шугай | ИБХ РАН
Технология высокопроизводительного секвенирования репертуара последовательностей Т-клеточных рецепторов (ТКР) в последние годы стала одним из основных инструментов в исследовании структуры адаптивного иммунитета. Согласно результатам последних исследований, базовые характеристики репертуаров, такие как разнообразие и статистики V-D-J сборок, могут быть использованы как эффективные биомаркеры для предсказания результатов иммунотерапии рака и стратификации пациентов с аутоиммунными заболеваниями. Тем не менее, подобный подход не позволяет детально изучить профиль антигенных специфичностей, зашифрованный в репертуаре ТКР.

В рамках данного проекта предлагается использовать базу данных VDJdb, содержащую более 20,000 последовательностей ТКР с известной специфичностью (VDJdb), для разработки алгоритмов кластеризации последовательностей ТКР со сходной антигенной специфичность и алгоритмов аннотации данных высокопроизводительного секвенирования репертуара ТКР на предмет конкретных специфичностей.

Подобный инструмент позволит значительно расширить возможности обозначенной методологии для поиска биомаркеров инфекционных и аутоиммунных заболеваний, а также последовательностей ТКР специфичных к неоантигенам опухолей, переводя технологию секвенирования репертуаров из экспериментальных методик в один из важных инструментов персонализированной медицины.

Результаты

Задачи
1. Создание метрики, позволяющей оценивать функциональную похожесть последовательностей Т-клеточных рецепторов (ТКР), а именно отражающей их способность распознавать один и тот же антиген.
2. Разработка алгоритма предсказания специфичности данного ТКР к определенному антигену, с использованием базы данных последовательностей ТКР с известной специфичностью.
3. Аннотация данных высокопроизводительного секвенирования репертуаров ТКР, предсказание спектра антигенной специфичности репертуара.

Требования к участникам
Команда должна состоять из биоинформатиков и/или программистов с хорошими навыками в области data science/machine learning. Навыки программирования в R/Python. Опыт анализа данных высокопроизводительного секвенирования, хорошие знания различных статистических методов, анализа белковых последовательностей и структурных данных, навыки в области deep learning и Natural-language processing приветствуются.
Эпигенетические маркеры дифференцировки клеток

Роман Чернятчик | JetBrains BioLabs
Известно, что эпигенетическая информация передается по наследству во время эмбрионального развития при дифференцировке тканей. Согласно статье "Immunogenetics. Chromatin state dynamics during blood formation." (https://www.ncbi.nlm.nih.gov/pubmed/25103404) по данным H3K4me1 в энхансерах и транскрипции можно построить дерево дифференцировки иммунных клеток. Цель проекта найти и описать модификации гистонов и места их связывания с ДНК, идентифицирующие процесс дифференцировки клеток. Такие знания помогут лучше понять эпигенетические особенности эмбрионального развития. Данные по гистонным модификациям предлагается взять из проекта: http://www.roadmapepigenomics.org.

Результаты

Задачи
1. Для тканей, используемых в http://www.roadmapepigenomics.org, описать иерархию дифференцировки клеток исходя из биологических знаний.
2. Выделить классы потенциально интересных мест на геноме, которые могли бы быть полезны для решения задачи (например: энхансеры, промоутеры, CpG острова и тп).
3. Найти комбинации модификаций гистонов с местами их связывания с геномом, позволяющие иерархически кластеризовать клетки максимально близко к их биологической структуре.


Требования к участникам
Биологи: базовые знания эпигенетики.
Программисты: знание различных алгоритмов Machine Learning; умение программировать на Python (pandas, numpy, scipy и тп.)
Поиск и предсказание функций белков с аспарагиновыми повторами для белков протеома Plasmodium falciparum

Оксана Галзитская | Институт белка РАН
Известно, что у данного протеома много белков с аспарагиновыми повторами. С помощью биоинформатического анализа найти такие белки и определить функции этих белков. Найти среди них прионо-подобные белки.

Результаты

Задачи
С помощью биоинформатического анализа найти белки с аспарагиновыми повторами и определить функции этих белков.С помощью известных программ найти среди них прионо-подобные белки.
Биоинформатический, эволюционный и структурный анализ белков семейства FET

Оксана Галзитская | Институт белка РАН
Биоинформатический, эволюционный и структурный анализ белков семейства FET (FUS, EWS и TAF15) позволит лучше понять основные принципы работы прионо-подобных доменов и их участие в полифункциональности данных белков.

Для понимания механизма сборки и разборки СГ, необходимо узнать, какие участки цепи РНК-связывающих белков могут выполнять функцию затравки и какая роль отводится неструктурированным участкам. Есть предположение, что РНК-связывающие белки за счет самосборки с помощью прионо-подобных доменов могут способствовать организации стресс-гранул (СГ). По крайней мере, уже установлено, что именно неструктурированная часть РНК-связывающих белков отвечает за образование гидрогеля и связывание с ним. Белки семейства FЕТ/TET одни из хорошо изученных представителей РНК-связывающих белков, ассоциированных с протеинопатиями. Для данного семейства белков характерны нестрогие повторы в неструктурированной части белковой цепи. Можно предположить, что наличие большого числа таких повторов может ускорять процесс формирования динамической кросс-бета структуры с дальнейшим образованием патологических агрегатов.

Результаты

Задачи
Биоинформатическое исследование неструктурированных участков (IDRs) в семействе белков FET, с целью рассмотрения роли IDR в эволюции этих белков и адаптивной роли IDRs. Поиск компенсаторных замен для данного семейства белков. Эволюция модифицирует функции белков с течением времени, изменяя энергетический ландшафт молекулы за счёт новых мутаций, делеций и вставок. Так как замены могут происходить компенсаторным способом (когда замена одного остатка зависит от замены остатка, находящегося в другом месте), это также требует проверки. Хотя, молекулярная и структурная основа таких замен пока остаётся непонятной.
Определение корреляции эпигенетических маркеров в клеточных линиях бластных клеток

Кристина Карандашева | Медико-генетический научный центр
Одним из эпигенетических механизмов, для которых показано участие в процессах лейкемогенеза, является деацетилирование гистоновых белков. Аномальное метилирование ДНК - еще один фундаментальный механизм регуляции транскрипции при ОМЛ, характерный для промоторных областей ряда генов, в норме отвечающих за баланс между клеточной дифференцировкой и ростом клетки. На основе анализа большого числа генов было сделано предположение, что отдельные аномалии метилирования при ОМЛ могут быть не случайными событиями, а отражением глобальных нарушений процессов метилирования ДНК.

Cуществует тесное взаимодействие между деацетилированием гистонов и метилированием ДНК. Метилирование ДНК приводит к нарушению экспрессии генов за счет создания сайтов связывания для метил-зависимых белков-репрессоров, либо за счет снижения доступности таргетной последовательности для транскрипционных факторов. Присоединение метильной группы к ДНК катализируется ферментами метилтрансферазами (DNMT). При высоком уровне метилирования механизм вовлечения HDAC в процессы регуляции транскрипции реализуется через непосредственное взаимодействие HDAC с DNMT1, либо за счет ассоциации с белками, содержащими домены для связывания метилированной ДНК. Возможно, это общий механизм, определяющий функциональное значение химерных онкогенов при ОМЛ. Известно, что химерные белки PML/RARα при ОПЛ с транслокацией t(15;17) и RUNX1/MTG8 при t(8;21)(q22;q22) действуют как негативные регуляторы транскрипции генов через взаимодействие с DNMT1 и HDAC1.

Результаты

Задачи
1. Проанализировать эпигеномы стволовых клеток донорского костного мозга и линий острого миелоидного лейкоза на наличие аномального метилирования промоторных областей генов и деацетилирования гистонов в соответствующих участках с использованием базы данных http://www.roadmapepigenomics.org/ и http://fantom.gsc.riken.jp/.
2. Определить корреляцию между метилированием промоторов генов и деацетилированием соответствующих геномных локусов.

Требования к участникам
1. Фундаментальные знания молекулярной биологии, понимание механизмов траскрипции.
2. Знание Python и/или R (пакет GenometriCorr), умение работать с биологическими базами данных.
Поиск транскрипционных факторов, определяющих формирование эпигенетического подтипа РМЖ

Кристина Карандашева | Медико-генетический научный центр
Участникам предлагается выявить транскрипционные факторы, определяющие формирование эпигенетического подтипа рака молочной железы (выявить цель для дальнейших мокрых экспериментов).

Результаты

Задачи
Наши данные - результаты XmaI-RRBS в коллекции РМЖ.
1. Найти районы, статус метилирования которых изменяется совместно (корреляция).
Из публичных БД:
2. Добавить данные о коэкспрессии генов в этих районах.
3. Найти данные о транскрипционных факторах, регулирующих уровень экспрессии этих генов.
А также:
4. Сформировать метрику "перспективности" выявленного транскрипционного фактора, как определяющего эпигенетический подтип.
5. С помощью этой метрики оценить различные транскрипционные факторы по предложенным и публичным данным.

Требования к участникам
1. R/Python.
2. Знание молекулярной биологии, достаточное для понимания задачи и интерпретации полученных результатов.
3. Опыт работы с биологическими БД.
Поиск патогенных пар мутаций в геноме человека

Кирилл Цуканов | Genotek
Одним из важных критериев, по которым определяют патогенность мутации у человека, является её частота в популяции: у патогенных мутаций она ниже, поскольку против них, как правило, действует эволюционный отбор. При этом частота традиционно вычисляется отдельно для каждой мутации в отрыве от остального генома. В то же время, поскольку гены и их продукты связаны огромным числом взаимодействий, могут существовать мутации, которые безвредны сами по себе, но становятся патогенными, если присутствуют в геноме одновременно (возможно, в определённой зиготности) и, к примеру, нарушают сайты взаимодействия двух ключевых белков. Поиск таких пар «совместно-патогенных» мутаций мог бы пригодиться в диагностике сложных случаев наследственных заболеваний, а также как способ дополнительного подтверждения описанных взаимодействий между генами или даже обнаружения новых.

Результаты

Задачи
1. Взять данные проекта «1000 геномов» и найти такие пары мутаций, которые встречаются реже (со статистической значимостью), чем можно было бы предположить исходя из их индивидуальных частот.
2. Оценить количество таких мутаций и выявить пары генов (либо локусы одного гена), в которых они возникают чаще всего.
3. Соотнести полученную информацию с базами данных известных патогенных мутаций (ClinVar), генных и белковых взаимодействий (BioGRID), функциональных аннотаций (Gene Ontology).
4. Сделать выводы.


Требования к участникам
Желателен опыт работы с Python и/или R, со стандартными форматами (VCF, BAM) и утилитами (samtools, bcftools, vcftools, tabix) биоинформатики, базовое понимание статистики.
Секвенирование с ультранизким покрытием — будущее полногеномных исследований?

Александр Ракитько | Genotek
На текущий момент наиболее популярной технологией для проведения полногеномных исследований (GWAS) является генотипирование на микрочипах (microarray genotyping). Несмотря на ряд недостатков, данной технологии отдают предпочтение по сравнению с полногеномным секвенированием (NGS) из-за низкой стоимости. Однако, недавние исследования показали, что секвенирование генома с ультранизким покрытием (0.2 - 0.4x) оказывается более информативно и гораздо более выгодно по стоимости, чем генотипирование на микрочипах.

Концепция данного подхода заключается в использовании процедуры импьютинга (восстановления соседних позиций в геноме по сцепленности) и специальных референсных панелей. Исполнителям проекта предлагается освоить технику импьютинга и провести сравнительный анализ получения полногеномных данных. Кроме того, предлагается рассмотреть практическое приложение секвенирования с ультранизким покрытием в генеалогических задачах (определение гаплогруппы по Y хромосоме).

Результаты

Задачи
1. Смоделировать коллекцию с низким покрытием.
2. Освоить процедуру импьютинга (imputing).
3. Протестировать качество коллинга SNP в зависимости от частоты.
4. (дополнительная задача) Исследовать возможность определения гаплогруппы по данным секвенирования Y хромосомы с низким покрытием.

Требования к участникам
Опыт работы с данными NGS, Linux, R/Python/C.
Поиск молекулярных основ дифференциальной окраски хромосом

Юрий Барбитов, Александра Климина | Институт биоинформатики
Давно известно, что хромосомы эукариот можно легко отличить по тому, как они окрашиваются определенными соединениями. Рисунок такого окрашивания одинаков у людей, и какие-либо хромосомные аномалии легко идентифицируются по нарушению паттерна окраски ("бэндинга") хромосом. Известно, что паттерн дифференциальной окраски связан с фундаментальными свойствами компактизации генома и очень важен для регуляции экспрессии генов. Однако неизвестно, что именно является молекулярной причиной появления дифференциальной окраски. В данном проекте предполагается произвести поиск специфических геномных элементов, ассоциированных с бэндингом. Для этого будет доработана и использована утилита, разработанная в Институте биоинформатики, а также данные геномных экспериментов из открытых баз данных.

Результаты

Задачи
1. Доработать существующую Java-утилиту для поиска ассоциаций геномных интервалов (ускорение работы, добавление визуализации).
2. Произвести поиск данных, характеризующих расположение различных функциональных элементов генома (данные ChIP-Seq, аннотация повторов и других значимых регионов).
3. Проанализировать ассоциации между рисунком дифференциальной окраски и максимально возможным числом геномных элементов, а также их комбинаций.
4. Изучить наиболее интересные случаи ассоциации, сформировать гипотезу о механизмах поддержания структуры хромосом и паттерна бэндинга.

Требования к участникам
Как минимум 1 человек, умеющий программировать на языке Java; биологи с пониманием организации генома эукариот и представлением о ChIP-Seq экспериментах, опыт работы с геномными интервалами и знание основных форматов приветствуются, но не обязательны.
Изучению ферментативных систем паразитов-гематофагов подходами эволюционной биоинформатики

Дмитрий Константинов | НГУ
Что происходит с ферментативными системами организма при переходе к паразитизму?
Часто встречающейся формой паразитизма является гематофагия. Она встречается как у плоских и круглых червей, так и у некоторых насекомых. Распространенными приспособлениями к паразитизму является редукция морфологии и изменение биохимии. Однако информация о изменениях на молекулярном уровне разрознена и не позволяет составить общую картину. На данный момент отсеквенировано большое количество геномов паразитов-гематофагов (плоские и круглые черви, членистоногие, простейшие и т.д.), что делает возможным подходы сравнительный геномики. Участникам предлагается систематизировать геномные и транскриптомные данные и выявить общие тенденции связанные с переходом к паразитарной форме жизни.

Результаты

Задачи
1) Выявить структурные компоненты ферментативных систем у модельных организмов (Mus musculus, Caenorabditis elegance и т.д.).
2) Выявить гомологичные гены в геномах паразитов-гематофагов.
3) Сопоставить структуру изучаемых ферментативных систем и особенности молекулярной эволюции их компонентов между родственными паразитическими и свободноживущими формами

Требования к участникам
Владение любым языком программирования (предпочтительно Python, Java) Желательно понимание основ молекулярной биологии и основ филогенетического анализа.
"Прыгающие" интроны

Ирина Поверенная | ИОГен им. Н.В. Вавилова РАН
В эволюции экзон-интронной структуры эукариотических генов обычно выделяют два эволюционных события - приобретение новых интронов и потеря старых. Однако существует еще и третье событие, очень редкое и довольно необычное: слайдинг интрона, то есть его смещение на короткое расстояние от прежней позиции. Как и зачем интрон перепрыгивает на новое место все еще непонятно. Поиск возможного механизма слайдинга осложняется недостаточностью данных по данным событиям. Участникам предлагается провести поиск случаев слайдинга в близкородственных и дальних организмах и изучить ближайшее окружение прыгнувшего интрона.

Результаты

Задачи
1. Поиск случаев слайдинга в выравниваниях ортологичных генов
2. Проанализировать случаи слайдинга на тенденцию к смещению в определенную сторону внутри гена (к 5' или 3' концу).
3. Проанализировать окружение прыгнувшего интрона на предмет новых и старых сайтов сплайсинга

Требования к участникам
Программирование, опыт работы с биологическими данными, креативность.
Поиск транскриптов, экспрессия которых соотносится с циркадным ритмом

Оксана Глущенко | ФНКЦ физико-химической медицины
Циркадная система (наши внутренние биологические часы) является важным механизмом синхронизации биологических процессов, происходящих в отдельных клетках и в организме в целом. Это позволяет регулировать физиологию и поведение у большинства живых существ, включая человека. Задача данного проекта заключается в определении транскриптов, экспрессия которых соотносится с циркадным ритмом. В качестве данных мы возьмем RNA-seq человека или мыши. Для начала надо будет определить транскрипты с циклическим поведением на уровне экспрессии. Тут можно применить математический метод "wavelets", что позволит определить ранее не выявленные "цикличекие" транскипты. Далее определить возможные мишени "циклических" транскриптов и связь с циркадным ритмом. И последнее - интерпретация полученных результатов.

Результаты

Задачи
1. Определить "циклические" транскрипты.
2. Определить мишени.
3. Сделать выводы.

Требования
Знание языков программирования (R, Python, Java или др), знание биологии, процесса траскрипции эукариот, возможно опыт работы с RNA-seq данными человека. Команде нужны и биологи, и программисты/биоинформатики.
Биометрическая идентификация личности

Марат Богданов | БГПУ им. М.Акмуллы
Циркадная система (наши внутренние биологические часы) является важным механизмом синхронизации биологических процессов, происходящих в отдельных клетках и в организме в целом. Это позволяет регулировать физиологию и поведение у большинства живых существ, включая человека. Задача данного проекта заключается в определении транскриптов, экспрессия которых соотносится с циркадным ритмом. В качестве данных мы возьмем RNA-seq человека или мыши. Для начала надо будет определить транскрипты с циклическим поведением на уровне экспрессии. Тут можно применить математический метод "wavelets", что позволит определить ранее не выявленные "цикличекие" транскипты. Далее определить возможные мишени "циклических" транскриптов и связь с циркадным ритмом. И последнее - интерпретация полученных результатов.

Результаты

Задачи
1. В рамках проекта предлагается скачать образцы электрокардиограмм с сайта https://physionet.org/physiobank/database/ptbdb/
2. Провести препроцессинг, выделить биометрические признаки, подобрать наиболее подходящие методы машинного обучения для идентификации личности по ЭКГ.

Требования к участникам
1. Цифровая обработка сигналов.
2. Машинное обучение.
Эволюция митохондриальной ДНК у грызунов

Ольга Бондарева, Михаил Райко | ЗИН РАН / СПбГУ
При секвенировании некоторых фрагментов (например, некодирующей Д-петли) митохондриальной ДНК стандартными праймерами у некоторых грызунов (например, обыкновенная слепушо́нка, Ellobius talpinus) иногда могут возникать ошибки - возможно, за счёт гетероплазмии (нескольких вариантов мтДНК в одном и том же организме) или наличия псевдогенов в ядерных геномах (NUMT, nuclear mitochondrial DNA segment). Участникам предлагается проверить уровень потенциальной гетероплазмии на примере доступных мтДНК грызунов из разных семейств, проанализировать вариабельность мтДНК среди выбранных видов и её эволюционную историю (включая события псевдогенизации).

Результаты

Задачи
1.Проверить уровень гетероплазмии митохондриальной ДНК у нескольких видов грызунов из разных подсемейств и сравнить этот уровень между ними.
2. Оценить, какие фрагменты мтДНК и у каких видов имеют копии в ядерных геномах и в какой период времени это произошло.
3. (опционально) Сделать инструмент (или пайплайн на основе готовых инструментов), который собирает митохондриальный геном по референсу и разделяет его на гаплотипы (детекция гетероплазмии).

Требования к участникам
Базовые знания эволюционной биологии, филогенетики, скриптовых языков (bash/python).
организаторы biohack 2018