Технология высокопроизводительного секвенирования репертуара последовательностей Т-клеточных рецепторов (ТКР) в последние годы стала одним из основных инструментов в исследовании структуры адаптивного иммунитета. Согласно результатам последних исследований, базовые характеристики репертуаров, такие как разнообразие и статистики V-D-J сборок, могут быть использованы как эффективные биомаркеры для предсказания результатов иммунотерапии рака и стратификации пациентов с аутоиммунными заболеваниями. Тем не менее, подобный подход не позволяет детально изучить профиль антигенных специфичностей, зашифрованный в репертуаре ТКР.
В рамках данного проекта предлагается использовать базу данных VDJdb, содержащую более 20,000 последовательностей ТКР с известной специфичностью (VDJdb), для разработки алгоритмов кластеризации последовательностей ТКР со сходной антигенной специфичность и алгоритмов аннотации данных высокопроизводительного секвенирования репертуара ТКР на предмет конкретных специфичностей.
Подобный инструмент позволит значительно расширить возможности обозначенной методологии для поиска биомаркеров инфекционных и аутоиммунных заболеваний, а также последовательностей ТКР специфичных к неоантигенам опухолей, переводя технологию секвенирования репертуаров из экспериментальных методик в один из важных инструментов персонализированной медицины.
РезультатыЗадачи1. Создание метрики, позволяющей оценивать функциональную похожесть последовательностей Т-клеточных рецепторов (ТКР), а именно отражающей их способность распознавать один и тот же антиген.
2. Разработка алгоритма предсказания специфичности данного ТКР к определенному антигену, с использованием базы данных последовательностей ТКР с известной специфичностью.
3. Аннотация данных высокопроизводительного секвенирования репертуаров ТКР, предсказание спектра антигенной специфичности репертуара.
Требования к участникамКоманда должна состоять из биоинформатиков и/или программистов с хорошими навыками в области data science/machine learning. Навыки программирования в R/Python. Опыт анализа данных высокопроизводительного секвенирования, хорошие знания различных статистических методов, анализа белковых последовательностей и структурных данных, навыки в области deep learning и Natural-language processing приветствуются.