tldr_arxiv(@tldr_arxiv). Extracting a biologically relevant latent space from cancer transcriptomes with variational autoenco

Extracting a biologically relevant latent space from cancer transcriptomes with variational autoencoders
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5728678/
😎 В чем понт
Новости по нейронкам от коллег-биоинформатиков, спасибо Даше Романовской @dariaromanovskaia.
Ежегодно от рака умирает 8 млн человек. Часто причина в плохой диагностике - врачи неправильно определяют особенности опухоли и назначают неподходящее лечение. С помощью вариационного автоэнкодера авторы научились сжимать информацию о РНК клетки и интерпретировать результат. По полученным признакам можно классифицировать, к какому типу относится рак, и какой ткани принадлежит опухоль.

🔎 Подробности
☘️ Немного биологии или зачем это надо
Традиционно, врачи лечат всех онкологических пациентов по одинаковой схеме, вне зависимости от индивидуальных особенностей, что приводит к огромному числу ошибок. Поэтому хорошо иметь признаковое описание конкретного пациента, понимать, какие молекулы есть в его организме и сколько их. Информация о том, какие белки(основной тип молекул) потенциально могут вырабатываться в клетке содержится в ДНК (генах). А вот то, какие белки реально вырабатываются в каждый момент времени (или экспрессируются), а значит, вид рака пациента, можно понять по последовательности РНК. РНК - молекула, передающая информацию от ДНК к белку. С помощью процедуры, которая называется РНК-секвенированием можно определять, какие именно молекулы РНК сейчас есть в клетках, то есть какие гены “работают”, экспрессируются и насколько эффективно - уровень экспрессии. Если научиться извлекать из данных об уровне экспрессии генов важные характеристики пациента и его рака, то это заметно улучшит диагностику и позволит индивидуально подойти к лечению.

🗒 Данные+алгоритм или причем тут VAE
Авторы взяли данные о более чем 10,000 различных опухолях в 33 типах рака. Данные об экспрессии самых вариабельных 5000 генов были сжаты в пространство признаков размерности 100, а затем с помощью декодера восстановлены обратно в 5000. Вариационный автоэнкодер позволяет не просто сжимать данные в какое-то скрытое представление, а сжимать их сначала в 2 параметра для каждого признака - дисперсию и матожидание, из них генерить скрытое представление, а потом уже засовывать в декодер. Матожидание и дисперсию штрафуем за отклонение от нуля и единицы. Такой трюк позволяет гарантировать одинаковый масштаб всех признаков и их независимость, что хорошо. Валидировали эмбеддинги следующим образом - брали образцы для разных типов рака и смотрели межгрупповое и внутригрупповое кластерные расстояния - межгрупповое было больше, раки разделялись. Веса декодера использовались для определения вклада каждого гена в полученное скрытое представление.

✏️ Что в итоге
Сделали классные эмбеддинги. По выделенным эмбеддингам возможно определить типы тканей, в которых образуются опухоли и непосредственно типы рака. Полученный набор признаков не является избыточным и алгоритм чувствителен к различным вариациям в данных (например, различим пол пациентов). Выделили важные признаки для классификации типов рака, например стадию развития клеток, на которых находились образцы.