Сочинение на тему Обзор Mogamod: многоцелевой генетический алгоритм для открытия мотива

Опубликовано: 19.05.2020
Предмет: Наука
Темы: Ген, генетика, Генная инженерия

Многоцелевой эволюционный алгоритм является популярным подходом, который широко используется в задачах оптимизации. Это исследование по использованию многоцелевого генетического алгоритма для обнаружения мотивов (MOGAMOD) было первым исследованием, которое применило многоцелевой генетический алгоритм в задаче поиска мотивов. Максимизируя три противоречивые цели: длину мотива, сходство и поддержку, шаблон мотива может быть достигнут с высокой точностью и малым временем выполнения. Алгоритм MOGAMOD использовал популярный многоцелевой генетический алгоритм с высокой производительностью, называемый недоминирующим алгоритмом сортировки (NSGA-II) с адаптацией к задаче поиска мотива для поиска оптимального мотива. Что делает NSGA-II более эффективным, чем другие алгоритмы, так это то, что он имеет две уникальные операции: мутацию и кроссовер, которые постоянно вырабатывают различный набор решений и сравнивают их для получения окончательного оптимального результата. Алгоритм был протестирован и проанализирован для нескольких образцов с различными свойствами: простой образец, поврежденный образец, вторжение образца, множественный образец. Результаты сравнивались с тремя традиционными методами, в которых использовались статистические подходы, чтобы показать его эффективность и превосходство.

Введение

Мотивы последовательности определяются как повторяющиеся паттерны в ДНК, которые можно найти в регуляторных сайтах ДНК. Обнаружено, что эти регуляторные сайты и экземпляры мотива отвечают за белок-связывающие свойства генной последовательности для запуска процесса транскрипции. Случаи мотивов, обнаруженные в последовательностях ДНК, обычно имеют небольшие изменения в их компонентах. Поиск экземпляров мотивов на ДНК и их регуляторных областях имеет решающее значение для понимания взаимосвязи между ДНК и белками, такими как нуклеазы и факторы транскрипции; это также ключевой фактор для контроля экспрессии генов и определения целевого лекарственного средства для персонализированной медицины. В реальных задачах ДНК может содержать до 220 миллионов пар оснований нуклеотидов, а примеры мотивов обычно короткие (30 пар нуклеотидов). В результате были разработаны биологические экспериментальные подходы для извлечения мотивов из данных образцов ДНК, наиболее популярными методами являются ДНК-след, анализ гелевого сдвига и линкерное сканирование. Эти биологические подходы требуют огромного количества лабораторных работ и времени, когда длина последовательностей или количество последовательностей увеличивается. Поэтому были разработаны вычислительные методы со статистическими подходами для поиска мотивов в данных образцах ДНК, таких как Gibbs Sampler и Consensus. Однако эти алгоритмы также имеют высокую временную сложность, когда размеры массива ДНК увеличиваются. Они также не учитывают другие случаи, когда образец не содержит экземпляры мотивов в некоторых последовательностях или существует несколько экземпляров в одной последовательности. В этом отчете новый подход с использованием многоцелевого генетического алгоритма представлен в качестве альтернативы типичным статистическим подходам. Вместо того, чтобы оптимизировать только одну цель и иметь чрезвычайно низкую производительность других задач, таких как сходство или длина конечного мотива, этот новый подход дает результаты, которые компромисс между целями для решения проблем, обнаруженных в других методах. Многоцелевой генетический алгоритм предназначен для максимизации трех свойств конечного мотива: сходства, длины и поддержки.

Предложенный алгоритм в этой статье протестирован с тремя наборами данных и сравнен с другими известными биологическими методами, чтобы продемонстрировать его эффективность и превосходство с точки зрения точности и сложности во времени. Он также сравнивается с одноцелевым генетическим алгоритмом, чтобы обеспечить лучшее понимание компромисса между задачами задачи.

Методы

Многоцелевой генетический алгоритм для обнаружения мотивов (MOGAMOD) был создан на основе популярного многоцелевого генетического алгоритма с высокой производительностью, называемого недоминирующим алгоритмом сортировки (NSGA-II). NSGA-II – это популяционный метод, часто используемый в задачах оптимизации для быстрого и эффективного поиска оптимальных глобальных параметров. Он создан на основе принципа естественного отбора Дарвина для достижения наилучшего решения поставленных задач. Первым шагом генетического алгоритма является создание случайно сгенерированной начальной популяции, которая содержит индивидуумов, представляющих возможные решения проблемы. В этом случае индивидуум был создан как массив, который содержал n генов, которые соответствовали n количествам последовательностей ДНК в задаче. Затем каждый ген был разделен на две части: вес (wi) и возможное начальное местоположение экземпляра мотива (si). Весовые значения в массиве указывали вероятность наличия потенциального мотива в соответствующей последовательности, эти значения варьировались от 0 до 1. MOGAMOD был разработан, чтобы позволить пользователям устанавливать пороговый предел wi, чтобы соответствующая последовательность с низким wi могла быть исключен из процесса обнаружения мотивов. Переменные начального местоположения (si) указывали на потенциальную начальную позицию экземпляра мотива в этой соответствующей последовательности, в этом исследовании si ограничивалось от 7 до 64. Затем каждого индивида популяции оценивали с помощью фитнес-функции, которая была построена на основе три цели: сходство, длина мотива и поддержка.

Сходство

В проблеме обнаружения мотивов сходство определяется как мера сходства во всех случаях мотивов личности. Значение сходства индивида рассчитывали по матрице весов положения в каждой последовательности, принимая среднее значение вероятности по наиболее популярному нуклеотиду. Это значение также варьировалось от 0 до 1 и указывало, насколько вероятно, что текущий мотив будет выбран в качестве мотива. В проблеме обнаружения мотивов длина мотива всегда является целью, которую каждый алгоритм пытается максимизировать, чтобы уменьшить вероятность наличия ложных мотивов и увеличить вероятность получения сильного мотива в результате.

Поддержка

Значение поддержки человека было определено числом последовательностей, которые использовались, чтобы составить мотив кандидата. Это значение было создано, чтобы исключить «поврежденные» последовательности, в которых не было ни одного экземпляра мотива, чтобы получить сильный окончательный мотив без учета этих последовательностей. В заключение, для решения проблемы обнаружения мотивов, MOGAMOD был создан для оптимизации трех целей конечного мотива: Сходство – Длина мотива – Поддержка. Из начальной популяции были выбраны более сильные люди, чтобы перейти к следующему поколению. Была создана фитнес-функция, чтобы определить, была ли цель человека достаточно сильной по сравнению с другими людьми из нынешнего населения. Люди были сначала помещены в разряды, основанные на их пригодности, используя недоминированный алгоритм сортировки. Этот алгоритм имеет временную сложность полинома до второй степени, как описано как O (M. N2), где M – количество целей, а N – количество людей в популяции. Согласно Деб, решение A доминирует над другим решением B тогда и только тогда, когда:

A не хуже, чем B в любых целях.

A лучше, чем B, по крайней мере, в одной цели.

Исходя из этого правила, отдельные лица в популяции попали в ряды, в которых лица, в которых не доминировали какие-либо другие лица, были ранжированы 1. Затем люди из ранга 1 были удалены из популяции, чтобы повторить процесс и определить люди в ранге 2. Процесс повторялся до тех пор, пока все люди в популяции не были ранжированы и отсортированы. После этого пары людей были выбраны случайным образом для оценки и перенесены в следующее поколение. Выбранный человек с более низким рангом по сравнению с другим человеком в паре был перемещен в следующее поколение. В случае, если оба человека имели одинаковый ранг, их значения расстояния скопления были рассчитаны, и для следующего поколения была выбрана величина с большим расстоянием скопления.

Генетические операторы

В эволюционных алгоритмах генетические операторы часто используются для изучения новых решений или охвата всех возможных результатов проблемы.

Кроссовер: в этом исследовании, после того, как два человека были случайно выбраны из популяции, был применен арифметический метод одноточечного кроссовера с определенной пользователем вероятностью для получения «потомков», которые отличались от их родителей.

Мутация. Оператор мутации в этом алгоритме был применен к «потомству» путем изменения значения позиции у индивида с определенной пользователем вероятностью. В MOGAMOD использовались три типа мутаций: + сдвиг вправо + сдвиг влево + случайное изменение. После того, как все было установлено, алгоритм был реализован для поиска наиболее оптимального набора решений с использованием элитарности для создания новых поколений, и он останавливался только тогда, когда алгоритм сходился к наиболее оптимальному человеку или достигалось максимальное количество поколений.

Результаты

Для первого набора данных, yst04r, содержащего 7 последовательностей с 1000 нуклеотидными парами в каждой последовательности, алгоритм смог получить несколько решений из одного заданного набора входных данных. Из этого первого эксперимента можно сделать вывод, что длина мотива и значение подобия имеют обратную зависимость. Тот же вывод о связи значения поддержки и длины мотива. По сравнению с другими биологическими методами алгоритм MOGAMOD также продемонстрировал свое превосходство с точки зрения времени работы. Для второго эксперимента с набором данных yst08r, когда число последовательностей было увеличено, алгоритм MOGAMOD продолжал превосходить одноцелевую GA, когда он давал лучшие результаты с точки зрения целей. В последнем эксперименте, где массив наборов данных имел большие размеры с точки зрения количества последовательностей и длины последовательностей по сравнению с первым набором данных, hmr03r, таблица результатов показала, что при увеличении длины последовательности алгоритм MOGAMOD удалось получить больше результатов с аналогичными значениями целей. Также было отмечено, что время выполнения алгоритма не увеличилось, хотя длина последовательности была увеличена.

<Р> Заключение

MOGAMOD, многоцелевой эволюционный алгоритм, основанный на NSGA-II, был создан для решения проблемы обнаружения мотивов с помощью многоцелевого подхода. С помощью этого нового алгоритма были решены различные проблемы с другими методами, такими как поиск экземпляров мотива в «поврежденных» последовательностях и множество экземпляров мотива в одной последовательности. Алгоритм также продемонстрировал свое превосходство с точки зрения времени выполнения по сравнению с другими методами. Наконец, он предоставил ряд недоминируемых решений для человека, который принимает решение, чтобы понять компромисс между тремя целями: длина мотива, поддержка и сходство.

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Использование Генома Редактирование и изменение для разработки и проектирования атрибутов будущих детей

29.10.2020 Комментариев нет

Использование редактирования и изменения генома для разработки и конструирования атрибутов будущих детей было поддержано и одобрено Советом по биоэтике Наффилда; В докладе говорится, что морально

Читать полностью »

РНК-интерференция (РНКи) и генная терапия

28.10.2020 Комментариев нет

РНК-интерференция (RNAi) – один из самых захватывающих и революционных новых подходов к терапии, который привлек значительное внимание в течение последних нескольких десятилетий. Было обнаружено, что

Читать полностью »

Влияние науки

28.10.2020 Комментариев нет

В современном мире влияние, которое наука может оказать на жизнь, как мы знаем, остается очень важным. Много исследований проводится в отношении риска вирусных инфекций среди

Читать полностью »