Текст горной и биологической литературы сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Текст горной и биологической литературы

ГОРНАЯ И БИОЛОГИЧЕСКАЯ ЛИТЕРАТУРА ТЕКСТА

Введение

Мы живем в эпоху цифровых технологий, эпоху, когда знания и информация являются мощью и считаются ключевыми в нашем общем прогрессе. Каждый день сотни документов появляются в цифровом формате в Интернете в виде статей в газетах или журналах, онлайн-книг, научных открытий и публикаций.

Без сомнения, мы можем сказать, что знания бесконечны, количество информации, которую мы имеем в наших руках, бесконечно. В области биологии, биотехнологии, медицины и их подотраслей каждую неделю в Интернете публикуются тысячи статей, посвященных проверенным обзорам и аналитике, открытиям и новым экспериментам. Эта бесконечная река информации должна быть извлечена учеными для продолжения их исследований, обновления их работы и завершения их экспериментов. Все эти биомедицинские данные растут день ото дня, и мы можем сказать, что обработка этих бесконечных данных ужасна в вышеупомянутых областях исследований. Растущее количество литературы стало серьезной проблемой для ученых и исследователей. Этому сложному количеству литературы становится невозможно следовать даже для самых опытных читателей, и это может привести к трате денег и времени на исследования. Биоинформатика и добыча биологической литературы. В биоинформатике, когда мы хотим найти и извлечь знания из текстовых данных, мы фокусируемся на конкретных отношениях между сущностями. Мы нацелены главным образом на взаимодействие между белками, генами, лекарственными препаратами, болезнями и т. Д. Теперь сделайте шаг назад и подумайте о значительном биологическом поле

Давайте поговорим о геномике и кратко объясним, что это такое. Геном представляет собой целое вещество ДНК, присутствующее в одной клетке. Используя методы последовательности ДНК и биоинформатику, мы можем проанализировать структуру и функцию генома. Мы можем изучить, как гены взаимодействуют друг с другом и / или с окружающей средой, в которой они находятся. Научная область, сосредоточенная на работе геномов, называется Геномика. Эксперты по геномике пытаются раскрыть все тайны последовательности ДНК, чтобы дать ответы на сложные задачи. Например, геномика фокусируется на изучении геномов, возникающих при серьезных заболеваниях, таких как рак, диабет, болезни сердца и многие другие. Как вы можете себе представить, геномика – это лишь одна из десятков биологических областей, каждый из которых создает огромное количество новых данных. И да, идти в ногу с такой информацией нелегко.

Новое поле: добыча текста Как мы упоминали ранее, в многочисленных подполях биологии, таких как геномика, мы получаем тонны информации в виде чисел, последовательностей и геномов, но мы также получаем что-то еще. Как логическое следствие, тонны простого текста присоединяются к научным публикациям. Это основная «литература», в которой ученые описывают свои мысли, объясняют свою методологию и анализируют свои выводы. Эти текстовые данные считаются отличным инструментом для тех, кто может обращаться с ними и использовать их соответствующим образом. В то же время, однако, это явление порождает вопрос и создает новую область исследований.

Возникает следующий вопрос: «Можем ли мы обработать такой объем данных? И если да, как мы найдем то, что ищем вовремя, чтобы принимать правильные решения? Это новое направление исследований называется Text Mining. ТМ, как мы теперь будем называть это, фокусируется исключительно на обнаружении и извлечении неизвестных текстов литературы, комбинируя сложные методы машинного обучения, компьютерной лингвистики и информационного поиска. Используя эти методы, мы сможем значительно сэкономить время на извлечении информации, что приведет к созданию более многообещающей гипотезы. В геномике человека это автоматическое обнаружение генов и белков кажется очень многообещающим, поскольку у нас есть значительное количество новых сообщений, устанавливающих новые переменные о редких заболеваниях. Возможность изучать, оценивать и связывать эти новые переменные с существующей информацией имеет решающее значение. Мы должны отметить, что по причинам авторского права очень немногие статьи свободны для чтения, по сравнению с огромным океаном публикаций в Интернете, поэтому TM фокусируется на заголовках и рефератах, которые свободно доступны в базах данных, таких как BMC и MEDLINE.

Как работает ТМ?

ТМ, как мы упоминали ранее, посвящен открытию неструктурированных знаний. В большинстве случаев нам приходится иметь дело с тремя основными задачами: выявление основных данных, извлечение информации и выявление связей между уже извлеченными данными. Мы можем представить TM как куратора, который ищет все доступные ресурсы, такие как онлайн-публикации, патенты, журналы и т. Д., Находит доступные тексты, связывает их вместе и классифицирует их. Прежде всего, если мы хотим извлечь биологическую литературу из текста мы должны быть в состоянии идентифицировать это. Биологические объекты могут быть белками, клетками, генами, геномами, болезнями, химическими соединениями и многими другими биологическими определениями. Затем мы должны выполнить распознавание именованных сущностей (NER) и нормализацию Террна, то есть выделить, сохранить и отсортировать по категориям наши выводы и связать их с нужными сущностями в нашей базе данных. Следующим шагом будет проверка отношения между сохраненными сущностями, определение того, что это за отношение, а также его тип. Но давайте поговорим немного подробнее об этих этапах: NERНаши первые мысли о NER должны быть сосредоточены на двух проблемах: из всех, постоянно развивающаяся литература биологии.

Существуют миллионы определений, относящихся к генам, белкам, паттернам, соединениям и т. д., и в процессе написания этого текста создается еще больше определений. Во-вторых, сходство аббревиатур или сокращений в биологической терминологии и разнообразие определений, которые может иметь сущность. Например, объекты P53, TP53 и TRP53 относятся к одному и тому же гену, или когда наш воображаемый куратор сталкивается со словом «Паркинсон», он должен сделать выбор и решить, относится ли он к Джеймсу Паркинсону, который первым изучил болезнь Паркинсона или сама болезнь? Для решения этих проблем был создан новый комитет. Комитет по номенклатуре генов HUGO (HGNC) нацелен на назначение уникального имени и символа для всех известных генов, и до сих пор HGNC проделал большую работу, присваивая имена и символы более чем 35 000 объектов. Это число большое, но есть еще сущности, еще не назначенные.

Для NER используются три основных метода (также могут использоваться гибридные методы):

     

  • На основе словаря
  •  

  • На основе правил
  •  

  • Машинное обучение

На основе словаря: в этих методах используются простые алгоритмы сопоставления текста с предустановленным словарем. Мы ищем текст, а затем сопоставляем наши выводы с сущностями нашего словаря. Основанные на словаре методы чрезвычайно зависят от наших предустановленных словарей и алгоритмов сопоставления, которые мы используем, и поэтому они дают большое количество неоднозначных результатов.

На основе правил: этот вид методов фокусируется на распознавании объектов на основе символов, чисел и суффиксов / аффиксов. Например, многие биологические объекты заканчиваются определенными суффиксами, такими как -in, такими как, кератин – волокнистое структурное семейство или миозин – моторные белки, известные тем, что они участвуют в сокращении мышц, и т. Д. Таким образом, эти методы создают правила, которые помогают им классифицировать слова с специфические орфографические особенности как команды. Методы на основе правил считаются очень точными, поскольку с помощью простого правила они могут классифицировать большое количество объектов. С другой стороны, из-за различных грамматических и синтаксических правил нашего языка они не так гибки.

Машинное обучение: считается, что методы машинного обучения дают наилучшие результаты для NER. Они используют большое количество аннотированных наборов данных, чтобы идентифицировать и классифицировать объекты текста. У нас есть два основных метода машинного обучения: классификация и маркировка последовательностей. Сегодня эти методы используются все чаще по сравнению с правилами на основе правил и словаря. Нормализация термина Теперь, когда мы нашли и отметили результаты, используя методы NER, мы должны связать их с соответствующими записями в наших базах данных. Срок нормализации сравнивают сущности и присваивают совпадающий идентификатор. Здесь мы должны еще раз упомянуть трудности в сопоставлении и сопоставлении сущностей на основе биологической литературы. Геномная номенклатура богата и в то же время неоднозначна (гены / белки могут приводить к более чем одному идентификатору). В настоящее время одной из наиболее часто используемых баз данных знаний является генная онтология (GE), целью которой является разработка вычислительной модели, описывающей свойства и функции генов.

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.