Сочинение на тему Абстрактная информатика

Опубликовано: 12.07.2020
Предмет: Информационная наука
Темы: Компьютерная наука

Аннотация

Информатика и многие ее приложения – это разработка, анализ и применение алгоритмов. Эффективные решения важных проблем в различных дисциплинах, помимо компьютерной науки, обычно включают преобразование проблем в алгоритмические, в которых применяются стандартные алгоритмы. Научные цифровые документы растут день ото дня. Чтобы автоматически находить и извлекать эти алгоритмы в этой обширной коллекции документов, которые обеспечивают индексацию алгоритмов, поиск, обнаружение и анализ. AlgorithmSeer, поисковая система для алгоритмов, была исследована как часть CiteSeerX с целью предоставления большой базы данных алгоритмов.

Предлагается новый набор масштабируемых методов, используемых AlgorithmSeer для идентификации и извлечения представлений алгоритмов в неоднородном пуле научных документов. Наряду с этим, любой человек с различными уровнями знаний может получить доступ к платформе и выделить те части текстового контента, которые особенно важны и актуальны. Выделенные документы могут быть переданы другим в поддержку лекций и самообучения. Но выделенная часть текста не может быть полезной для разных уровней обучающихся. Эта статья также решает проблему прогнозирования новых основных моментов частично выделенных документов электронного обучения.

I.ОБЪЕКТ И ОБЛАСТЬ

Чтобы определить представления алгоритма в документе.

Чтобы извлечь представления алгоритма в документе.

Чтобы упростить индексацию алгоритма, выполните поиск.

Для повышения производительности труда ученых.

Рассмотреть уровень мастерства пользователей подсветки для генерации новых подсветок.

Наша система полезна в области компьютерных наук.

Это полезно для поисковиков алгоритмов.

Он полезен при создании электронной библиотеки для научной литературы в Интернете.

II. ПОСТАНОВКА ЗАДАЧИ

Поиск недавно опубликованных алгоритмов вручную – нетривиальная задача. Исследователи и другие, которые стремятся найти эффективные и инновационные алгоритмы, должны будут активно искать и отслеживать соответствующие новые публикации в своих областях исследований, чтобы быть в курсе последних алгоритмических разработок. Проблема усугубляется для тех, кто ищет алгоритмы, неопытные в поиске документов. В идеале мы хотели бы иметь систему, которая автоматически обнаруживает и извлекает алгоритмы из научных цифровых документов. Такая система может оказаться полезной для индексации алгоритма, поиска и широкого спектра приложений для обнаружения потенциальных знаний и изучения эволюции алгоритма, а также, предположительно, повысить производительность труда ученых.

III. Ознакомительный компьютер

Наука о разработке, анализе и применении алгоритмов. Эффективные решения важных проблем в различных дисциплинах, помимо компьютерной науки, обычно включают преобразование проблем в алгоритмические, в которых применяются стандартные алгоритмы. Кроме того, глубокое знание современных алгоритмов также имеет решающее значение для разработки эффективных программных систем. Стандартные алгоритмы обычно собираются и каталогизируются вручную в учебниках по алгоритмам, энциклопедиях и на веб-сайтах, где содержатся ссылки для программистов.

Хотя большинство стандартных алгоритмов уже занесены в каталог и доступны для поиска, особенно в онлайн-каталогах, недавно опубликованные алгоритмы появляются только в новых статьях. Взрыв недавно разработанных алгоритмов в научно-технической документации делает невозможным ручную каталогизацию этих недавно разработанных алгоритмов. Поиск этих недавно опубликованных алгоритмов вручную – нетривиальная задача. Исследователи и другие, которые стремятся найти эффективные и инновационные алгоритмы, должны будут активно искать и отслеживать соответствующие новые публикации в своих областях исследований, чтобы быть в курсе последних алгоритмических разработок. Проблема усугубляется для тех, кто ищет алгоритмы, неопытные в поиске документов.

Мы хотели бы иметь систему, которая автоматически обнаруживает и извлекает алгоритмы из научных цифровых документов. Такая система может оказаться полезной для индексации алгоритма, поиска и широкого спектра приложений для обнаружения потенциальных знаний и изучения эволюции алгоритма, и, вероятно, повысить производительность труда ученых. Поскольку алгоритмы, представленные в документах, не соответствуют определенным стилям и написаны в произвольных форматах, это становится проблемой для эффективной идентификации и извлечения. Платформы электронного обучения представляют собой сложные системы, которые направлены на поддержку деятельности по электронному обучению с помощью электронных устройств. как ноутбук, планшеты, смартфоны и т. д. Обычно такие виды электронного обучения состоят из текстовых документов.

Из-за постоянно растущего числа электронных документов, которые можно получать из разнородных источников, ручная проверка этих учебных материалов может оказаться практически невозможной. Следовательно, существует потребность в автоматизированных аналитических решениях для анализа электронного учебного контента и автоматического вывода потенциально полезной информации.

Основные моменты – это графические знаки, которые обычно используются для обозначения части текстового содержимого. Создание текстовых выделений вручную занимает много времени, т. Е. Оно не может быть применено к очень большим коллекциям документов без значительных человеческих усилий и может привести к ошибкам для учащихся, которые имеют ограниченные знания по теме документа. Автоматизация процесса выделения текста требует создания расширенных аналитических моделей, способных (i) фиксировать корреляции между текстовым содержимым и (ii) масштабировать в сторону больших коллекций документов. В нашей предлагаемой системе мы учитываем уровень квалификации пользователей, выделяющих подсветку, для генерации новых выделений.

IV. ОБЗОР ЛИТЕРАТУРЫ S.

Kataria et.al, [1] рассматривает двумерные графики (2-D) в цифровых документах в Интернете как важный источник информации, который в значительной степени используется недостаточно. О том, как данные и текст могут быть автоматически извлечены из этих двухмерных графиков, описано, таким образом, это устранит трудоемкий ручной процесс. Алгоритм извлечения информации, представленный в этой статье, идентифицирует оси фигур, извлекает текстовые блоки, такие как метки осей и условные обозначения, и идентифицирует точки данных на рисунке. Он также извлекает единицы измерения, появляющиеся в метках осей, и сегментирует легенды, чтобы идентифицировать различные линии в легенде, различные символы и связанные с ними текстовые пояснения.

Предлагаемый алгоритм также выполняет сложную задачу эффективного разделения перекрывающихся точек текста и данных. Анализ документов математических текстов является сложной задачей даже для стандартных цифровых документов. J. B. Baker et. al, [2] рассматривает существующие альтернативные подходы к решению этой проблемы в контексте документов PDF. Один использует подход OCR для распознавания символов вместе с виртуальной сетью связи для структурного анализа. Другой использует прямое извлечение символьной информации из файла PDF с помощью двухэтапного парсера для извлечения макетов и структур выражений.

Со ссылкой на наземные данные истинности мы сравниваем эффективность и точность двух методов количественно в отношении идентификации символов и структурного анализа математических выражений и качественно в отношении анализа компоновки. Алгоритмы являются неотъемлемой частью компьютерной науки литературы. S. Bhatia et. al, [3] описывают вертикальную поисковую систему, которая идентифицирует алгоритмы, присутствующие в документах, а также извлекает и индексирует соответствующие метаданные и текстовое описание идентифицированных алгоритмов. Эта специфичная для алгоритма информация затем используется для ранжирования алгоритма в ответ на пользовательские запросы. D. M. Blei, A. Y. Ng et. al, [4] описывает скрытое распределение Дирихле (LDA), порождающую вероятностную модель для коллекций дискретных данных, таких как текстовые корпуса. LDA – это трехуровневая иерархическая байесовская модель, в которой каждый элемент коллекции моделируется как конечная смесь по базовому набору тем.

Каждая тема, в свою очередь, смоделирована как бесконечная смесь по основному набору вероятностей темы. В контексте текстового моделирования, тематические вероятности обеспечивают явное представление документа. В этой статье представлены эффективные методы приближенного вывода, основанные на вариационных методах и EM-алгоритме для эмпирической оценки параметров Байеса. J. Kittler et. al, [5] описывает общую теоретическую основу для объединения классификаторов, которые используют различные представления шаблона и показывают, что многие существующие схемы могут рассматриваться как частные случаи составной классификации, где все представления шаблона используются совместно для принятия решения. Экспериментальное сравнение различных схем комбинаций классификаторов показывает, что правило комбинации, разработанное при самых ограничительных допущениях, правило сумм превосходит другие схемы комбинаций классификаторов.

Анализ чувствительности различных схем к ошибкам оценки проводится, чтобы показать, что этот вывод можно обосновать теоретически. Эффективные алгоритмы чрезвычайно важны и могут иметь решающее значение для определенных программных проектов. S. Bhatia, S. Tuarob et. al, [6] предложили алгоритм поисковой системы, который идет в ногу с последними разработками алгоритмов. Все документы в хранилище сначала преобразуются в текст с использованием конвертера PDF в текст. Извлеченный текст затем анализируется, чтобы найти алгоритмы, которые затем индексируются вместе с соответствующими метаданными. Механизм обработки запросов принимает запрос от пользователя через интерфейс запросов, выполняет поиск в индексе соответствующих алгоритмов и представляет пользователю ранжированный список алгоритмов.

Латентный анализ Дирихле, или тематическое моделирование, представляет собой гибкую структуру скрытых переменных для моделирования многомерных данных разреженных счетчиков. В последние годы были разработаны различные алгоритмы обучения, включая сжатую выборку Гиббса, вариационный вывод и максимальную апостериорную оценку, и это разнообразие мотивирует необходимость тщательных эмпирических сравнений. TA. Асунсьон и др. В [7] подчеркивается тесная связь между этими подходами. Когда гиперпараметры оптимизированы, различия в производительности между алгоритмами значительно уменьшаются. Способность этих алгоритмов достигать решений с сопоставимой точностью дает нам свободу выбирать вычислительно эффективные подходы. CP. Chiu et.al, [8] представляют метод обнаружения изображений в изображениях страниц документа, которые могут быть получены из отсканированных изображений или изображений с камеры, или отрисованы из электронных форматов файлов.

Описанный метод использует OCR для разделения текста и применяет алгоритм нормализованных срезов для кластеризации нетекстовых пикселей в области изображения. На этапе уточнения используются подписи, найденные в тексте OCR, чтобы определить, сколько изображений находится в области изображения, тем самым исправляя недостаточную и избыточную сегментацию. S. Bhatia и P. Mitra [9] представляют первый набор методов для автоматического извлечения полезной информации (синопсис), связанной с элементами документа. Наивные байесовские и опорные векторные машинные классификаторы используются для идентификации релевантных предложений из текста документа на основе сходства и близости предложений с заголовком и предложениями в тексте документа, которые ссылаются на элемент документа. G. W. Klauet.al, [10] рассматривает вопрос о дробном выигрыше дерева Штейнера на деревьях. В данной статье представлены три алгоритма решения задачи о дробном выигрыше в виде дерева Штейнера (задача PCST) на деревьях G = (V, E). Алгоритм Ньютона имеет наихудшее время выполнения O (| V | 2).

В статье также представлен вариант параметрического поиска и доказано, что наихудшее время выполнения этого нового алгоритма – O (| V | log | V |). Результаты вычислений показывают, что метод Ньютона лучше всего работает со случайно сгенерированными задачами, в то время как простой метод двоичного поиска и метод, предложенный в статье, значительно медленнее. Для всех трех алгоритмов время выполнения увеличивается немного быстрее, чем линейно, с размером наших тестовых экземпляров.

V. ПРЕДЛАГАЕМЫЙ СИСТЕМНЫЙ ПОДХОД

В предлагаемой нами системе документы обрабатываются для выяснения алгоритма, присутствующего в документах. Пользователь отправляет запрос в систему. Текстовые метаданные содержат соответствующую информацию об обнаруженном алгоритме. После обработки документа текстовые метаданные извлекаются. Затем эти метаданные индексируются. Обработка запроса выполняется для метаданных, и окончательные результаты возвращаются пользователю. Нетекстовое содержимое в тексте
автоматически отфильтровывается перед запуском учебного процесса. Применяются два этапа обработки текста: (i) остановка и (ii) удаление стоп-слов.

Чтобы проанализировать вхождение отдельных терминов в тексте предложения, после того, как в качестве основы используются и исключены стоп-слова, текст предложения преобразуется в матрицу частотно-обратной частоты документа (of-IDF). Если в наборе учебных данных нет информации об уровне знаний пользователей, создается одна единая модель классификации, которая используется для прогнозирования новых основных моментов. В противном случае считается, что уровень знаний выделенных пользователей важен для выполнения точных прогнозов выделения. Представлен прототип поисковой системы алгоритмов, Algorithm Seer. Простой текст извлекается из файла PDF. Мы используем PDFBox для извлечения текста и изменения пакета, чтобы также извлечь информацию об объекте, такую как шрифт и информацию о местоположении, из документа PDF.

Затем три подпроцесса работают параллельно, включая сегментацию документов, обнаружение ПК и обнаружение AP. Модуль сегментации документа определяет разделы в документе. Модуль обнаружения ПК обнаруживает ПК в разобранном текстовом файле. Детектор AP сначала очищает извлеченный текст и восстанавливает разбитые предложения, а затем идентифицирует AP. После того, как ПК и AP идентифицированы, последний этап включает в себя связывание этих представлений алгоритма, ссылающихся на одни и те же алгоритмы. …

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Плюсы и минусы работы сети врачей в современном мире

06.10.2020 Комментариев нет

Интеграция стала новым модным словом в медицинском сообществе сегодня благодаря акценту на такие инициативы, как управление популяциями и лечение заболеваний, которые направлены на улучшение здоровья

Читать полностью »

10 способов предотвратить перегрузку веб-сервера

03.10.2020 Комментариев нет

Причины перегрузки различны. В любое время веб-серверы могут быть перегружены по следующим причинам: Неполная доступность веб-сервера. Это может произойти из-за ожидаемой или необходимой поддержки

Читать полностью »

Анализ принципов компьютерной безопасности на примере выбранной организации

23.09.2020 Комментариев нет

Введение Ниже приведен отчет об угрозах компьютерной безопасности и уязвимостях WH Smith. WH Smith – семейный британский ритейлер, который управляет 1300 магазинами по всему миру,

Читать полностью »