Отказоустойчивость сочинение пример

ООО "Сочинения-Про"

Ежедневно 8:00–20:00

Санкт-Петербург

Ленинский проспект, 140Ж

magbo system

Сочинение на тему Отказоустойчивость

Сегодня требуется высоконадежная виртуальная сетка, в которой вы можете совместно использовать любой ресурс из любого кластера, даже при наличии сбоя в системе. Грид-вычисления – это парадигма распределенных вычислений, которая отличается от традиционных распределенных вычислений тем, что она предназначена для крупномасштабных систем, которые даже выходят за рамки организации. Помимо проблем управления и планирования этих приложений, возникают проблемы с надежностью из-за ненадежного характера сетевой инфраструктуры. Отказ может произойти из-за сбоя соединения, сбоя ресурса или по любой другой причине, которую следует допустить для бесперебойной и точной работы системы. Эти неисправности могут быть обнаружены и устранены многими методами, применяемыми соответствующим образом. Соответствующий детектор неисправностей может избежать потерь из-за сбоя системы, а надежная техника отказоустойчивости может спасти от отказа системы. Отказоустойчивость является важным свойством для достижения надежности, доступности и качества обслуживания.

Используемый здесь механизм отказоустойчивости устанавливает контрольные точки задания на основе частоты отказов ресурса. Если происходит сбой ресурса, задание перезапускается из его последнего успешного состояния с использованием файла контрольных точек из другого ресурса сетки. Выбор оптимальных интервалов контрольной точки приложения важен для минимизации времени выполнения приложения при наличии сбоев системы. В случае сбоя ресурса при перепланировании на основе индекса сбоев алгоритм перепланирует задание с отказавшего ресурса на какой-либо другой доступный ресурс с наименьшим значением индекса сбоев и выполняет задание с последней сохраненной контрольной точки. Это обеспечивает выполнение задания в сжатые сроки с повышенной пропускной способностью и помогает повысить надежность сетевой среды.

Грид-вычисления – это термин, обозначающий комбинацию компьютерных ресурсов из нескольких административных доменов для достижения общей цели. Сетка может рассматриваться как распределенная система с неинтерактивными рабочими нагрузками, которые включают большое количество файлов. Хотя сетка может быть выделена для специализированного приложения, она более распространена, чем одиночная сетка, которая будет использоваться для различных целей. Сетки часто создаются с помощью библиотек программного обеспечения общего назначения, известных как промежуточное программное обеспечение. Сетка позволяет совместно использовать, выбирать и объединять широкий спектр географически распределенных ресурсов, включая суперкомпьютеры, системы хранения, источники данных и специализированные устройства, принадлежащие различным организациям. Управление этими ресурсами является важной инфраструктурой в вычислительной среде.

Для достижения многообещающего потенциала вычислительных сеток отказоустойчивость является фундаментально важной, поскольку ресурсы распределены географически. Более того, вероятность сбоя намного выше, чем в традиционных параллельных вычислениях, а сбой ресурсов пагубно влияет на выполнение задания. Отказоустойчивость – это способность системы правильно выполнять свои функции даже при наличии неисправностей, что делает систему более надежной. Отказоустойчивые сервисы необходимы для удовлетворения требований QoS в грид-вычислениях и имеют дело с различными типами сбоев ресурсов, включая сбои процессов и сбои сети.

Одним из важных параметров в системе контрольных точек, обеспечивающей отказоустойчивость, является интервал печати чеков или период контрольной точки состояния приложения. Меньшие интервалы контрольных точек приводят к увеличению накладных расходов на выполнение приложений из-за контрольных точек, в то время как большие интервалы контрольных точек приводят к увеличению времени на восстановление в случае сбоев. Следовательно, должны быть определены оптимальные интервалы контрольных точек, которые приводят к минимальному времени выполнения приложения при наличии сбоев.

ПРОБЛЕМЫ:

1. Если происходит сбой в сеточном ресурсе, задание переносится на другой ресурс, что в конечном итоге приводит к неспособности удовлетворить требование QoS пользователя, то есть срок. Причина проста. Поскольку задание выполняется повторно, оно занимает больше времени.

2. В вычислительных сеточных средах есть ресурсы, которые соответствуют критерию ограничения по срокам, но имеют тенденцию к взрослым. В таком сценарии планировщик сетки выбирает тот же ресурс по той простой причине, что ресурс сетки обещает удовлетворить пользовательские требования к заданиям сетки. В конечном итоге это приводит к компрометации параметров QoS пользователя для выполнения задания.

3. Если выполнение задачи должно быть завершено в срок, даже если в системе возникла ошибка. Крайний срок в системе реального времени является основной проблемой, потому что нет смысла в такой задаче, которая не завершается раньше срока.

4. В реальном времени распределенная система обеспечивает доступность сквозных сервисов и способность испытывать сбои или систематические атаки, не влияя на клиентов или операции.

5. Речь идет о способности справляться с растущим объемом работы и о способности системы увеличивать общую пропускную способность при увеличении нагрузки при добавлении ресурсов.

В этом сценарии используется адаптивный подход к отказоустойчивости с указанием ошибок, чтобы преодолеть вышеупомянутые недостатки. При таком подходе информация о возникновении сбоя сохраняется для каждого ресурса. Когда происходит сбой, информация о возникновении сбоя этого ресурса обновляется. Эта информация о возникновении сбоя используется во время принятия решения о распределении ресурсов для задания. Контрольная точка является одним из самых популярных методов обеспечения отказоустойчивости в ненадежных системах. Это запись снимка состояния всей системы, чтобы перезапустить приложение после возникновения какого-либо сбоя. Контрольная точка может храниться как во временном, так и в стабильном хранилище. Однако эффективность механизма сильно зависит от длины интервала проверки. Частые контрольные точки могут увеличить накладные расходы, в то время как ленивая контрольная точка может привести к потере значительных вычислений. Следовательно, решение о размере интервала контрольных точек и метода контрольных точек является сложной задачей и должно основываться на знаниях как о приложении, так и о системе.

Восстановление контрольной точки зависит от MTTR системы. Периодически сохраняет состояние приложения на стабильном хранилище, обычно на жестком диске. После сбоя приложение перезапускается с последней контрольной точки, а не с начала. Есть три стратегии рисования чеков. Это скоординированные контрольные точки, нескоординированные контрольные точки и контрольные точки, вызванные коммуникацией. В согласованных контрольных точках процессы синхронизируют контрольные точки, чтобы гарантировать, что их сохраненные состояния согласуются друг с другом, так что общее объединенное, сохраненное состояние также является согласованным. Напротив, 2. при несогласованном указании цыплят обрабатывает контрольные точки независимо в разное время и не учитывает сообщения. Контрольная точка, вызванная связью, пытается координировать только выбранные критические контрольные точки.

Сравнительный анализ существующих методик:

Ресурс сетки является членом сетки и предлагает вычислительные услуги пользователям сетки. Пользователи Grid регистрируются на Grid Information Server (GIS) в сети, указывая требования QoS, такие как крайний срок завершения выполнения, количество процессоров, тип операционной системы и т. Д.

Компоненты, используемые в архитектуре, описаны ниже:

Планировщик – Планировщик является важной сущностью сетки. Планировщик получает задания от пользователей сетки. Он выбирает возможные ресурсы для этих работ в соответствии с информацией, полученной от ГИС. Затем он генерирует сопоставления между заданиями и ресурсами. Когда диспетчер расписания получает задание сетки от пользователя, он получает сведения о доступных ресурсах сетки из ГИС. Затем он передает список доступных ресурсов объектам в стратегии планирования MTTR. Matchmakerentity выполняет сопоставление ресурсов и рабочих требований. Объект ResponseTime Estimator оценивает время отклика для задания для каждого сопоставленного ресурса на основе времени передачи, времени ожидания очереди и времени обслуживания задания. Селектор ресурсов выбирает ресурс с минимальным временем отклика. Диспетчер заданий отправляет задания по одному диспетчеру контрольных точек.

ГИС-ГИС содержит информацию обо всех доступных ресурсах сетки. Он поддерживает детали ресурса, такие как скорость процессора, доступная память, загрузка и так далее. Все сетевые ресурсы, которые присоединяются и покидают сетку, контролируются ГИС. Всякий раз, когда у планировщика есть задания для выполнения, он обращается к ГИС для получения информации о доступных ресурсах сетки.

Диспетчер контрольных точек. Он получает запланированное задание от планировщика и устанавливает контрольную точку в зависимости от частоты отказов ресурса, на который оно запланировано. Затем он отправляет работу на ресурс. Менеджер контрольных точек получает сообщение о завершении задания или сообщение о сбое задания от ресурса сетки и отвечает на него соответствующим образом. Если во время выполнения происходит сбой задания, задание переносится с последней контрольной точки, а не запускается с нуля. Менеджер контрольных точек реализует лучший алгоритм контрольных точек для задания контрольных точек заданий.

Сервер контрольных точек – на каждой контрольной точке, установленной менеджером контрольных точек, состояние задания передается на сервер контрольной точки. Сервер Checkpoint сохраняет статус задания и возвращает его по требованию, т. Е. При сбое задания / ресурса. Для определенного задания сервер контрольных точек отбрасывает результат предыдущей контрольной точки при получении нового значения результата контрольной точки.

Диспетчер индексов неисправностей – Диспетчер индексов неисправностей поддерживает значение индекса неисправности для каждого ресурса, которое указывает частоту отказов ресурса. Индекс сбоя ресурса сетки увеличивается каждый раз, когда ресурс не выполняет назначенное задание в установленный срок, а также при сбое ресурса. Индекс сбоя ресурса уменьшается каждый раз, когда ресурс завершает назначенное задание в срок. Менеджер индексов ошибок обновляет индекс ошибок ресурса сетки, используя алгоритм обновления индекса ошибок.

Сервер репликации контрольных точек. Когда создается новая контрольная точка, сервер репликации контрольных точек запускает CRS, который будет реплицировать созданные контрольные точки в удаленные ресурсы, применяя RRSA. После репликации данные сохраняются на сервере Checkpoint. Чтобы получить информацию обо всех файлах контрольных точек, сервер репликации запрашивает сервер контрольных точек. В течение всего времени выполнения приложения CRS контролирует сервер Checkpoint для обнаружения новых версий контрольных точек. Информацию о доступных ресурсах, оборудовании, памяти и пропускной способности можно получить в ГИС. Инструмент NWS и Ganglia используется для определения этих деталей. Необходимые детали периодически распространяются этими инструментами в ГИС. В зависимости от размеров передачи, доступного хранилища ресурсов и текущей пропускной способности, CRS выбирает подходящий ресурс, используя RRSA для репликации файла контрольных точек.

Результаты и обсуждение:

Пропускная способность – Пропускная способность является одним из наиболее важных стандартных показателей, используемых для измерения производительности отказоустойчивых систем. Пропускная способность определяется как:

Пропускная способность (n) = n / Tn, где n – общее количество отправленных заданий, а Tn – общее количество времени, необходимое для выполнения n заданий. Пропускная способность используется для измерения способности сетки приспосабливаться к заданиям. Как правило, пропускная способность двух систем уменьшается с увеличением процента отказов, введенных в сеть. Это происходит из-за дополнительной задержки, с которой они оба сталкиваются, чтобы завершить работу в случае сбоя некоторых ресурсов.

Тенденция отказов. Это процентная доля отказов выбранных ресурсов сетки, которая определяется как:

Тенденция сбоя = * 100% Где m – общее количество ресурсов сетки, а Pfj – частота отказов ресурса j. Благодаря этой метрике можно ожидать ошибочного поведения системы. Вывод:

Во всех распределенных средах отказоустойчивость является важной проблемой. Таким образом, предлагаемая работа обеспечивает отказоустойчивость за счет динамической адаптации частоты контрольной точки на основе истории информации о сбое и времени выполнения задания, что снижает накладные расходы контрольной точки, а также увеличивает пропускную способность. Следовательно, ниже были предложены новые методы обнаружения неисправностей, прозрачная отказоустойчивая архитектура клиента, отказоустойчивые методы по требованию, экономичная отказоустойчивая модель, оптимальная система прогнозирования неисправностей, модель множественных отказоустойчивостей и самоадаптивная структура отказоустойчивости для создания сетки. среда является более надежной и заслуживающей доверия.

Зарегистрируйся, чтобы продолжить изучение работы

    Поделиться сочинением
    Ещё сочинения
    Нет времени делать работу? Закажите!

    Отправляя форму, вы соглашаетесь с политикой конфиденциальности и обработкой ваших персональных данных.