Сочинение на тему Прогноз выживания для титанических данных с использованием алгоритмов машинного обучения

Опубликовано: 26.08.2020
Предмет: Наука, Развлекательная программа
Темы: Интеллектуальные машины, Технологии, титановый, Фильмы

Потопление RMS Titanic – одно из самых печально известных кораблекрушений в истории. 15 апреля 1912 года во время своего первого плавания «Титаник» затонул после столкновения с айсбергом, убив 1502 из 2224 пассажиров и членов экипажа. Эта сенсационная трагедия потрясла международное сообщество и привела к улучшению правил безопасности для судов.

В этой статье мы собираемся сделать прогнозный анализ того, какие люди могут выжить, и использовать некоторые инструменты машинного обучения, чтобы точно предсказать, какие пассажиры пережили трагедию. IndexTerms – Машинное обучение.

Введение

Машинное обучение означает применение любого компьютерного алгоритма, который можно применить к набору данных, чтобы найти шаблон в данных. Это включает в себя в основном все типы алгоритмов науки о данных, контролируемых, неконтролируемых, сегментации, классификации или регрессии ». Несколько важных областей, в которых можно применять машинное обучение: Распознавание рукописного ввода: преобразование письменных букв в цифровые буквы Перевод языка: перевод устных и / или письменных языков (например, Google Translate) Распознавание речи: конвертируйте голосовые фрагменты в текст (например, Siri, Cortana и Alexa). ü Классификация изображений: помечайте изображения соответствующими категориями (например, Google Photos). Автономный привод: управляемые автомобили (например, NVIDIA и Google Car). Вот некоторые особенности алгоритмов машинного обучения: Особенности – это наблюдения, которые используются для формирования прогнозов. Для классификации изображений пиксели – это функции. Для распознавания голоса высота и громкость образцов звука – это особенности. Для автономных автомобилей данные с камер , датчики дальности и GPS – функции Извлечение соответствующих функций важно для построения модели Источник почты является несущественной функцией при классификации изображений. Источник важен при классификации электронных писем, поскольку СПАМ часто исходит из сообщаемых источников

Обзор литературы

Каждый алгоритм машинного обучения работает лучше всего при заданном наборе условий. Убедитесь, что ваш алгоритм соответствует требованиям допущений, обеспечивает превосходную производительность. Вы не можете использовать любой алгоритм в любых условиях. Вместо этого в таких ситуациях вы должны попытаться использовать такие алгоритмы, как логистическая регрессия, деревья решений, SVM, случайный лес и т. Д. Логистическая регрессия?

Логистическая регрессия – это алгоритм классификации. Он используется для прогнозирования двоичного результата с учетом набора независимых переменных. Для представления двоичного категориального результата мы используем фиктивные переменные. Вы также можете рассматривать логистическую регрессию как особый случай линейной регрессии, когда исходная переменная является категориальной, где мы используем логарифм шансов в качестве зависимой переменной. Проще говоря, он предсказывает вероятность возникновения события путем подгонки данных к функции логита.

Производительность модели логистической регрессии: AIC (AkaikeInformation Criteria). Аналогичным показателем скорректированного R² в логистической регрессии является AIC. AIC – это мера соответствия, которая штрафует модель за количество коэффициентов модели. Поэтому мы всегда предпочитаем модель с минимальным значением AIC: Null Deviance, а Residual Deviance – Null Deviance указывает на ответ, предсказанный моделью только с перехватом. Чем ниже значение, тем лучше модель. Остаточное отклонение указывает ответ, предсказанный моделью при добавлении независимых переменных. Чем ниже значение, тем лучше модель. Матрица путаницы: это не что иное, как табличное представление фактических и прогнозируемых значений. Это помогает нам найти точность модели и избежать переоснащения. McFadden R2 называется псевдо R2. При анализе данных с логистической регрессией эквивалентная статистика R-квадрату не существует. Однако для оценки соответствия логистических моделей было разработано несколько псевдо R-квадратов: точность = истинные положительные значения + истинные отрицательные значения

Деревья решений

Дерево решений – это иерархическая древовидная структура, которую можно использовать для разделения большой коллекции записей на меньшие наборы классов, применяя последовательность простых правил принятия решений. Модель дерева решений состоит из набора правил для разделения большой гетерогенной популяции на более мелкие, более однородные (взаимоисключающие) классы. Атрибутами классов могут быть переменные любого типа из двоичных, номинальных, порядковых и количественных значений, в то время как классы должны быть качественного типа (категориальные или двоичные, или порядковые). Вкратце, учитывая данные атрибутов вместе с его классами, дерево решений создает последовательность правил (или ряд вопросов), которые можно использовать для распознавания класса. Одно правило применяется за другим, что приводит к иерархии сегментов внутри сегментов. Иерархия называется деревом, а каждый сегмент называется узлом. С каждым последующим делением члены результирующих наборов становятся все более похожими друг на друга. Следовательно, алгоритм, используемый для построения дерева решений, называется рекурсивным разделением приложений дерева решений: прогнозирование опухолевых клеток как доброкачественных или злонамеренных классифицирует транзакции по кредитным картам как легитимных или мошеннических, классифицирует покупателей из решений, не связанных с покупателями, о том, утверждать или нет диагноз кредита. различных заболеваний на основе симптомов и профилей

Methodolgy

Наш подход решает проблему:

Соберите необработанные данные, необходимые для решения проблемы.

Импортируйте набор данных в рабочую среду

Предварительная обработка данных, которая включает обработку данных и разработку функций

Изучите данные и подготовьте модель для выполнения анализа с использованием алгоритмов машинного обучения

Оцените модель и повторяйте, пока не получите удовлетворительную производительность модели

Сравните результаты и выберите модель, которая дает более точный результат.

Собранные нами данные по-прежнему являются необработанными данными, которые, скорее всего, содержат ошибки, пропущенные значения и искаженные значения. прежде чем делать какие-либо выводы из данных, нам нужно выполнить некоторую предварительную обработку данных, которая включает в себя обработку данных и разработку функций. Обработка данных – это процесс очистки и унификации беспорядочных и сложных наборов данных для легкого доступа и анализа. В процессе разработки функций создаются дополнительные релевантные функции из существующих необработанных функций в данных и повышается прогностическая сила алгоритмов обучения.

Экспериментальный анализ и обсуждение

Описание набора данных: исходные данные были разделены на две группы: набор обучающих данных (70%) и набор тестовых данных (30%). Этот обучающий набор следует использовать для построения моделей машинного обучения. используется, чтобы увидеть, насколько хорошо ваша модель работает с невидимыми данными. Для тестового набора мы не предоставляем основную правду для каждого пассажира. Ваша задача – прогнозировать эти результаты. Для каждого пассажира в испытательном наборе используйте модель, которую вы обучили, чтобы предсказать, пережили ли они затопление “Титаника”.

<Р> Меры

Результаты после обучения с помощью алгоритмов, мы должны проверить наши обученные алгоритмы с набором тестовых данных и измерить эффективность алгоритмов с точностью соответствия с матрицей путаницы для проверки. 70% данных в качестве набора обучающих данных и 30% в качестве матрицы путаницы набора обучающих данных для набора тестовых данных обученного набора данных дерева решений

Ссылки на прогнозы 0 1 0 395 71 1 45 203

Ссылки на прогнозы 0 1 0 97 20 1 12 48

Путаница матрица для данных испытаний обученных данных логистической регрессии

Ссылки на прогнозы 0 1 0 395 12 1 21 204

Ссылки на прогнозы 0 1 0 97 12 1 21 47

Улучшения и обоснование прогнозирования выживаемости с помощью других алгоритмов машинного обучения, таких как случайные леса, различные машины опорных векторов могут повысить точность прогноза для данного набора данных.

Заключение. Анализ выявил интересные закономерности для отдельных функций. Такие факторы, как социально-экономический статус, социальные нормы и состав семьи, по-видимому, влияют на вероятность выживания. Эти выводы, однако, были получены на основе результатов, полученных в данных. Точность прогнозирования выживаемости с использованием алгоритма дерева решений (83,7) является высокой по сравнению с логистической регрессией (81,3) для данного набора данных

Зарегистрируйся, чтобы продолжить изучение работы

Поделиться сочинением

Ещё сочинения

Конфликт между финансовым положением и любовью

30.10.2020 Комментариев нет

В романе «Чувство и осмысленность» Джейн Остин использует различные тематические элементы, чтобы обучить читателя природе высшего британского общества в 19 веке. Одним из наиболее влиятельных

Читать полностью »

Лаборатория Виртуального Приборостроения Инструментальные средства

30.10.2020 Комментариев нет

Цель этого эксперимента – получить представление о полностью настраиваемой программе LabVIEW и понять, как инженеры используют программу в своих интересах, чтобы создать собственную лабораторию, которая

Читать полностью »

10 модных анимаций для вашей летней свадьбы

30.10.2020 Комментариев нет

Вы мечтаете о дне свадьбы, когда на свидании присутствуют смех и хорошее настроение. Если вы выбираете классическую эстетику или оригинальную свадьбу, вы всегда хотите, чтобы

Читать полностью »