Условный заказчик, добывающая компания ведет разработку по бурению новой скважины. Необходимо определить место проведения работ.
Заказчиком предоставлены наборы данных пробы нефти в трёх регионах: в каждом 10 000 месторождений, где измерили качество нефти и объём её запасов.
Построить модель машинного обучения, которая определит регион, где добыча принесёт наибольшую прибыль. Проанализируйте возможную прибыль и риски техникой Bootstrap.
- Загрузка и подготовка данных
- Создание и обучение модели линейой регрессии
- Определение показателей прибыли для каждого региона
- Итоговый вывод
В данном исследовании, на основании данных проб нефти из трех регионов нам нужно было решить, в каком из регионов наиболее эффективно бурить новую скважину.
В результате работы модели получили следующие результаты о качестве модели: средний запас сырья в регионах 1 и 3 оказались, примерно, на одном уровне - 94430 и 94779 баррелей, соответственно, а в регионе 2 - 68983 баррелей. Однако, по метрике RMSE - лучший результат, как раз у региона 1 (0.89). Регоны 1 и 3 - 37.56 и 40.12, соответственно.
В третей части исследования мы определили ключевые значения и определили значение запасов для безубыточного строительства скважины - 111 тыс. баррелей -, что не соответсвтвует средним показателям по регионам.
При помощи техники Bootstrap разделили предсказанные значения каждого региона на 1000 выборок по 500 скважин в каждой, чтобы определить распределение прибыли. Далее определили 200 самых прибыльных скважин в каждом регионе и для них вычислили среднюю прибыль, 95%-й доверительный интервал и риск убытков.
В результате полученных данных предложили регион для строительства скважины с наименьшим риском убытка. Таким регионом оказался регион 2 со значением доли убыточного строительства 0.6%