Зачем нужен Excel
в эпоху Python

Немного об учебе чему-нибудь и как-нибудь

Posted by Ekaterina on March 17, 2022

Сейчас Python –ؘ это целая экосистема, причем придуманная для непрограммистов, с очень низким порогом входа. Если вы специалист в узкой области, например в кредитном анализе, вы сможете увеличить свой доход в 2–3 раза, освоив Python. У вас будет доступ к самым современным технологиям и статистическим методам через обычный веб-браузер, вы сможете бесплатно пользоваться ресурсами вычислительных серверов.

Но одно дело – когда вы двумя строчками вызываете высокоуровневую библиотеку в Python. На Kaggle мы видим много таких соревнований: участники сравнивают логистическую регрессию, методы опорных векторов (SVM), k-ближайших соседей (kNN) с XGBoost, CatBoost, AdaBoost и проч.

А другое дело – когда вы выпускаете модель в продакшн. Клиент требует объяснить, что «под капотом», и учесть миллион нюансов.

И здесь очень помогает старый добрый Excel.

Когда у нас был крупный проект по логистической регрессии, мы реализовали в Excel метод Ньютона–Рафсона по нахождению коэффициентов регрессии. Excel отлично подходит для оптимизации матриц, как и для деревьев решений и даже для нейронных сетей. Перенося все эти методы в Excel, вы начинаете разбирать их «по атомам» и в деталях понимать, как они работают.

Интересно, что в MATLAB финансовые приложения устроены наподобие Excel – «на кнопках». Там полная совместимость с Excel, особенно в том, что касается временных рядов, создания классификаторов, регрессий, деревьев решений – все это делается в удобном визуальном интерфейсе.

Где брать информацию?

В одном из наших проектов надо было написать на Visual Basic байесовский классификатор. Visual Basic в варианте Excel(VBA-макрос) – язык примитивный, пришлось писать с нуля даже формулу стандартного отклонения. Никаких библиотек мы не использовали; кроме того, требовалось учесть нюансы обработки исходных данных, пропуски в данных при стандартном отклонении, дисперсию и т.д.

В таких задачах нам очень помогают ресурсы (в основном западные), которые работают с табличными интерфейсами и где даются комплексные алгоритмы. Это, например, сайт Real Statistics Чарльза Зайонца и сайт Revoledu. На последнем сайте преподаватель Kardi Teknomo объясняет метод опорных векторов на примерах в Excel.

Но на каких бы курсах вы ни учились, любой «боевой» проект намного глубже теории. Сама работа подскажет, какие знания подтянуть.