ML-Interview

Банк вопросов с собеседований на позицию Machine Learning Engineer в области Computer Vision.

Почему модель на этапе обучения занимает больше памяти, чем на инференсе?
Что такое Dropout?
Какие виды нормализации существуют?
Как работает BatchNorm и LayerNorm? Преимущества и недостатки каждой и где применяются?
Рассказать про архитектуру ViT.
Что такое переобучение и способы борьбы с ним.
Как работает NMS (Non Maximum Suppression) и для чего нужен?
Рассказать про метрику MAP (Mean Average Precision). Что значит MAP@0.5, MAP@0.5:0.95?
Какие существуют методы регуляризации? Плюсы и минус каждого, области применения каждого.
Почему L1 регуляризация зануляет часть весов?
Какие знаешь оптимизаторы, в чем их идеи и различия?
Gradient Descent (GD), Stochastic Gradient Descent (SGD) и Mini-Batch Stochastic Gradient Descent (Mini-Batch SGD). В чем их различия, плюсы и минусы каждого?
Если бы мы имели бесконечные ресурсы (память, GPU, CPU и т.д.), а также нам была бы не важна скорость сходимсти, то какой метод GD, SGD или Mini-Batch SGD лучше использовать?
Какие проблемы могут возникать при использовании функции активации Sigmoid вместе с BatchNorm?
Проблемы функции активации Sigmoid, где применяется и как интерпретируется?
Рассказать про multi-head attention в деталях.
CLIP - идея, функция потерь, способ обучения, для чего используется? Какие метрики дистанции между эмбеддингами можно использовать и какую метрику использовали авторы?
Что является таргетом в задаче детекции, как формируется функция потерь?
Какие типы моделей знаешь для задач детекции?
В чем разница self-attention и cross-attention, для чего используется каждый?
Какие знаешь трансформеры для задач Computer Vision (CV)?
Как из текстов получить эмбеддинги, которые пойдут на вход в трансформер?
Проблемы с инициализацией весов нулями. Как можно инициализировать веса так, чтобы решить проблемы?
Формулировка задачи Maximum Likelihood Estimation. Записать формулу.
Рассказать про идею ResNet, написать ResidualBlock.
Что такое операция свертки? Какие у нее свойства? Как представить в виде матричного умножения?
Что такое receptive field?
Как можно аггрегировать композитную функцию потерь (loss = loss1 + loss2)?
Что означает каждое обозначение в функции потерь для Faster-RCNN (loss_classifier, loss_objectness, loss_rpn, loss_bbox)?
Чем двухстадийные детекторы отличаются от одностадийных?
Как аналитически решается задача линейной регрессии?
Pre-layer norm vs post-layer norm, в чем разница, какие и где используются и почему?
Задачка на матстат: есть 100 монет, 1 нечестная (обе стороны орел), выпал орел, найдите вероятность, что монетка была нечестной.
Почему сеть с BatchNorm сходится быстрее?
Какие виды сверток знаешь, идеи, плюсы и минусы каждой?
Какие обучаемые параметры есть в BatchNorm и для чего они нужны?
Какие метрики бинарной классификации есть? Плюсы и минусы каждой.
Что такое TPR и FPR?
Как ROC-AUC работает на данных, где есть дисбаланс классов?
Что такое проблема мультиколлинеарности признаков?
Что такое bias, variance модели? Что такое bias-variance trade-off? Какой bias и variance у различных типов моделей: линейные модели, деревья, ансамбли деревьев?
Рассказать про RandomForest.
Что такое градиентный бустинг? Где там появляется градиент?
Почему в градиентном бустинге обычно менее глубокие деревья используют, чем в случайном лесе?
Почему деревья сильнее переобучаются?
Можно ли строить случайный лес над KNN, линейными моделями и нейросетями, почему?
Задача: решаем задачу линейной регрессии, все y > 0, какие алгоритмы из написанных могут дать отрицательное значение: линейная регрессия, KNN, градиентный бустинг, дерево, случайный лес, нейросеть?
ROC-AUC = 0.9, что с ним будет если домножить все предсказания на число 3?
Есть градиентный бустинг и случайный лес на 1000 деревьев, что будет с качеством каждой модели если удалить первое построенное дерево?
Коэффициент корреляции равен 0 можно ли утверждать, что выборки независимы?
Какую зависимость ищет корреляция?
Как проверить нормальность выборки?
Метрики multiclass классификации, их плюсы и минусы?
Как происходит процесс построения дерева?
Что такое дисбаланс классов и как с ним бороться?
Почему мы перешли от сверток (CNN) к механизму вниманию (Transformer) во многих задачах CV?
Почему практически перестали использовать свертки больших размеров 9x9, 7x7, 5x5?
Может ли быть такое, что Atrous свертка вообще никогда не использует какой-то пиксель?
Можно ли заменить свертку 3x3 на две: 3x1 и 1x3?
Как работает матчинг bounding bbox в моделях YOLO / DETR?
Рассказать про венгерский алгоритм.
Как обучался BERT?
Как работают различные токенизаторы текста?
Почему в трансформерах есть ограничения на количество токенов?
Что такое позиционные эмбеддинги и для чего они нужны? Какие есть виды и для чего каждый нужен?
Что такое gradient clipping?
Рассказать про gradient accumulation.
Рассказать про MobileNet и EfficientNet.
Что такое bottleneck слой и для чего он используется?
Почему в residual connection используется операция сложения?
Можно ли использовать двумерное позиционное кодирование в трансформерах, работающих с изображениями?
Какие проблемы могут быть у одномерного позиционного кодирования в случае работы с изображениями?
Задача: что будет эффективнее подать 2 входа по 512 токенов в трансформер по отдельности (2x512) или объединить входы и подать сразу (1x1024)?
Как борются с квадратичной сложностью механизма внимания?
Что такое и зачем нужны RoI, RoI Pooling, RoI Align?
Для чего в задачах детекции нужны anchor боксы?
Как объединяются выходы голов в FPN?
Что такое multi-scale детекция?
Какая вероятностная интерпретация у ROC-AUC?
Как происходит расчет ROC-AUC?
Как определяются thresholds для расчета ROC-AUC?
Решаем задачу бинарной классификации, как изменятся метрики precision и recall, если выкинуть 10 нулей из таргета?
Что такое bagging?
Что такое градиент?
Что такое pvalue и для чего оно нужно?
Отличие classmethod от staticmethod в Python?
Какие типы подходят как ключ словаря в Python?
Можно ли использовать (1, [1,2]) как ключ словаря в Python?
Какая структура данных лежит в основе dict в Python?
Какие знаешь виды сортировок и их сложности?
Какая сложность вставки в словарь и индексации в Python?
Как посчитать медиану в SQL без встроенной функции? Как посчитать количество строк в таблице? Знаешь ли ты про оконные функции?
Какой learning rate будешь использовать для большого батча, а какой для маленького?
Что такое GIL в Python?
Как реализуют параллельность с учетом GIL в Python?
Что такое ассинхронность?
Какие слои в нейросетях отличаются поведением на трейне / инференсе?
Что такое GAN, какие знаешь, какие использовал?
Какая математическая идея у диффузионных моделей?
Какая идея Cycle-GAN?
Какие методы можно использовать для генерации изображений? Их плюсы и минусы.
Рассказать про ControlNet, LoRA.
Из каких частей состоит Stable Diffusion (SD)?
Что предсказывает U-Net в SD на каждом шаге?
Какой вид U-Net используется в SD?
Как обучаются модели SD?
Как семплируется шаг t в SD?
Как можно модифицировать архитектуру SD, чтобы генерировать не только по тексту, но и по дополнительным входам (изображения, аудио и т.д.)?
Какие еще диффузионные модели есть кроме SD?

epishchik / ML-Interview

ML-Interview

About