Shahul-Rahman / MABSearch-Learning-the-learning-rate

MABSearch: The Bandit Way of Learning the Learning Rate - A Harmony Between Reinforcement Learning and Gradient Descent