Навчання запам’ятовувати: синаптична рамка для пластичного навчання для постійного навчання

Олексій Остапенко, Тассіло Кляйн, Моін Набі (дослідження ML)

Люди мають надзвичайну здатність постійно навчатися протягом усього життя. Здатність застосовувати раніше засвоєні знання в нових ситуаціях, середовищах і завданнях є ключовою ознакою інтелекту людини. На біологічному рівні це зазвичай пояснюється здатністю вибірково зберігати і керувати спогадами протягом досить тривалого періоду часу в нейронних зв’язках, званих синапсами. На відміну від біологічних мізків, звичайні штучні нейронні мережі (АНН) не володіють здатністю контролювати силу синаптичних зв’язків між нейронами. Це призводить до надзвичайно короткого життя пам'яті в АНН - ефект, відомий як катастрофічне забуття.

Протягом останнього десятиліття більшість досліджень у галузі штучного інтелекту (AI) були спрямовані на перевищення показників рівня людини на окремих, чітко визначених завданнях, таких як грати в комп'ютерні ігри, сортування спам-листів, класифікація котів від собак та розпізнавання мови, просто назвати декілька. Як результат, більшість ШІ, що оточують нас у повсякденному житті, можна назвати як Штучний вузький інтелект або слабкий ШІ. Сильний ШІ, на відміну від них, відноситься до людиноподібного ШІ, який може виконувати будь-які інтелектуальні завдання, маючи змогу постійно навчатися, вибірково забувати, швидко адаптуючись до нових завдань та використовуючи попередній досвід. Ці властивості лише нещодавно почали привертати увагу дослідників ШІ.

Чому постійне навчання? Ключ до постійно змінюваних сценаріїв

Забуття та відсутність передачі знань є однією з головних проблем на шляху від слабкого ШІ до сильного ШІ. На відміну від людей, які забувають вибірково, машини катастрофічно забувають. Відповідно, поки «дитина вчиться повзати, ходити, а потім бігати» (~ Дейв Уотерс), AI повністю забув би повзати, коли навчився ходити, і забув би ходити, як тільки навчився бігати. Перш ніж розглядати можливі рішення проблеми постійного навчання протягом усього життя, розглянемо простий приклад пошуку каталогу одягу на основі AI.

Модель машинного навчання, підготовлену на наборі даних, що містить предмети одягу сезону (А), буде надзвичайно ефективною при пошуку серед продуктів (А) цього сезону. Однак, як зміниться сезон, модні тенденції можуть змінитися. Після зміни модних тенденцій до каталогу можуть бути додані нові категорії товарів, моделі та фасони (наприклад, високі підбори замість кросівок, довгі куртки замість коротких курток тощо). Модель, підготовлена ​​за даними першого сезону (А), не буде ефективно працювати при пошуку елементів, доданих у новому сезоні. Насправді просто навчання нашої моделі за даними нового сезону призвело б до катастрофічного забуття можливості пошуку серед предметів попереднього сезону.

Загальний спосіб вирішення забування?

Один з найбільш ранніх методів пом'якшення катастрофічного забуття в АНН відомий як перегляд досвіду або "репетиція". Продовжуючи наш приклад пошуку в каталозі, з метою збереження інформації, яка була вивчена в першому сезоні, модель машинного навчання просто перенавчається з нуля на суміші даних обох сезонів, тобто раніше засвоєні знання перетворюються на модель, навчану на дані нового сезону. Взагалі, перекваліфікація моделі щоразу, коли «зрушення» розподілу даних призводить до вибуху витрат на зберігання даних та зусиль, необхідних для підтримки інтелектуальних систем, не кажучи вже про драматичне зниження масштабованості системи. Нарешті, зберігання необроблених даних попередніх завдань може значною мірою порушити вимоги конфіденційності даних у реальному додатку.

У цьому контексті багато дослідників зосередили увагу на моделюванні нейронної пластичності в АНН і таким чином пом'якшили необхідність зберігання необроблених даних (1,2,3,4,5,6). Зазвичай це робиться в так званій установці "додатково-додаткові" налаштування, де кожен щойно доданий фрагмент даних розглядається як окреме завдання, а інформація про мітку завдання вважається доступною в тестовий час. Повертаючись до прикладу пошуку каталогу, для цього потрібно буде включати інформацію про етикетку сезону (етикетку завдання) у кожен запит; отже, класифікація певного предмета одягу потребує апріорної інформації про сезон, до якого він належить (ярлик завдання). Наявність такої "мітки завдань" автоматично зменшить вихід моделі до класів, що належать до передбачуваної задачі. Таким чином, у нашому прикладі вище це обмежило б модель лише певним сезоном. Ці припущення рідко можна виконати в реальних програмах.

Окремий напрямок роботи вирішує такий сценарій, як у реальному світі. У цьому сценарії «клас-інкремент» класифікаційний вихід моделі подовжується безперервно в міру засвоєння нових класів. У цьому контексті загальною стратегією є введення так званого генеративного компонента пам'яті (наприклад, 7,8,9). Тут замість зберігання необроблених даних навчається така генеративна модель, як GAN або VAE (див. Попередній поштовий блог) для створення досвіду для відтворення. Отже, у прикладі каталогу, елементи (з відповідним класом) першого сезону будуть генеруватися та перетворюватися на модель.

Існуючі підходи до генеративної пам’яті здебільшого покладаються на ідею глибокого генеративного відтворення, де генеративна модель повторно перекваліфікується на суміш наявних на даний момент реальних даних (новий сезон) та епізоди відтворення, синтезовані попереднім генератором (минулий сезон). Однак, крім того, що є дуже неефективними у навчанні, ці підходи сильно схильні до ефекту, відомого як «семантичний дрейф». "Семантичний дрейф" відноситься до якості зображень, що створюються при кожному відтворенні пам'яті залежно від раніше створених зображень, викликаючи сприйнятливість до поширення помилок і, таким чином, призводить до втрати якості та забуття.

Пропоноване рішення - навчання пластичності в генеративній мережі пам'яті

Поки ми дізналися, що повтор досвіду - це проста і корисна стратегія подолання забуття в ANN загалом, особливо в складній ситуації «клас-інкремент». Тим не менш, ця стратегія застосовна лише тоді, коли епізоди відтворення не зберігаються як вихідні дані, а у вигляді відповідних і ефективно зберігаються шаблонів пам'яті.

Для вирішення цього питання в нашій останній роботі ми запропонували метод під назвою "Динамічна генеративна пам'ять" (DGM) - цілісний тренінг для постійного навчання, який імітує синаптичну пластичність із вивченими жорсткими масками уваги, застосованими до параметрів генеративної мережі (GAN) . Жорстке маскування уваги визначає мережеві сегменти, які мають важливе значення для запам’ятовування вивченої інформації та запобігає їх оновленню під час майбутнього навчання. Мережа додатково стимулюється до повторного використання раніше засвоєних знань, які зберігалися в таких «зарезервованих» мережевих сегментах, що дало позитивний передачу знань уперед. Отже, у нашому прикладі каталогу товарів, знання про товари з каталогу попереднього сезону можна було б ефективно використати, дізнавшись про товари нового сезону. Загалом, DGM може дізнатися про нові завдання без необхідності повторювати старі знання, тим самим підвищуючи ефективність навчання та стаючи більш надійними в умовах катастрофічного забування.

Отже, DGM може генерувати інформативні та різноманітні зразки раніше засвоєних категорій на будь-якому етапі постійного навчання, як показано на малюнку нижче. Перенесення цих зразків до моделі розв’язування задач (D) дає модель, яка може зберегти високу класифікаційну ефективність у всіх класах, які були помічені в процесі постійного навчання.

На масштабованість

Зважаючи на обмежений розмір мережі, неминуче, що при збільшенні кількості завдань для навчання, потужність моделі виснажується в певний момент часу. Це питання загострюється при моделюванні нейронної пластичності при маскуванні уваги на рівні параметра. Щоб гарантувати достатню потужність і постійну виразну потужність базової мережі, DGM зберігає кількість "вільних" параметрів (тобто один раз, які можна ефективно оновити) постійними, розширюючи мережу з точно кількістю параметрів, зарезервованих для попереднього завдання. Основна ідея тут полягає в тому, що при заданій позитивній передачі знань уперед (тобто повторне використання параметрів) кількість резервувань параметрів для нових завдань має зменшуватися з часом і зростання мережі повинен насичуватися в певний момент.

Для отримання технічних деталей щодо методу DGM, будь ласка, зверніться до повної статті про arXiv.

Незважаючи на те, що все ще далеко від вирішення проблеми катастрофічного забуття повністю і, незважаючи на кілька обмежень, DGM демонструє ефективний ріст мережі та стійкість до катастрофічного забуття в складній установці «клас-інкремент». Ми вважаємо, що представлені дослідження можуть допомогти нам просунути своє розуміння постійного навчання - найважливішої здатності на шляху до досягнення сильного ШІ, що здатний навчатися (і забувати) адаптивно та прогресивно з часом.

Наша робота з навчання протягом усього життя представлена ​​на CVPR 2019.

Про автора: Олексій Остапенко, юрист-науковий співробітник дослідної групи машинного навчання SAP, працює над проблемами постійного навчання протягом усього життя, обговореними в цій публікації, у своїй статті, яка буде представлена ​​на ЦВРР цього року.