PROИТ: февраля 2020

Вопрос от коллег: Подскажите, как можно или сделать свой BERT или расширить существующий? Задача не стандартная:

1) Нужны не просто токены (слова эмбедить), а N-граммы, хотя бы до 2, т.е не просто слово "автомобиль" а еще и "легковой автомобиль".

Как я понимаю Берт содержит только по слову в классическом виде, а еще, учитывая, что он бьет BPE токенизации, так вообще плохо.

2) Нет тренировочного датасета, есть просто тексты, короткие (вроде твитера), и нужно сделать хороший эмбединг до биграмм.