Вопрос от коллег: стоит задача создать синтаксически размеченный корпус языка (русского и потом по аналогии другого непопулярного языка). Пока что были пробы работать с библиотекой spaCy и визуализацией зависимостей в jupyter notebook через displacy, а с помощью каких инструментов можно реализовать корпус вне гугл колаба и сложно ли делать визуализацию зависимостей?
Тема: Обработка естественного языка (Natural Language Processing, NLP, Data Science)
Ответы от коллег:
1) Посмотрите список инструментов здесь: https://universaldependencies.org/tools.html#brat-rapid-annotation-tool
Brat наиболее известный.
2) brat, да. Больше ничего нет, но визуализация там не особо хорошая. Если зависимостей много и они далёкие, то выглядит странно. Размечать куда проще, чем потом это проверять. Но, кстати, синтаксически размеченные корпуса русского языка уже есть, и они весьма хорошие.
3) displacy работает и вне колаба, пример кода:
doc = nlp(text)
displacy.serve(doc, style="dep")
Источник: ODS slack
Если Вам понравилась статья, пожалуйста, поставьте лайк, сделайте репост или оставьте комментарий. Если у Вас есть какие-либо замечания, также пишите комментарии.
Комментариев нет:
Отправить комментарий