Как удалить emoji из текста?
Описание проблемы:
Периодически, например при запросе статистики по рекламным кампаниям, или тем более объявлениям, в их названиях вам могу попадаться разные emoji. Вот пример реального названия РК которая попался мне в выгрузке:"📈_Pis_mo_dlja_uchastnika_KEY_Conference_22.10_📈".
Проблема может возникнуть, например, при попытке записать текст с emoji в базу данных.
Решение:
Удалить emoji из текста можно с помощью регулярного выражения [^\x01-\x7F].
Пример:
Texts = c("Let the stormy clouds chase, everyone from the place ☁️ ♪ ♬",
"See you soon brother ☮️ ",
"A boring old-fashioned message" )
gsub("[^\x01-\x7F]", "", Texts)
[1] "Let the stormy clouds chase, everyone from the place "
[2] "See you soon brother "
[3] "A boring old-fashioned message"
Ссылки:
- подсмотрено на stackoverflow в теме "remove emoticons in R using tm package"
#заметки_по_R