Обложка канала

R4marketing | канал Алексея Селезнёва | Язык R

Автор канала Алексей Селезнёв, руководитель отдела аналитики в Netpeak, автор R пакетов: ryandexdirect, rfacebookstat и др. В канале публикуются статьи, доклады, новости, заметки по языку R.

R4marketing | канал Алексея Селезнёва | Язык R

4 года назад
Открыть в
​​Как удалить emoji из текста? Описание проблемы: Периодически, например при запросе статистики по рекламным кампаниям, или тем более объявлениям, в их названиях вам могу попадаться разные emoji. Вот пример реального названия РК которая попался мне в выгрузке:"📈_Pis_mo_dlja_uchastnika_KEY_Conference_22.10_📈". Проблема может возникнуть, например, при попытке записать текст с emoji в базу данных. Решение: Удалить emoji из текста можно с помощью регулярного выражения [^\x01-\x7F]. Пример:
 
Texts = c("Let the stormy clouds chase, everyone from the place ☁️  ♪ ♬",
    "See you soon brother ☮️ ",
    "A boring old-fashioned message" ) 

gsub("[^\x01-\x7F]", "", Texts)
[1] "Let the stormy clouds chase, everyone from the place    "
[2] "See you soon brother  "                                  
[3] "A boring old-fashioned message"

Ссылки: - подсмотрено на stackoverflow в теме "remove emoticons in R using tm package" #заметки_по_R