Ответ 1
Вы можете создать собственное регулярное выражение на основе вашего требования и затем нажмите данные твиттера, чтобы извлечь определенные твиты.
Для проекта я хочу иметь возможность создавать набор данных твитов, содержащих определенную строку символов. Так как я также хотел бы сделать это как можно раньше, я попытался использовать GetOldTweets script (https://github.com/Jefferson-Henrique/GetOldTweets-python), упомянутый здесь: qaru.site/info/228561/....
Проблема заключается в том, что он не может извлекать твиты, содержащие символы в качестве входных данных. Фактически, вы даже не можете искать непосредственно в Twitter для любых твитов, состоящих из обязательных символов.
Чтобы более четко объяснить проблему, рассмотрим следующий пример. Я хотел бы извлечь все твиты, содержащие строку '!!!' в течение последних двух лет.
Каков наилучший способ сделать это (если это даже выполнимо)?
Вы можете создать собственное регулярное выражение на основе вашего требования и затем нажмите данные твиттера, чтобы извлечь определенные твиты.
Я нашел этот интересный ресурс: https://webapps.stackexchange.com/questions/92196/search-for-tweets-with-special-characters
В основном говорится, что некоторые символы не могут быть найдены, потому что Twitter заблокировал их использование.
Я считаю, что вам нужно сделать поиск через все твиты в диапазоне определенной области, а затем используйте строковый метод find
в сообщении тела каждого твита. Затем вы остановились, когда достигнете определенного времени выполнения или определенного количества найденных твитов.
Вы можете загружать и хранить данные из Twitter API, используя различные критерии (поиск слов в словаре, поиск местоположения, популярные учетные записи Twitter и т.д.). Это не все данные наверняка, но у вас будет какая-то его часть.
Затем выполните поиск этих твитов локально.
Эти символы также действительны в URL-адресе, поэтому удалите URL-адрес перед поиском.
Также не забудьте проверить, является ли сохранение данных, полученных вами в Twitter, законным.
Некоторые люди заархивировали результаты Twitter Stream API. Вы можете скачать GB твитов и работать с ними. Например: https://archive.org/details/twitterstream&tab=collection