Доступно ли программное обеспечение с открытым исходным кодом, которое анализирует строку и угадывает пол автора?
Я не могу найти ничего, кроме закрытых веб-приложений. Есть ли активные проекты? Мне было бы интересно использовать программное обеспечение в том, что я разрабатываю и участвую.
Ответы
Ответ 1
Вот еще один веб-сайт, который утверждает, что делает это: GenderAnalyzer. Однако он полагается на другой веб-сайт под названием uClassify.com, который не работает, когда я пишу это. У них есть контактная ссылка внизу для вопросов.
Это звучит как академический наряд: "В нашей лаборатории это работает очень хорошо".
Ответ 2
Существует целый набор анализаторов двух классов, которые можно было бы здесь адаптировать... программное обеспечение для защиты от спама и идентификации. Он по-прежнему требует, чтобы пользователь получал мужской текст (рассматривался как спам) и женский текст (рассматривался как ветчина или наоборот), но многие из них должны работать.
Ответ 3
Существуют такие приложения, как "Гендер Genie", которые работают в разумной степени: http://bookblog.net/gender/genie.php (и особенно с более длинными текстами )
Это не должно быть полностью успешным. У меня было бы огромное количество данных для работы, и это в основном просто для удовольствия.
Если кто-нибудь знает что-нибудь, пожалуйста, разделите.
Ричард
Ответ 4
Поскольку вы предполагаете две категории, почти любой классификатор, вероятно, будет работать нормально. Некоторые предложения:
- Наивные заливы
- поддерживающие векторные машины
Как сказал более ранний комментатор, начиная с известной выборки текста (и должно быть много... газетных корпусов может быть хорошо), тренировать и классифицировать по некоторым разумным атрибутам (возможно, присутствие/отсутствие или слова или пары слов).
Это должно быть (сравнительно) легко.
Если вы используете python, даже что-то простое, например, набор инструментов Natural Language Toolkit (cf: nltk.org) и их книга, вы должны получить там много пути.
Ответ 5
У вас возникнет проблема: догадки будут именно такими - догадки. Там нет даже отдаленно точного способа рассказать пол автора строго от их написания, тем больше вы получите плохую оценку.
Ответ 6
Эй, возможно, это возможно. Вам нужно будет взять кучу книг от авторов мужского и женского пола, вытащить предложения, смешать их и накормить в какую-то нейронную сеть для обучения. Честно говоря, мне было бы интересно узнать, не снят ли кто-нибудь. О, и мне просто любопытно , почему нужна такая программа:)
Ответ 7
Вот об этом рассказывается в книге Стивена Бейкера, The Numerati. Существуют компании, посвященные компьютерному анализу блогосферы для маркетинговых целей, и часть их алгоритмов связана с решением, является ли автор мужчиной или женщиной. Я предлагаю прочитать это.
Я не считаю, что такая работа с открытым исходным кодом, но вы можете сами создать сжатую версию. Однако, не анализируя много данных, чтобы запрограммировать это, я не думаю, что это будет очень точно.
Ответ 8
Есть некоторые версии с открытым исходным кодом для скрытой семантической индексации/анализа. Если у вас есть хороший набор мужской и женской письменной документации, относящейся к вашему приложению, он может достаточно точно классифицировать, чтобы быть полезным.
Ответ 9
вы можете попробовать гендерный классификатор в текстовых строках здесь: http://uclassify.com/browse/uClassify/gender_v3
Ответ 10
nlpers об этом было сказано несколько лет назад; см. комментарии там для некоторых предложений...