Доступно ли программное обеспечение с открытым исходным кодом, которое анализирует строку и угадывает пол автора?

Я не могу найти ничего, кроме закрытых веб-приложений. Есть ли активные проекты? Мне было бы интересно использовать программное обеспечение в том, что я разрабатываю и участвую.

Ответы

Ответ 1

Вот еще один веб-сайт, который утверждает, что делает это: GenderAnalyzer. Однако он полагается на другой веб-сайт под названием uClassify.com, который не работает, когда я пишу это. У них есть контактная ссылка внизу для вопросов.

Это звучит как академический наряд: "В нашей лаборатории это работает очень хорошо".

Ответ 2

Существует целый набор анализаторов двух классов, которые можно было бы здесь адаптировать... программное обеспечение для защиты от спама и идентификации. Он по-прежнему требует, чтобы пользователь получал мужской текст (рассматривался как спам) и женский текст (рассматривался как ветчина или наоборот), но многие из них должны работать.

Ответ 3

Существуют такие приложения, как "Гендер Genie", которые работают в разумной степени: http://bookblog.net/gender/genie.php (и особенно с более длинными текстами )

Это не должно быть полностью успешным. У меня было бы огромное количество данных для работы, и это в основном просто для удовольствия.

Если кто-нибудь знает что-нибудь, пожалуйста, разделите.

Ричард

Ответ 4

Поскольку вы предполагаете две категории, почти любой классификатор, вероятно, будет работать нормально. Некоторые предложения:

  • Наивные заливы
  • поддерживающие векторные машины

Как сказал более ранний комментатор, начиная с известной выборки текста (и должно быть много... газетных корпусов может быть хорошо), тренировать и классифицировать по некоторым разумным атрибутам (возможно, присутствие/отсутствие или слова или пары слов).

Это должно быть (сравнительно) легко.

Если вы используете python, даже что-то простое, например, набор инструментов Natural Language Toolkit (cf: nltk.org) и их книга, вы должны получить там много пути.

Ответ 5

У вас возникнет проблема: догадки будут именно такими - догадки. Там нет даже отдаленно точного способа рассказать пол автора строго от их написания, тем больше вы получите плохую оценку.

Ответ 6

Эй, возможно, это возможно. Вам нужно будет взять кучу книг от авторов мужского и женского пола, вытащить предложения, смешать их и накормить в какую-то нейронную сеть для обучения. Честно говоря, мне было бы интересно узнать, не снят ли кто-нибудь. О, и мне просто любопытно , почему нужна такая программа:)

Ответ 7

Вот об этом рассказывается в книге Стивена Бейкера, The Numerati. Существуют компании, посвященные компьютерному анализу блогосферы для маркетинговых целей, и часть их алгоритмов связана с решением, является ли автор мужчиной или женщиной. Я предлагаю прочитать это.

Я не считаю, что такая работа с открытым исходным кодом, но вы можете сами создать сжатую версию. Однако, не анализируя много данных, чтобы запрограммировать это, я не думаю, что это будет очень точно.

Ответ 8

Есть некоторые версии с открытым исходным кодом для скрытой семантической индексации/анализа. Если у вас есть хороший набор мужской и женской письменной документации, относящейся к вашему приложению, он может достаточно точно классифицировать, чтобы быть полезным.

Ответ 10

nlpers об этом было сказано несколько лет назад; см. комментарии там для некоторых предложений...