Перейти к содержанию

Test Bayes Module


santax

Рекомендуемые сообщения

2047yqE.jpg

 

Здравствуйте! Перед вами тестовая программа, необходимая для дальнейшего написания автоматизированного модуля оценки актуальности текстовой информации.

 

Принцип работы прост, далее он представлен:

Вам будет представлено некое информационное новостное сообщение. Ваша задача заключается в выборе оценки сообщения - актуальна (важна), интересна эта информация для вас или нет.

 

! Не желателен однообразный выбор: например, 95% всех сообщений актуально (неактуально), остальное наоборот. Исходите от своих интересов, вкусов и предпочтений. Просьба не выбирать наобум, а ответственно отнестись к сказанному.

Данный процесс слегка долог, всего вам будет предложено 1071 сообщение, поэтому работу над оценкой актуальности сообщений вы можете выполнять несколько дней. Функционал тестового модуля позволяет запоминать, на каком этапе вы завершили работу, и начнет дальнейшую оценку с данного места. По завершении выполнения всего курса данной программы вы увидите благодарственное сообщение о завершении прохождения курса оценки информации.

 

Завершающий этап:

По завершении, пожалуйста, отправьте файл test.mdb на почту tbm_logs@mail.ru с темой "Отчет по TBM". Вы также можете сами просмотреть содержимое данной базы, но очень большая просьба - не изменяйте структуру файла и не вносите никакие изменения в него!

 

Основные файлы тестового модуля (не удалять их!):

Test Bayes Module.exe - исполняемая программа модуля

Test_Bayes_Module.ini - конфигурационный файл, содержащий данные, на какой стадии прохождения вы находитесь

Test.mdb - база всех новостных сообщений

 

Все основные вопросы, замечания и предложения вы можете высказать по электронной почте tbm_logs@mail.ru с темой "Вопрос по TBM", а также на странице Вконтакте официальной группы Test Bayes Module

 

Большое спасибо за вашу поддержку и помощь!

 

P.S. просьба модераторам, если случайно нарушил правила с публикацией личных контактных данных, скрыть их - они указаны в прилагающемся файле readme.doc, спасибо!

Сообщение от модератора Mark D. Pearlstone
Не пишите красным цветом. Данный цвет использует только администрация.

Test_Bayes_Module.rar

Изменено пользователем Mark D. Pearlstone
Ссылка на комментарий
Поделиться на другие сайты

Итак, для чего это мне нужно.

 

Мной разрабатывается программный продукт, в функционал которого входит возможность оценивать любую получаемую текстовую информацию в зависимости от ваших предпочтений и автоматически предоставляет вам на обзор наиболее значимые и важные сообщения для вас. Нет, он не ищет в сообщении определенные слова из различных тематик, например, для футбола: гол штанга угловой пенальти; для баскетбола: трехочковый пробежка "мяч в кольце" и т.д. Алгоритм иной: Анализируется значимость каждого отдельного слова сообщения, после этого высчитывается общая характеристика значимости всего сообщения и затем полученное значение сравнивается с критерием "пороговое значение актуальности". Если рассчитанное значение больше порогового, то сообщение важно, иначе нет. Кстати, данный алгоритм используется во многих спам-фильтрах.

 

Изначально, данный алгоритм был применен мной при разработке дипломного проекта: создание программы чтения RSS-лент с применением фильтра оценки актуальности новостей. Тема интересна, программа была написана и защищена на 5. Но научный руководитель предложил продолжить разработку, улучшив и расширив область применения данного алгоритма и рассчитывания определенных характеристик.

 

Данный программный тестовый модуль Test Bayes Module разрабатывался, чтобы собрать и выявить определенные значения - например, пороговое значение значимости, предел количества информационных сообщений, достаточное для обучения данного модуля, и д.р. Поэтому создана база с 1071 сообщением, которые предоставляются пользователям на оценку важности для них. Это единственная ваша задача - после этого мне необходим ваш полученный файл test.mdb с полученными значениями. Чем больше будет у меня таких баз от разных пользователей, тем шире и точнее будут расчеты характеристик. ПО этой причине и прошу огромной вашей помощи в участии оценке!

 

Главные вопросы, которые уже задали и ответы на них:

1В. 1071 сообщений слишком много и у меня нет времени

1О. в папке с программой при запуске создается конфигурационный файл, который хранит количество уже оцененных вами сообщений (не удаляйте его). Поэтому можно выполнять оценку сообщений в несколько этапов. Время, которое на это отводится: примерно 2 недели ~ 1 месяц, думаю достаточное для прохождения всего курса.

 

2В. В программе есть вирус?

2О. Нет, в данной ссылке представлен отчет по проверке на вирусы http://www.virustotal.com/file-scan/report...a99f-1316356333

 

3В. Программа лезет в интернет?

3О. Нет, вся работа заключается в обработке файла test.mdb

 

4В. Я видел(а) это уже сообщение, как мне оценивать его?

4О. Представьте, что видете его впервые и оцениваете сообщение с этим условием.

 

5В. Откуда собраны информационные сообщения?

5О. Отсюда: http://news.yandex.ru/export.html

 

Если будут дополнительные вопросы, то спрашивайте здесь, отвечу. Спасибо!

Ссылка на комментарий
Поделиться на другие сайты

6В. - не понимаю, почему я должна выбирать, нравится или нет мне инфа, смысл какой?)) ты потом по результатам опроса выберешь наиболее интересные темы ?

6О. - Нет ;) я потом по результатам буду писать модуль автоматического обучения, который сможет оценивать актуальность текста автоматически исходя из твоих предпочтений - и эти данные в этом мне помогут. по ним я смогу найти найболее оптимальные и лучшие характеристики необходимые для модуля.

 

З.Ы. просьба тем, у кого есть возможность, передайте этот архив (не папку, т.к. она может содержать конфигурационный файл, и пользователи начнут прохождение теста не с начала.) своим друзьям и знакомым, чтобы они также смогли помочь в сборе данных. и желательно указывайте на эту тему, так как она содержит наиболее частые вопросы и ответы на них. Огромное спасибо!

Изменено пользователем santax
Ссылка на комментарий
Поделиться на другие сайты

Мне кажеться это на маркетинговые вопросы;))) интернет пользователи чем итересуються.

Изменено пользователем Susumi
Ссылка на комментарий
Поделиться на другие сайты

Мирный Атом, спасиб! ;) ты первый! Даже я не успел пройти весь курс пока что :)

Susumi, все сообщения брались из новостных лент яндекса, при чем за один день, с разных тематик - так что учитывается обширный спектр интересов пользователей. Специально делал так: если бы было определенного круга тематика, то ухудшилась бы статистика, да и круг заинтересованных бы сразу же снизился.

Ссылка на комментарий
Поделиться на другие сайты

Пожалуйста, войдите, чтобы комментировать

Вы сможете оставить комментарий после входа в



Войти
×
×
  • Создать...