santax Опубликовано 21 сентября, 2011 Share Опубликовано 21 сентября, 2011 (изменено) Здравствуйте! Перед вами тестовая программа, необходимая для дальнейшего написания автоматизированного модуля оценки актуальности текстовой информации. Принцип работы прост, далее он представлен: Вам будет представлено некое информационное новостное сообщение. Ваша задача заключается в выборе оценки сообщения - актуальна (важна), интересна эта информация для вас или нет. ! Не желателен однообразный выбор: например, 95% всех сообщений актуально (неактуально), остальное наоборот. Исходите от своих интересов, вкусов и предпочтений. Просьба не выбирать наобум, а ответственно отнестись к сказанному. Данный процесс слегка долог, всего вам будет предложено 1071 сообщение, поэтому работу над оценкой актуальности сообщений вы можете выполнять несколько дней. Функционал тестового модуля позволяет запоминать, на каком этапе вы завершили работу, и начнет дальнейшую оценку с данного места. По завершении выполнения всего курса данной программы вы увидите благодарственное сообщение о завершении прохождения курса оценки информации. Завершающий этап: По завершении, пожалуйста, отправьте файл test.mdb на почту tbm_logs@mail.ru с темой "Отчет по TBM". Вы также можете сами просмотреть содержимое данной базы, но очень большая просьба - не изменяйте структуру файла и не вносите никакие изменения в него! Основные файлы тестового модуля (не удалять их!): Test Bayes Module.exe - исполняемая программа модуля Test_Bayes_Module.ini - конфигурационный файл, содержащий данные, на какой стадии прохождения вы находитесь Test.mdb - база всех новостных сообщений Все основные вопросы, замечания и предложения вы можете высказать по электронной почте tbm_logs@mail.ru с темой "Вопрос по TBM", а также на странице Вконтакте официальной группы Test Bayes Module Большое спасибо за вашу поддержку и помощь! P.S. просьба модераторам, если случайно нарушил правила с публикацией личных контактных данных, скрыть их - они указаны в прилагающемся файле readme.doc, спасибо! Сообщение от модератора Mark D. Pearlstone Не пишите красным цветом. Данный цвет использует только администрация. Test_Bayes_Module.rar Изменено 22 сентября, 2011 пользователем Mark D. Pearlstone Ссылка на комментарий Поделиться на другие сайты More sharing options...
santax Опубликовано 22 сентября, 2011 Автор Share Опубликовано 22 сентября, 2011 Итак, для чего это мне нужно. Мной разрабатывается программный продукт, в функционал которого входит возможность оценивать любую получаемую текстовую информацию в зависимости от ваших предпочтений и автоматически предоставляет вам на обзор наиболее значимые и важные сообщения для вас. Нет, он не ищет в сообщении определенные слова из различных тематик, например, для футбола: гол штанга угловой пенальти; для баскетбола: трехочковый пробежка "мяч в кольце" и т.д. Алгоритм иной: Анализируется значимость каждого отдельного слова сообщения, после этого высчитывается общая характеристика значимости всего сообщения и затем полученное значение сравнивается с критерием "пороговое значение актуальности". Если рассчитанное значение больше порогового, то сообщение важно, иначе нет. Кстати, данный алгоритм используется во многих спам-фильтрах. Изначально, данный алгоритм был применен мной при разработке дипломного проекта: создание программы чтения RSS-лент с применением фильтра оценки актуальности новостей. Тема интересна, программа была написана и защищена на 5. Но научный руководитель предложил продолжить разработку, улучшив и расширив область применения данного алгоритма и рассчитывания определенных характеристик. Данный программный тестовый модуль Test Bayes Module разрабатывался, чтобы собрать и выявить определенные значения - например, пороговое значение значимости, предел количества информационных сообщений, достаточное для обучения данного модуля, и д.р. Поэтому создана база с 1071 сообщением, которые предоставляются пользователям на оценку важности для них. Это единственная ваша задача - после этого мне необходим ваш полученный файл test.mdb с полученными значениями. Чем больше будет у меня таких баз от разных пользователей, тем шире и точнее будут расчеты характеристик. ПО этой причине и прошу огромной вашей помощи в участии оценке! Главные вопросы, которые уже задали и ответы на них: 1В. 1071 сообщений слишком много и у меня нет времени 1О. в папке с программой при запуске создается конфигурационный файл, который хранит количество уже оцененных вами сообщений (не удаляйте его). Поэтому можно выполнять оценку сообщений в несколько этапов. Время, которое на это отводится: примерно 2 недели ~ 1 месяц, думаю достаточное для прохождения всего курса. 2В. В программе есть вирус? 2О. Нет, в данной ссылке представлен отчет по проверке на вирусы http://www.virustotal.com/file-scan/report...a99f-1316356333 3В. Программа лезет в интернет? 3О. Нет, вся работа заключается в обработке файла test.mdb 4В. Я видел(а) это уже сообщение, как мне оценивать его? 4О. Представьте, что видете его впервые и оцениваете сообщение с этим условием. 5В. Откуда собраны информационные сообщения? 5О. Отсюда: http://news.yandex.ru/export.html Если будут дополнительные вопросы, то спрашивайте здесь, отвечу. Спасибо! Ссылка на комментарий Поделиться на другие сайты More sharing options...
santax Опубликовано 24 сентября, 2011 Автор Share Опубликовано 24 сентября, 2011 (изменено) 6В. - не понимаю, почему я должна выбирать, нравится или нет мне инфа, смысл какой?)) ты потом по результатам опроса выберешь наиболее интересные темы ? 6О. - Нет я потом по результатам буду писать модуль автоматического обучения, который сможет оценивать актуальность текста автоматически исходя из твоих предпочтений - и эти данные в этом мне помогут. по ним я смогу найти найболее оптимальные и лучшие характеристики необходимые для модуля. З.Ы. просьба тем, у кого есть возможность, передайте этот архив (не папку, т.к. она может содержать конфигурационный файл, и пользователи начнут прохождение теста не с начала.) своим друзьям и знакомым, чтобы они также смогли помочь в сборе данных. и желательно указывайте на эту тему, так как она содержит наиболее частые вопросы и ответы на них. Огромное спасибо! Изменено 24 сентября, 2011 пользователем santax Ссылка на комментарий Поделиться на другие сайты More sharing options...
Susumi Опубликовано 24 сентября, 2011 Share Опубликовано 24 сентября, 2011 1071 вопросов О.О )) очень много)) Ссылка на комментарий Поделиться на другие сайты More sharing options...
santax Опубликовано 24 сентября, 2011 Автор Share Опубликовано 24 сентября, 2011 Susumi, поэтому и срок примерно месяц Ссылка на комментарий Поделиться на другие сайты More sharing options...
Мирный Атом Опубликовано 24 сентября, 2011 Share Опубликовано 24 сентября, 2011 Susumi, да ладно тебе. Час-полтора и все готово (если никуда не отвлекаться). santax, отчет выслал на указанное мыло. Ссылка на комментарий Поделиться на другие сайты More sharing options...
Susumi Опубликовано 24 сентября, 2011 Share Опубликовано 24 сентября, 2011 (изменено) Мне кажеться это на маркетинговые вопросы)) интернет пользователи чем итересуються. Изменено 24 сентября, 2011 пользователем Susumi Ссылка на комментарий Поделиться на другие сайты More sharing options...
santax Опубликовано 24 сентября, 2011 Автор Share Опубликовано 24 сентября, 2011 Мирный Атом, спасиб! ты первый! Даже я не успел пройти весь курс пока что Susumi, все сообщения брались из новостных лент яндекса, при чем за один день, с разных тематик - так что учитывается обширный спектр интересов пользователей. Специально делал так: если бы было определенного круга тематика, то ухудшилась бы статистика, да и круг заинтересованных бы сразу же снизился. Ссылка на комментарий Поделиться на другие сайты More sharing options...
Рекомендуемые сообщения
Пожалуйста, войдите, чтобы комментировать
Вы сможете оставить комментарий после входа в
Войти