Закончил работы над основной частью алгоритма по определению тональности текста (позитив/негатив). Работает здесь: computana.ru
Для обучения алгоритма я собрал положительные и отрицательные отзывы на Яндекс.Маркете, выбрал из них значимые лексемы и с помощью статистического анализа присвоил каждому корню слова определенный негативный или позитивный балл. Не все слова одинаково позитивны или негативны.
На данный момент не хватает откровенно грубых высказываний и не нормативной лексики, потому что на Маркете таких комментариев просто нет. Зато теперь, когда добавлена возможность обучения системы людьми, алгоритм сможет обучиться распознаванию и более свободной речи.
Впереди создание хронологического трекера трендов в реальном времени на основе информации из социальных сетей.


