Одна из секретных служб США, обеспечивающая безопасность президента и других первых лиц страны, разместила заказ на разработку программного обеспечения, способного анализировать информацию из социальных сетей, в том числе выявлять саркастические нотки в словах пользователей.
В числе множества функций нового ПО указана возможность определять сарказм в сообщениях пользователей, пишет The Washington Post. Помимо этого, новая компьютерная программа должна уметь распознавать лидеров общественного мнения и предоставлять результаты анализа на экране.
Для реализации своих задач спецслужба, чьё точное название не указывается, планирует анализировать с помощью нового ПО большие объёмы информации в реальном времени, а также подключаться к архивным данным Twitter. Программа должна быть совместима с браузером Internet Explorer 8.
«Нашей задачей является автоматизация мониторинга социальных медиа. Мы анализируем Twitter. Это происходит в режиме реального времени», — рассказал изданию The Washington Post пресс-секретарь секретной службы Эд Донован. Новая технология упростит отслеживание в соцсетях наиболее важных тем, волнующих пользователей Интернета, отметил он.
По словам Донована, способность улавливать сарказм станет лишь одной из 16 или 18 функциональных возможностей программы интернет-слежения.
>Одна из секретных служб США, обеспечивающая безопасность президента и других первых лиц страны, разместила заказ на разработку программного обеспечения, способногов том числе выявлять саркастические нотки в словах пользователей.
Интересно, а что станет с теми пользователями, у которых сарказм таки будет выявлен? Получат ценный приз?
> Я вот регулярно пишу, что во всем виноват Путин.
Скорее всего, программа так и будет работать - путем поиска в тексте подобных характерных мемов, которых у нее будет очень богатая, постоянно обновляющаяся база.
> А в Штатах мне бы настал пиздец!!!
Вот почему таки сразу и пиздец? Нет, просто отправят на встречу с такими мастерами сарказма как Джордж Карлин и Ричард Прайор, только и всего
Да все просто - сначала набросать слова-маркеры, часто обозначающие сарказм. А потом построить самообучающуюся сеть, которая будет выдавать вероятность сарказма в комментарии. Способна "корпорация добра" и ее конкуренты.
Всё очень просто - будут сабстринги парсить - если есть три знака!!! - значит сарказом и нельзя. А если нет три знака то не сарказом. Значит можно. А что такое нельзя? Нельзя это когда запрещено.
Сразу навеяло:
На соревнованиях по женской логике победил генератор случайных чисел.
На соревнованиях генераторов случайных чисел победил бюджет Украины на очередной финансовый год.
Софт не будет вычислять - софт станет назначать проявивших сарказм и допустивших иронию!
"От Вашей красоты так жарко, что вянут цветы на подоконнике". Это первое, что придумал. Что можно промаркировать? Сарказм он на то и сарказм, что даже человек не всегда поймёт, а не то, что машина.
Да в этот раз в Гос Депе накал идиотии такой, что уже даже сравнивать не с чем. Псаки в сухую берет премию дарвина, а Обама вне конкуренции в номинации - лох года
Аналогичный проект, но от какой-то нашей невоенной правительственной организации уже был. В смысле хотелки там были: делать семантический анализ сообщений из интернета вообще и посвященные отдельным персоналиям в частности.
Так всё остальное, кроме сарказма, роботами успешно собирается, подшивается и сводится в аналитику. Только до сарказма не добрались, потому что для того, чтобы генерировать и понимать сарказм, иронию и юмор вообще, нужен интеллект.
Машину могут научить распознавать, процентов на 80, по шаблонам. Ибо новые шутки придумывать сложно, уж точно больше 80% ироничных комментариев в интернетах написано как под кальку )
Технология крайне перспективная, хотя и требует гигантских вычислительных мощностей. В решении SAP используется хранилище данных на технологии HANA, т.е. применяется метод In-Memory, это когда на кластер ставят 256 гигабайт быстрой оперативки и туда заливают весь объем данных, и всё "летает".
Твиттер выбран не зря, там объем данных в десятки раз меньше, чем в Facebook - сам формат обязывает.
> Машину могут научить распознавать, процентов на 80, по шаблонам. Ибо новые шутки придумывать сложно, уж точно больше 80% ироничных комментариев в интернетах написано как под кальку )
Это всё так, но учитывая, что пока ещё до сих пор не смогли выпустить внятный переводчик текстов, я думаю, до распознавания сарказмов ещё пока далеко.
К тому же, сарказм очень сильно зависит от контекста. А это значит, что помимо вычленения определенных шаблонов, нужно будет анализировать сам текст, а чтобы его анализировать нужен интеллект.
А если кроме шуток, Савельев наглядно объясняет, что создание ИИ -- невозможно. Алгоритмизация -- это, конечно, хорошо, но как можно запрограммировать процесс определения того, отчаянно ли сарказмирует гражданин, или он просто неграмотный в разрезе всех культурно-отдаленных точках земного шара в общем и в отношении каждого отдельного индивидуума в частности -- для меня загадка.
Есть надежда, что это очередной амбициозный убыточный пук, каким в свое время был F-117, каким сейчас является разработка орбитального лазерного оружия.
> Одна из секретных служб США, обеспечивающая безопасность президента и других первых лиц страны, разместила заказ на разработку программного обеспечения, способного анализировать информацию из социальных сетей, в том числе выявлять саркастические нотки в словах пользователей.
Все правильно! Должно же правительство США знать когда над ним откровенно глумятся! Вот поздравит, например, Путин в Твиттере Обаму с днем рождения и выставит фотографию с надписью "Happy birthday, Obama!", написанной на российской баллистической ракете!! А тут, программа, бац, все проанализирует и скажет Обаме, "тебя русские за лоха держат, глумятся". А так бы и не знал! Благодарил бы за поздравления! Короче, мега-полезная программа!
> А если кроме шуток, Савельев наглядно объясняет, что создание ИИ -- невозможно.
А Эдисон считал невозможным практическое использование летательных аппаратов тяжелее воздуха, то есть самолетов и вертолетов, полагая что будущее авиации за дирижаблями.
Я так полагаю, что основой для составления лексикона программы будут выступления Псаки. Ведь не просто так её держат. Ну и Кличко - как генератор случайных фраз.
Название программы "Псачко"
Такие технологии развиваются уже давно. Ваши соотечественники тоже хорошо продвинулись в этом направлении - www.speechpro.ru. распознают речь, определяют тематику разговора, эмоциональную окраску и т. д..
> А Эдисон считал невозможным практическое использование летательных аппаратов тяжелее воздуха, то есть самолетов и вертолетов, полагая что будущее авиации за дирижаблями.
А Б. Гейц был уверен, что 640 Кб ОЗУ хватит каждому. Ну, поглядим. И вспомним заодно, что двигателем развития технологического гения является -- война.
Пока в Америке будут тратить миллиарды баксов на программы, способные улавливать сарказм, мы будем оттачивать мастерство подъёбки. За нами не угонятся!
Спецслужбы затребуют у конгресса немеряно денег на "суперсофт", а сами посадят в подземелья 1000 китайцев/мексиканцев/ещекогототам паутину песочить. За грин карту ребятки будут 36 часов в сутки посменно Ваш сарказм выявлять... Дёшево и сердито.
Последнее время Big Data - это активно развивающаяся тема. С ней можно творить чудеса.
Именно из-за возможности таких исследований Твиттер и стоит миллиарды.
Очередной пендосский попил. Написать такое можно, но чтоб еще и работало - сказки для лохов. Как причастный к разработкам ПО в сфере безопасности заявляю.
Кому: Matrosoff, #76 > Последнее время Big Data - это активно развивающаяся тема. С ней можно творить чудеса.
> Именно из-за возможности таких исследований Твиттер и стоит миллиарды.
Твиттер стоит миллиарды потому, что это пузырь, это уже проходили, когда dotcomы грохнулись с высоты птичьего полета.
А бабло на разработку программы тупо распилякают.
Яндекс такую прогу написал и внедрил давным-давно. Искал на яшке инфу по авариям на лифтах. После месяц яндексдирект предлагал мне купить лифт. (Новый, б/у, недорого, доставка)
> "От Вашей красоты так жарко, что вянут цветы на подоконнике". Это первое, что придумал. Что можно промаркировать? Сарказм он на то и сарказм, что даже человек не всегда поймёт, а не то, что машина.
Думается, там интересуются чуть другими темами.
К тому же я не думаю, что имеется в виду задача "найти одну саркастическую фразу в тексте/ленте/посте". Раз цель -- соцсети, то достаточно просто следить за набором "политических" слов и их известных издевательских комбинаций, знаков препинания и ретвитов или ссылок на текст. Проанализировать это все, учитывая известные персоналии участников общения (например, некоторые уже замечены в покушении на идеалы демократии; что они будут читать и цитировать?) и в принципе готово. Ничего фантастического.
Ну и вполне вероятно, что просто запутали условия тендера, чтоб никто левый не влез.
Когда-то и таргетированная реклама многим фантастикой казалась. А сейчас?
Алгоритм (в общем приближении) может быть следующим:
1. Принимаем за основополагающее то, что гражданин трется в соц.сети;
2. Выявляем его комменты и посты (как мы знаем, большинство сайтов дают возможность оставить коммент с помощью OpenID);
3. Анализируем содержимое (см. "таргетированная реклама");
4. Выводим один из немногих (реально - не так уж и многих) "шаблонов" мышления - "государственник", "оппозиционер", "похуист", "барыга" и т.д.
5. Анализируем содержимое исследуемого коммента/поста
6. Выводим один из немногих... см. п4
7. При явном несовпадении результатов п.4 и п.6... ну, понятно.
Думаю, функция про сарказм будет выполнена в виде анализа предыдущих сообщений с того же аккаунта или связанных аккаунтов из других соц.сетей с эффективностью распознавания не более 60%
Камрады, пардон, что не в тему: я тут некоторое время отсутствовал, а сейчас уже довольно долго не наблюдаю Абрикосова, хотя раньше практически ни одна тема без него не обходилась. Случилось чего?
Вот это -- здраво, даже стремно. Чуииишь, чем пахнет?
Появится возможность мониторить все великое разнообразие мнений, которое реально схлопывается в точку из нескольких процентов граждан, которые создают уникальный контент;
Появится возможность двигать пропагандистскую машину в нужном направлении. По аналогии -- раньше катались вслепую, сейчас затарятся дальним светом.
> Очередной пендосский попил. Написать такое можно, но чтоб еще и работало - сказки для лохов. Как причастный к разработкам ПО в сфере безопасности заявляю.
"В сфере безопасности" и "в сфере рекламы" - чуть-чуть разное.
А наработки будут использоваться именно рекламные.
"Сказками для лохов", если ты вдруг не помнишь, лет эдак 15-20 назад называли то, что сейчас - реальность, данная нам в ощущениях.
> Камрады, пардон, что не в тему: я тут некоторое время отсутствовал, а сейчас уже довольно долго не наблюдаю Абрикосова, хотя раньше практически ни одна тема без него не обходилась. Случилось чего?
Насчет сарказма они, конечно, погорячились. Просто система распознавания форм речевых оборотов, обычно не используемых в речи. Плюс мемы, регулярные выражения, символы, смайлы.
Сарказм ведь зачастую снабжается отличительными знаками, чтобы не подумали чего. И обнаруживается не тогда, когда включается мозг, а распознается еще на подступах.
> Не верящим в твиттер рекомендую к прочтению : http://habrahabr.ru/post/221615/ >
> Чтоб понимать - на основе этих данных, и многих других уже сейчас онлайн можно делать кредитный скоринг с с точностью до 95%, например.
В "деревнях" проще. Соц. сети далеко не поголовно, у половины карточек нет, да и телефонов уровня 3310 еще до фига. Я в нете не шифруюсь, но сильно удивлюсь, если по всей совокупности туда закинутой инфы смогут нарыть что-то конкретное, по профессии и знаниям.