Анализ ключевых слов c помощью принципа квантовой механики

Представьте, что перед вами стоит задача отыскать все главные слова в громадном отрывке текста: как вы это сделаете? Компания Priceonomics, сервис по анализу и сбору данных для бизнеса, создала для этих целей собственное приложение. По окончании ввода URL страницы в соответствующее окно краулера, «вычислительная машина» Priceonomics Analysis Engine с легкостью находит все главные слова, обращаясь наряду с этим к несложной функции.

В большинстве случаев, подобные скрипты по анализу текста в сети основаны на принципе поиска чаще всего видящихся слов. Но, таковой подход малоэффективен — он не разрешает отделить по-настоящему главные слова от солидного числа служебных местоимений и слов, таких как «и», «к примеру», «бы», «что» и т.д.

Вторым направлением работы может стать сравнение исходного текста с текстами более неспециализированных тематик и обнаружение самые необычных их повторений и слов. Так, в данной статье своеобразные термины «кластер» либо «массив» видятся хоть и редко, но намного чаще, чем среди остальных статей блога, что говорит об их серьёзном, главном характере. Неприятность данной методики содержится в том, что для ее осуществления требуется большой количество данных для сравнения, а он не всегда дешёв, в случае если само собой разумеется вы не огромная корпорация.Анализ ключевых слов c помощью принципа квантовой механики

  • Как подобрать главные слова для рекламного объявления в Яндекс.Директ?

«Search inside!» компании Amazon

В качестве иллюстрации семантического анализа через сравнение текстов, разглядим инструмент «Search inside!», что компания Amazon применяет для обнаружения самый «Статистически немыслимых слов» (SIP, Statistically improbable phrases) в собственных книгах. В ходе сравнения участвуют все когда-либо оцифрованные Amazon тексты, и в следствии метод оказывает помощь отыскать редкие слова в любой книге:

«К примеру, для книги о налогах нормально, что все ее SIP будут связаны с налогами. Но, потому, что механизм располагает все редкие слова в порядке уменьшения их уникальности (сперва — самые неповторимые), наверху перечня окажутся те SIP, каковые в данной конкретной книге видятся чаще, чем в других книгах о налогах. Что касается художественной литературы, SIP имеют тенденцию выявлять ответственные элементы сюжета и словесные комбинации».

Amazon имеет возможность проводить таковой анализ благодаря собственной широкой и разнообразной базе информации — электронным книгам. Эти сведенья принадлежат фирме, а это указывает, что таковой инструмент анализа недоступен для большинства разработчиков. Кроме того в случае если у вас имеется в наличии достаточное количество текстов, результаты поискового метода могут быть нерелевантными, и для их коррекции все равно потребуется участие человека.

Кроме этого сложность воображают тексты на зарубежных языках, для анализа которых нужна отдельная база.

  • Количественные изучения Vs качественные: что нужнее для оптимизации конверсии?

Priceonomics Analysis Engine

Вследствие этого, Priceonomics задалась целью создать собственный личный, быстрый и удобный метод поиска главных слов априори — без необходимости дополнительной подготовки либо сбора информации об разбираемом тексте. Большая часть известных способов не соответствовало этим параметрам, но внимание разработчиков привлекла одна статья: «Уровневая статистика: анализ главных слов в символьных последовательностях и литературных текстах» («Level statistics of words: Finding keywords in literary texts and symbolic sequences» by Carpena et al. in 2009). Изучив изложенные в ней тезисы, эксперты сразу же приступили к их реализации.

Сущность статьи заключалась в следующем: в любом тексте довольно часто применяемые, но не имеющие никакого значения слова распределяются в случайном порядке, в то время как серьёзные, главные понятия имеют тенденцию объединяться в кластеры (clusters, скопления) либо упорядоченные паттерны. Мысль о кластерах была заимствована авторами из квантовой механики*, что навело их на идея об анализе главных слов в текста[ по аналогии с энергетическим спектром.

*В физике под кластерами понимаются разные компактные структуры, складывающиеся из двух либо большего числа частиц, каковые смогут появляться в ядра атома.

Представив исходный текст как массив неупорядоченных данных, а после этого создав для каждого слова собственную «спектральную диаграмму», возможно взять наглядную иллюстрацию их распределения в тексте.

На изображении выше продемонстрирован итог анализа первых 50 000 слов романа «Дон Кихот» (Don Quixote) Сервантеса. Не смотря на то, что британский альянс but («но») видится в тексте практически так же довольно часто (248 повторений), как и главное слово Quixote (288 повторений), паттерны их распределения отличаются.

Разбирая промежутки этого спектра, возможно заметить, что второстепенные слова распределяются хаотично, а значимые, напротив, объединяются в группы. Как раз частота повторения слов в совокупности с характером их распределения ведет к выводу об их релевантности: главными окажутся только те слова, каковые не только многократно видятся в тексте, но и объединяются в четкие, компактные кластеры.

Но, и данный метод имеет собственные недочёты. Анализ маленьких текстов не может быть так же действенным если сравнивать с долгими: в случае если источник содержит всего несколько сотен слов, кроме того серьёзные понятия смогут встретиться лишь 2 либо 3 раза, что даст достаточно разреженный и не весьма информативный спектр.

Кроме этого, способ не отличается гибкостью: в случае если раньше вы имели возможность не дать согласие с результатами анализа и самостоятельно выбрать из полного перечня отысканных главных слов релевантные, то тут у вас нет таковой возможности. Повышение либо уменьшение количества текстов для сравнения также не сработает — этот метод рекомендован лишь для одного источника.

Но так или иначе, главный «костяк» главных слов Priceonomics Analysis Engine вам выделит, причем достаточно удачно. Вот наглядный пример:

Топ главных слов книги «50 оттенков серого» Э. Л. Джеймс (слева направо, по уменьшению значимости): доминант, 2011, Кейт, Грей, тема, свидание, сабмиссив, Кристиан, Рэй, Тэйлор, может, ванная, сообщение/email, председатель совета директоров, 2, энтерпрайзес, Хосе, Стил, мама, июня.

Этот непроизвольный анализ был произведен Priceonomics в приложении Keywords. Вы также имеете возможность испытать новый метод, дабы проверить собственный либо чужой текст на главные слова. Но, учитывайте, что из-за статистического характера методики, анализ производится действеннее в текстах громадной и средней длины.

Высоких вам конверсий!

По данным priceonomics.comimage source terryhancock

Тайны мироздания. Законы квантовой механики


riasevastopol