Веб-майнинг - Web mining

Веб-интеллектуальный анализ - это применение методов интеллектуального анализа данных для обнаружения закономерностей во всемирной паутине . Он использует автоматизированные методы для извлечения как структурированных, так и неструктурированных данных с веб-страниц, журналов сервера и структур ссылок. Существует три основных подкатегории веб-майнинга. Интеллектуальный анализ веб-контента извлекает информацию изнутри страницы. Анализ веб-структуры обнаруживает структуру гиперссылок между документами, классифицируя наборы веб-страниц и измеряя сходство и взаимосвязь между различными сайтами. Интеллектуальный анализ использования веб-сайтов находит закономерности использования веб-страниц.

Типы веб-майнинга

Веб добычу можно разделить на три типа - веб - горнорудных использования , горнорудные веб - контент и горнорудные Web структуры .

Общая взаимосвязь между категориями веб-интеллектуального анализа и целями интеллектуального анализа данных

Сравнение типов веб-майнинга
	Интеллектуальный анализ веб-контента		Анализ веб-структуры	Майнинг использования Интернета
	ИК-вид	Просмотр БД	Анализ веб-структуры	Майнинг использования Интернета
Просмотр данных	Неструктурированный Структурированный	Полуструктурированный Веб-сайт как БД	Структура ссылок	Интерактивность
Основные данные	Текстовые документы Гипертекстовые документы	Гипертекстовые документы	Структура ссылок	Журналы сервера Журналы браузера
Представление	Мешок слов , n-грамм терминов фразы, концепции или онтология Реляционный	График с меткой ребра Реляционный	График	Реляционная таблица График
Метод	Машинное обучение Статистические (включая НЛП )	Собственные алгоритмы Правила ассоциации	Собственные алгоритмы	Машинное обучение Статистическая Правила ассоциации
Категории приложений	Категоризация Кластеризация Поиск правил извлечения Поиск закономерностей в тексте	Поиск частых подструктур Обнаружение схемы веб-сайта	Категоризация Кластеризация	Строительство сайта Адаптация и управление

Майнинг использования Интернета

Анализ использования веб-ресурсов - это применение методов интеллектуального анализа данных для обнаружения интересных моделей использования веб-данных с целью понимания и лучшего обслуживания потребностей веб-приложений . Данные об использовании фиксируют личность или происхождение веб-пользователей, а также их поведение при просмотре веб-сайта.

Сам интеллектуальный анализ использования веб-ресурсов может быть дополнительно классифицирован в зависимости от типа рассматриваемых данных об использовании:

Данные веб-сервера : журналы пользователей собираются веб-сервером . Типичные данные включают IP-адрес, ссылку на страницу и время доступа.
Данные сервера приложений : коммерческие серверы приложений имеют важные функции, позволяющие без особых усилий создавать приложения электронной коммерции на их основе. Ключевой особенностью является возможность отслеживать различные виды бизнес-событий и регистрировать их в журналах сервера приложений.
Данные уровня приложения : в приложении могут быть определены новые виды событий, и для них может быть включена регистрация, таким образом, создается история этих специально определенных событий. Многие конечные приложения требуют комбинации одного или нескольких методов, применяемых в перечисленных выше категориях.

Исследования, связанные с работой, касаются двух областей: алгоритмы интеллектуального анализа данных на основе ограничений, применяемые в интеллектуальном анализе использования Интернета, и разработанные программные инструменты (системы). Коста и Секо продемонстрировали, что интеллектуальный анализ веб-журналов может использоваться для извлечения семантической информации ( в частности, гипонимических отношений) о пользователе и данном сообществе.

Плюсы

Интеллектуальный анализ использования веб-ресурсов по существу имеет множество преимуществ, что делает эту технологию привлекательной для корпораций, включая государственные учреждения. Эта технология позволила электронной коммерции проводить персонализированный маркетинг , что в конечном итоге приводит к увеличению объемов торговли. Государственные органы используют эту технологию для классификации угроз и борьбы с терроризмом . Возможности прогнозирования приложений для добычи полезных ископаемых могут принести пользу обществу за счет выявления преступной деятельности. Компании могут улучшить отношения с клиентами, лучше понимая потребности клиентов и быстрее реагируя на потребности клиентов. Компании могут находить, привлекать и удерживать клиентов; они могут сэкономить на производственных затратах, используя полученное понимание требований клиентов. Они могут повысить прибыльность за счет целевых цен на основе созданных профилей . Они даже могут найти клиентов, которые могут по умолчанию уступить конкурентам, которых компания будет пытаться удержать, предоставляя рекламные предложения конкретному покупателю, тем самым снижая риск потери покупателя или покупателей.

Дополнительные преимущества интеллектуального анализа веб-использования, особенно в области персонализации , изложены в конкретных структурах, таких как модель вероятностного скрытого семантического анализа , которая предлагает дополнительные функции для поведения пользователя и шаблона доступа. Это связано с тем, что процесс предоставляет пользователю более релевантный контент через совместные рекомендации. Эти модели также демонстрируют способность веб-технологии интеллектуального анализа данных решать проблемы, связанные с традиционными методами, такие как предубеждения и вопросы относительно достоверности, поскольку полученные данные и шаблоны не являются субъективными и не ухудшаются со временем. Существуют также элементы, уникальные для интеллектуального анализа использования Интернета, которые могут показать преимущества технологии, и они включают способ применения семантических знаний при интерпретации, анализе и рассуждении о шаблонах использования на этапе интеллектуального анализа данных.

Минусы

Интеллектуальный анализ использования Интернета сам по себе не создает проблем, но эта технология при использовании с данными личного характера может вызвать опасения. Наиболее критикуемая этическая проблема, связанная с использованием веб-майнинга, - это вторжение в частную жизнь . Конфиденциальность считается утраченной, когда информация о человеке получена, используется или распространяется, особенно если это происходит без ведома или согласия человека. Полученные данные будут проанализированы, анонимны , а затем сгруппированы для формирования анонимных профилей. Эти приложения Де- индивидуализировать пользователей, если судить их по щелчками мыши , а не идентифицирующую информацию. Деиндивидуализацию в целом можно определить как тенденцию оценивать людей и относиться к ним на основе групповых характеристик, а не их собственных индивидуальных характеристик и достоинств.

Еще одна важная проблема заключается в том, что компании, собирающие данные для определенной цели, могут использовать данные для совершенно разных целей, и это существенно нарушает интересы пользователя.

Растущая тенденция продажи личных данных как товара побуждает владельцев веб-сайтов торговать личными данными, полученными с их сайтов. Эта тенденция увеличила объем собираемых и обмениваемых данных, увеличивая вероятность вторжения в личную жизнь. Компании, покупающие данные, обязаны сделать их анонимными, и эти компании считаются авторами любого конкретного выпуска схем майнинга. Они несут юридическую ответственность за содержание релиза; любые неточности в публикации приведут к серьезным судебным искам, но нет закона, запрещающего им торговать данными.

Некоторые алгоритмы майнинга могут использовать противоречивые атрибуты, такие как пол, раса, религия или сексуальная ориентация, для классификации людей. Такая практика может противоречить антидискриминационному законодательству. Приложения затрудняют идентификацию использования таких спорных атрибутов, и нет строгого правила против использования таких алгоритмов с такими атрибутами. Этот процесс может привести к отказу в обслуживании или привилегии для человека на основании его расы, религии или сексуальной ориентации. Этой ситуации можно избежать с помощью высоких этических стандартов, поддерживаемых компанией по интеллектуальному анализу данных. Собранные данные анонимны, поэтому полученные данные и полученные закономерности нельзя отследить до конкретного человека. Может показаться, что это не представляет угрозы для конфиденциальности, однако приложение может получить дополнительную информацию, объединив две отдельные недобросовестные данные пользователя.

Анализ веб-структуры

Анализ веб-структуры использует теорию графов для анализа структуры узлов и соединений веб-сайта. В зависимости от типа данных веб-структуры, интеллектуальный анализ веб-структуры можно разделить на два вида:

Извлечение шаблонов из гиперссылок в сети: гиперссылка - это структурный компонент, который соединяет веб-страницу с другим местом.
Изучение структуры документа : анализ древовидной структуры структур страниц для описания использования тегов HTML или XML .

Терминология интеллектуального анализа веб-структуры:

Веб-граф: ориентированный граф, представляющий сеть.
Узел: веб-страница в графике.
Край: гиперссылки.
По степени: количество ссылок, указывающих на конкретный узел.
Исходная степень: количество ссылок, сгенерированных с определенного узла.

Примером метода анализа веб-структуры является алгоритм PageRank , используемый Google для ранжирования результатов поиска. Рейтинг страницы определяется количеством и качеством ссылок, указывающих на целевой узел.

Интеллектуальный анализ веб-контента

Интеллектуальный анализ веб-контента - это анализ, извлечение и интеграция полезных данных, информации и знаний из контента веб-страницы. Неоднородность и отсутствие структуры, которые позволяют использовать большую часть постоянно расширяющихся источников информации во всемирной паутине, таких как гипертекстовые документы, делают автоматическим обнаружение, организацию, поиск и индексирование инструментов Интернета и всемирной паутины, таких как Lycos , Alta Vista , WebCrawler , Aliweb , MetaCrawler и другие обеспечивают некоторое удобство для пользователей, но обычно они не предоставляют структурную информацию, не классифицируют, не фильтруют и не интерпретируют документы. Эти факторы побудили исследователей разработать более интеллектуальные инструменты для поиска информации , такие как интеллектуальные веб-агенты , а также расширить базы данных и методы интеллектуального анализа данных, чтобы обеспечить более высокий уровень организации полуструктурированных данных, доступных в Интернете. Агентный подход к веб-майнингу включает в себя разработку сложных систем искусственного интеллекта, которые могут действовать автономно или полуавтономно от имени конкретного пользователя для обнаружения и организации веб-информации. Исследователи создают приложение-поисковик для сбора необходимых данных из Интернета. Например, информация о квартирах может быть собрана с веб-сайтов со списком недвижимости в Интернете для создания нового набора данных.

Интеллектуальный анализ веб-контента различается с двух разных точек зрения: представление поиска информации и представление базы данных. обобщены исследовательские работы, выполненные для неструктурированных данных и полуструктурированных данных с точки зрения поиска информации. Это показывает, что большинство исследователей используют набор слов, который основан на статистике отдельных слов по отдельности, для представления неструктурированного текста и воспринимают одно слово, найденное в обучающем корпусе, как функции. Для полуструктурированных данных все работы используют структуры HTML внутри документов, а некоторые использовали структуру гиперссылок между документами для представления документа. Что касается представления базы данных, то для лучшего управления информацией и запросов в Интернете, интеллектуальный анализ всегда пытается вывести структуру веб-сайта, чтобы преобразовать веб-сайт в базу данных.

Есть несколько способов представления документов; обычно используется модель векторного пространства . Документы составляют все векторное пространство. Это представление не осознает важность слов в документе. Чтобы решить эту проблему, вводится tf-idf (частота термина, время обратная частотой документа).

Путем многократного сканирования документа мы можем реализовать выбор функций. При условии, что результат категории редко изменяется, требуется извлечение подмножества признаков. Общий алгоритм состоит в построении оценочной функции для оценки характеристик. В качестве набора функций обычно используются получение информации , кросс-энтропия , взаимная информация и отношение шансов . Классификатор и методы анализа шаблонов интеллектуального анализа текстовых данных очень похожи на традиционные методы интеллектуального анализа данных. Обычными оценочными достоинствами являются точность классификации , точность и отзывчивость, а также информационная оценка .

Веб-майнинг может дополнять поиск структурированных данных, передаваемых с помощью открытых протоколов, таких как OAI-PMH : примером является агрегирование работ из академических публикаций, которые используются для идентификации версий с открытым доступом с помощью сочетания методов с открытым исходным кодом и открытых данных в академических базах данных. как Unpaywall .

Интеллектуальный анализ веб-контента на иностранных языках

китайский язык

Код языка из китайских слов очень сложен по сравнению с английским. Код GB , Big5 и HZ - это обычные китайские коды слов в веб-документах. Перед интеллектуальным анализом текста необходимо определить стандарт кода документов HTML и преобразовать его во внутренний код, а затем использовать другие методы интеллектуального анализа данных, чтобы найти полезные знания и полезные шаблоны.

Смотрите также

использованная литература

Книги

Хесус Мена, «Интеллектуальный анализ данных на вашем веб-сайте», Digital Press, 1999 г.
Сумен Чакрабарти, «Майнинг в Интернете: анализ гипертекста и полуструктурированных данных», Морган Кауфманн, 2002 г.
Достижения в области веб-майнинга и анализа веб-использования, 2005 г. - переработанные документы седьмого семинара по открытию знаний в Интернете, Ольфа Насрауи, Осмар Зайан, Мира Спилиопулу, Бамшад Мобашер, Филип Ю, Бридж Масанд, ред., Лекционные заметки Спрингера по искусственному интеллекту , LNAI 4198, 2006
Веб-майнинг и анализ использования Интернета, 2004 г. - переработанные документы 6-го семинара по открытию знаний в Интернете, Бамшад Мобашер, Ольфа Насрауи, Бинг Лю, Бридж Масанд, ред., Лекционные заметки Springer по искусственному интеллекту, 2006 г.

Библиографические ссылки

Баралья, Р. Сильвестри, Ф. (2007) «Динамическая персонализация веб-сайтов без вмешательства пользователя» , В сообщениях ACM 50 (2): 63-67
Кули, Р. Мобашер, Б. и Сривастав, Дж. (1997) «Веб-майнинг: обнаружение информации и шаблонов во всемирной паутине» в материалах 9-й Международной конференции IEEE по инструментам с искусственным интеллектом
Кули, Р., Мобашер, Б. и Сривастава, Дж. « Подготовка данных для разработки шаблонов просмотра всемирной паутины », Журнал знаний и информационных систем, том 1, выпуск. 1. С. 5–32, 1999.
Коста Р.П. и Секо Н. «Извлечение гипонимии и анализ поведения при поиске в Интернете на основе переформулирования запроса» , 11-я Иберо-американская конференция по искусственному интеллекту, 2008 г., октябрь.
Кохави, Р., Мейсон, Л. и Чжэн, З. (2004) « Уроки и проблемы, извлеченные из данных об электронной коммерции в горнодобывающей и розничной торговле », Машинное обучение, том 57, стр. 83–113
Лилиан Кларк, И-Сянь Тинг, Крис Кимбл , Питер Райт, Даниэль Куденко (2006) «Объединение этнографических данных и данных о посещениях для определения стратегий просмотра веб-страниц пользователями» Journal of Information Research, Vol. 11 No. 2, январь 2006 г.
Эйринаки, М., Вазирджаннис, М. (2003) « Веб-майнинг для веб-персонализации », ACM-транзакции по Интернет-технологиям, том 3, № 1, февраль 2003 г.
Мобашер Б., Кули Р. и Сривастава Дж. (2000) « Автоматическая персонализация на основе использования веб-майнинга » Сообщения ACM, Vol. 43, №8, стр. 142–151
Мобашер, Б., Дай, Х., Луо, Т. и Накагава, М. (2001) « Эффективная персонализация на основе правила ассоциации, обнаруживаемая на основе данных об использовании сети » в Proceedings of WIDM 2001, Атланта, Джорджия, США, стр. 9 –15
Nasraoui O., Petenes C., "Объединение интеллектуального анализа данных об использовании веб-сайтов и нечеткого вывода для персонализации веб-сайтов" , в Proc. WebKDD 2003 - Семинар KDD по веб-майнингу как предпосылкам эффективных и интеллектуальных веб-приложений, Вашингтон, округ Колумбия, август 2003 г., стр. 37
Насрауи О., Фригуи Х., Джоши А. и Кришнапурам Р., «Майнинг журналов веб-доступа с использованием реляционной конкурентной нечеткой кластеризации» , Материалы восьмого Конгресса Международной ассоциации нечетких систем, Синьчжу, Тайвань, август 1999 г.
Насрауи О., «Персонализация всемирной паутины», приглашенная глава в «Энциклопедии интеллектуального анализа данных и хранилищ данных», Дж. Ван, Эд, Idea Group, 2005 г.
Пьерракос, Д., Палиоурас, Г., Папатеодору, К., Спиропулос, компакт-диск (2003) «Интеллектуальный анализ использования Интернета как инструмент для персонализации: обзор», Журнал моделирования пользователей и адаптированного взаимодействия с пользователем, Том 13, Выпуск 4, стр. 311–372
И-Сянь Тинг, Крис Кимбл, Даниэль Куденко (2005) « Метод восстановления шаблонов для восстановления отсутствующих шаблонов в данных потока кликов на стороне сервера »
И-Сянь Тинг, Крис Кимбл, Даниэль Куденко (2006) «UBB Mining: обнаружение неожиданного поведения при просмотре в данных потока кликов для улучшения дизайна веб-сайта»
Вайхброт, П., Овок, М., Плешкун, М. (2012) " Обнаружение шаблонов навигации веб-пользователей из файлов журнала сервера WWW "
Madria SK, Bhowmick SS, Ng WK, Lim EP (1999) Проблемы исследования в области интеллектуального анализа данных в Интернете. В: Mohania M., Tjoa AM (ред.) DataWarehousing и Knowledge Discovery. DaWaK 1999. Конспект лекций по информатике, том 1676. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-48298-9_32 .

Languages

In other projects