Облако тегов - Tag cloud

Облако слов foundation-l , созданное с помощью полных архивов списков, сжатых gzip (без дублирующих писем из архивов, всех заголовков и цитируемого текста в теле), с использованием IBM Word Cloud Generator build 32.
Облако тегов с терминами, относящимися к Web 2.0

Облако тегов ( слово облако или Wordle или взвешенный список в визуальном дизайне) является новшеством визуальное представление текстовых данных, как правило , используется для описания ключевых слов метаданных (теги) на веб - сайтах, или визуализировать в свободной форме. Теги обычно представляют собой отдельные слова, и важность каждого тега отображается размером шрифта или цветом. Этот формат полезен для быстрого восприятия наиболее известных терминов и определения их относительной значимости. Более крупный термин означает больший вес. При использовании в качестве средства навигации по веб-сайту термины имеют гиперссылки на элементы, связанные с тегом.

История

Хайди Пэрис: первоначальный вариант обложки немецкого издания "Тысячи плато" Жиля Делёза и Феликса Гваттари от 14 ноября 1991 года.

На языке визуального дизайна облако тегов (или облако слов) - это один из видов «взвешенного списка», который обычно используется на географических картах для представления относительного размера городов с точки зрения относительного размера шрифта. Одним из первых напечатанных примеров взвешенного списка английских ключевых слов были «файлы подсознания» в книге Дугласа Купленда « Microserfs» (1995). Немецкое появление произошло в 1992 году.

Специфическая визуальная форма и общее использование термина «облако тегов» приобрели известность в первом десятилетии 21-го века как широко распространенная особенность ранних веб- сайтов и блогов Web 2.0 , используемая в основном для визуализации частотного распределения метаданных ключевых слов, описывающих веб-сайт. контент и в качестве средства навигации.

Первые облака тегов на популярном веб-сайте были на сайте обмена фотографиями Flickr , созданном соучредителем Flickr и дизайнером взаимодействия Стюартом Баттерфилдом в 2004 году. Эта реализация была основана на «Zeitgeist Search Referral Zeitgeist» Джима Фланагана, визуализации рефереров веб-сайтов. Примерно в то же время облака тегов были популяризированы, в частности, Del.icio.us и Technorati .

Перенасыщенность метода облака тегов и неоднозначность его полезности в качестве инструмента веб-навигации привели к заметному снижению его использования среди этих первых последователей. Позднее Flickr «извинился» перед сообществом веб-разработчиков в своей речи, состоящей из пяти слов, в связи с вручением премии Webby «Best Practices» 2006 года , где они просто заявили «извините за облака тегов».

Второе поколение разработки программного обеспечения обнаружило более широкое разнообразие применений облаков тегов в качестве основного метода визуализации текстовых данных. В этом контексте было предложено несколько расширений облаков тегов.

Типы

Облако данных, показывающее население каждой из стран мира. Создано в R с помощью пакета wordcloud . Данные по населению страны . Обратите внимание, что пропорциональные размеры Китая и Индии разделились пополам.

В социальном программном обеспечении существует три основных типа приложений облака тегов , которые различаются по своему значению, а не по внешнему виду. В первом типе есть тег для частоты каждого элемента, тогда как во втором типе есть глобальные облака тегов, в которых частоты агрегированы по всем элементам и пользователям. В третьем типе облако содержит категории, размер которых указывает на количество подкатегорий.

Частота

В первом типе размер представляет количество раз, когда тег был применен к одному элементу. Это полезно как средство отображения метаданных об элементе, за который демократическим путем «проголосовали» и где точные результаты нежелательны.

Во втором, более часто используемом типе, размер представляет собой количество элементов, к которым был применен тег, как представление популярности каждого тега .

Значимость

Вместо частоты можно использовать размер для представления значимости слов и их совпадения по сравнению с фоновым корпусом (например, по сравнению со всем текстом в Википедии). Этот подход нельзя использовать отдельно, он основан на сравнении частот документов с ожидаемыми распределениями.

Категоризация

В третьем типе теги используются как метод категоризации для элементов контента. Теги представлены в облаке, где более крупные теги представляют количество элементов контента в этой категории.

Существует несколько подходов к созданию кластеров тегов вместо облаков тегов, например, путем применения одновременного появления тегов в документах.

В более общем плане для отображения данных без тегов можно использовать тот же визуальный прием, как в облаке слов или облаке данных.

Термин « облако ключевых слов» иногда используется в качестве термина поискового маркетинга (SEM), который относится к группе ключевых слов, имеющих отношение к определенному веб-сайту. В последние годы облака тегов приобрели популярность из-за их роли в поисковой оптимизации веб-страниц, а также в поддержке пользователя в эффективной навигации по контенту в информационной системе. Облака тегов в качестве инструмента навигации делают ресурсы веб-сайта более связанными при сканировании пауком поисковой системы, что может улучшить рейтинг сайта в поисковых системах . С точки зрения пользовательского интерфейса они часто используются для обобщения результатов поиска, чтобы помочь пользователю быстрее найти контент в конкретной информационной системе.

Внешний вид

Облака тегов обычно представлены с помощью встроенных HTML- элементов. Теги могут располагаться в алфавитном порядке, в произвольном порядке, их можно отсортировать по весу и так далее. Иногда в дополнение к размеру шрифта манипулируют и другими визуальными свойствами, такими как цвет, интенсивность или насыщенность шрифта. Наиболее популярным является прямоугольное расположение тегов с сортировкой по алфавиту в последовательном построчном макете. Решение об оптимальном макете должно определяться ожидаемыми целями пользователя. Некоторые предпочитают группировать теги семантически, чтобы похожие теги появлялись рядом друг с другом, или используют методы встраивания , такие как tSNE, для позиционирования слов. Края могут быть добавлены, чтобы подчеркнуть совместное появление тегов и визуализировать взаимодействия. Эвристику можно использовать для уменьшения размера облака тегов, независимо от того, является ли цель кластеризацией тегов.

Визуальная таксономия облака тегов определяется рядом атрибутов: правилом упорядочения тегов (например, в алфавитном порядке, по важности, по контексту, случайным образом, в порядке визуального качества), формой всего облака (например, прямоугольник, круг, заданные границы карты), форма границ тега (прямоугольник или тело символа), вращение тега (нет, свободно, ограничено), вертикальное выравнивание тега (придерживаясь типографских базовых линий, бесплатно). Облако тегов в Интернете должно решать проблемы моделирования и управления эстетикой, построения двумерного макета тегов, и все это должно выполняться в короткие сроки на изменчивой платформе браузера. Облака тегов, которые будут использоваться в Интернете, должны быть в формате HTML , а не в графике, чтобы сделать их удобочитаемыми для роботов, они должны быть созданы на стороне клиента с использованием шрифтов, доступных в браузере, и они должны помещаться в прямоугольное поле.

Облака данных

Облако данных, показывающее движение цен акций. Цвет указывает на положительное или отрицательное изменение, размер шрифта указывает на процентное изменение.

А данные облако или облако данные являются отображением данных , который использует размер и / или цвет , чтобы указать числовые значения шрифта. Оно похоже на облако тегов, но вместо количества слов отображает такие данные, как население или цены на фондовом рынке .

Текстовые облака

Текстовое облако, сравнивающее Обращение президента США Буша о положении страны в 2002 году и Послание президента Обамы в 2011 году.
Облако текста малаялам со словами, связанными с наукой

Текст облака или слово облако является визуализация частоты слова в данном тексте как взвешенная списка. Этот прием в последнее время широко используется для визуализации тематического содержания политических выступлений.

Совместите облака

Расширяя принципы текстового облака, совмещенное облако обеспечивает более сфокусированное представление документа или корпуса . Вместо того, чтобы резюмировать весь документ, облако словосочетаний исследует использование определенного слова. Полученное облако содержит слова, которые часто используются вместе с поисковым словом. Эти коллокации отформатированы так, чтобы отображать частоту (как размер), а также силу словосочетания (как яркость). Это обеспечивает интерактивные способы просмотра и изучения языка.

Восприятие

Облака тегов были предметом изучения в нескольких исследованиях удобства использования. Нижеследующее резюме основано на обзоре результатов исследования, сделанного Ломанн и др .:

  • Размер тега: большие теги привлекают больше внимания пользователя, чем маленькие теги (эффект зависит от дополнительных свойств, например, количества символов, положения, соседних тегов).
  • Сканирование: пользователи сканируют, а не читают облака тегов.
  • Центрирование: теги в середине облака привлекают больше внимания пользователя, чем теги рядом с границами (эффект зависит от макета ).
  • Позиция: левый верхний квадрант привлекает больше внимания пользователей, чем другие (западные читательские привычки).
  • Исследование: облака тегов обеспечивают неоптимальную поддержку при поиске определенных тегов (если они не имеют очень большого размера шрифта).

Феликс и др. сравнили, чем производительность чтения человеком отличается от традиционных облаков тегов, которые сопоставляют числовые значения с размером шрифта, и альтернативных дизайнов, которые используют, например, цвет или дополнительные формы, такие как круг и полосы. Они также сравнили, как различное расположение слов влияет на производительность.

  • Использование дополнительной полосы или кружка вместо размера шрифта повышает точность чтения числового значения
  • Однако пользователи могут быстрее находить конкретное слово, если не используется дополнительная отметка.
  • Производительность зависит от задачи, простые задачи, такие как поиск слова, сильно зависят от выбора дизайна, однако влияние на такие задачи, как определение темы облака тегов, намного меньше.

Создание

Wordle составлен из 1000 самых важных статей Википедии, отсортированных по количеству просмотров. Доступно в галерее Wordle.

В принципе, размер шрифта тега в облаке тегов определяется его распространенностью. Для облака слов таких категорий, как веб-журналы, частота, например, соответствует количеству записей веб-журнала, присвоенных категории. Для меньших частот можно напрямую указать размер шрифта, от единицы до любого максимального размера шрифта. Для больших значений следует выполнить масштабирование. При линейной нормализации вес дескриптора отображается в масштаб от 1 до f , где и определяют диапазон доступных весов.

для ; еще
  • : display fontsize
  • : Макс. размер шрифта
  • : считать
  • : мин. считать
  • : Макс. считать

Поскольку количество проиндексированных элементов на дескриптор обычно распределяется по степенному закону , для более широких диапазонов значений логарифмическое представление имеет смысл.

Реализации облаков тегов также включают в себя синтаксический анализ текста и фильтрацию бесполезных тегов, таких как общие слова, числа и знаки препинания.

Существуют также веб-сайты, создающие облака тегов с искусственным или случайным весом для рекламы или для юмористических результатов.

Смотрите также

Рекомендации

Внешние ссылки