Saturday, May 28, 2022

Word Cloud Python sample on Fedora 35

Что такое облако слов?

Облака слов (также известные как текстовые облака или облака тегов) работают по простой схеме: чем чаще конкретное слово появляется в источнике текстовых данных (например, в речи, сообщении в блоге или базе данных), тем крупнее и жирнее оно отображается в тексте. слово облако.Облако слов — это набор или кластер слов, изображенных в разных размерах. Чем крупнее и жирнее слово, тем чаще оно упоминается в данном тексте и тем важнее оно.Также известные как облака тегов или текстовые облака, это идеальные способы извлечения наиболее важных частей текстовых данных, от сообщений в блогах до баз данных. Они также могут помочь бизнес-пользователям сравнить и сопоставить два разных фрагмента текста, чтобы найти сходство формулировок между ними.

Существуют отраслевые инструменты, которые позволяют вам кодировать такие открытые данные, чтобы пользователи могли понимать их количественно. Тем не менее, это не дешево. Облака слов предлагают экономичную, но мощную альтернативу.

С их помощью вы по-прежнему можете количественно анализировать свои текстовые идеи в измеримой аналитике. Единственная разница? Вы не создадите диаграмму или график, как с набором чисел.Вместо этого вы создадите генератор облака слов, чтобы преобразовывать наиболее важную информацию в облако слов. 

Code Source

(.env) [boris@sever35fedora WORDCLOUD]$ cat world_cloud.py

from wordcloud import WordCloud, STOPWORDS

import matplotlib.pyplot as plt

import pandas as pd

 # Reads 'Youtube04-Eminem.csv' file

df = pd.read_csv(r"Youtube04-Eminem.csv", encoding ="latin-1")

comment_words = ''

stopwords = set(STOPWORDS)

 # iterate through the csv file

for val in df.CONTENT:

    # typecaste each val to string

    val = str(val)

    # split the value

    tokens = val.split()

     # Converts each token into lowercase

    for i in range(len(tokens)):

        tokens[i] = tokens[i].lower()

    comment_words += " ".join(tokens)+" "

wordcloud = WordCloud(width = 800, height = 800,

                background_color ='white',

                stopwords = stopwords,

                min_font_size = 10).generate(comment_words)

# plot the WordCloud image                      

plt.figure(figsize = (8, 8), facecolor = None)

plt.imshow(wordcloud)

plt.axis("off")

plt.tight_layout(pad = 0)

plt.show()


































Приведенное выше облако слов было создано с использованием файла Youtube04-Eminem.csv в наборе данных. Одной из интересных задач может быть создание облаков слов с использованием других CSV-файлов, доступных в наборе данных.

Преимущества облака слов:

Анализ отзывов клиентов и сотрудников.
Определение новых ключевых слов SEO для таргетинга.
Недостатки облаков слов:

Облака слов не идеальны для каждой ситуации.
Данные должны быть оптимизированы для контекста.

































No comments:

Post a Comment