加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

从数据角度分析陈冠希大骂林志玲事件

发布时间:2016-08-02 07:07:28 所属栏目:评论 来源:百度百家
导读:近日,陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰 的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,

好,既然是评论,我们首先当然要来一发词云分析先

library(tm)

library(Rwordseg)

installDict('明星【官方推荐】.scel','明星')

contentCorpus<- Corpus(VectorSource(na.omit(d$text)))

contentCorpus<- tm_map(contentCorpus, stripWhitespace)

contentCorpus=tm_map(contentCorpus, content_transformer(segmentCN), returnType='tm')

#tm分词对中文分词Bug解决方案

tokenizer <-function(x){

unlist(

strsplit(

x$content,

'[[:space:]]+'

)

)

}

tdm <-TermDocumentMatrix(

contentCorpus,

control=list(

wordLengths=c(1,Inf),

tokenize=tokenizer

)

)

#转成向量矩阵

tdm <-as.matrix(tdm)

library(wordcloud)

v <-sort(rowSums(tdm), decreasing = TRUE)

d <-data.frame(word = names(v), freq = v)

d <- d[1:300,]

wordcloud(

d$word,

d$freq,

min.freq=2,

random.order=F,

colors=rainbow(length(row.names(d)))

)

执行这段代码,我们可以得到以下的词云:

从数据角度分析陈冠希大骂林志玲事件

可以看到,网友们对于陈老师的这种无端端撕B的行为,一致认为是“你,的,不,是”。(DT君吐槽:这图真心有点吃藕!)

港东银最关心陈老湿

陈老师,看到后,也回复了网友的关心:

从数据角度分析陈冠希大骂林志玲事件

好了,大家的态度,陈老师收到了,你们喜欢或者是不喜欢,陈老师还是当年的陈老师,粉丝量还是上两千万的陈老师。

好,接着我们来分析一下网友们的特征。

genderTable<- prop.table(table(d$gender))

从数据角度分析陈冠希大骂林志玲事件

女网友竟然占比达到65%,好惊讶,是因为志玲姐姐男女通吃,还是陈老师魅力不减当年,还有一堆的女性摄影爱好者粉丝呢……

从数据角度分析陈冠希大骂林志玲事件

接着我们来看看网友们的地区分布:

locationTable<- prop.table(table(d[, "1"][d[, "1"]!="其他"]))

从数据角度分析陈冠希大骂林志玲事件

这个就不出所料了,港东银占据了榜首,不愧是和陈老师发源地比较近。

接着,我们看看用户是否都是加V的。

verifiedTable<- prop.table(table(d$verified))

从数据角度分析陈冠希大骂林志玲事件

看来陈老师号召力很强,竟然有1.5%的加V用户转发它了。

最后,我们来看看用户的微博等级:

hist(d$urank, main = "用户等级",xlab = "用户等级", freq = FALSE, ylab = "占比")

从数据角度分析陈冠希大骂林志玲事件

我们可以看到,用户的等级竟然也是就接近正态分布,证明这个话题的水军比较少呢,陈老师果然是实力派,出来混,是不需要带是水军的。

PS:笔者微博等级才14级,因为懒得关注太多的人,所以卡在了14级,所以12到14级人多是很正常的。

数据侠门派:

本文数据侠 KEN “小蚊子数据分析”团队成员

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读