LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。
#!/usr/bin/python
#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding("utf8")
import jieba
from gensim import corpora, models
def get_stop_words_set(file_name):
with open(file_name,'r') as file:
return set([line.strip() for line in file])
def get_words_list(file_name,stop_word_file):
stop_words_set = get_stop_words_set(stop_word_file)
print "共计导入 %d 个停用词" % len(stop_words_set)
word_list = []
with open(file_name,'r') as file:
for line in file:
tmp_list = list(jieba.cut(line.strip(),cut_all=False))
word_list.append([term for term in tmp_list if str(term) not in stop_words_set]) #注意这里term是unicode类型,如果不转成str,判断会为假
return word_list
if __name__ == '__main__':
if len(sys.argv) < 3:
print "Usage: %s <raw_msg_file> <stop_word_file>" % sys.argv[0]
sys.exit(1)
raw_msg_file = sys.argv[1]
stop_word_file = sys.argv[2]
word_list = get_words_list(raw_msg_file,stop_word_file) #列表,其中每个元素也是一个列表,即每行文字分词后形成的词语列表
word_dict = corpora.Dictionary(word_list) #生成文档的词典,每个词与一个整型索引值对应
corpus_list = [word_dict.doc2bow(text) for text in word_list] #词频统计,转化成空间向量格式
lda = models.ldamodel.LdaModel(corpus=corpus_list,id2word=word_dict,num_topics=10,alpha='auto')
output_file = './lda_output.txt'
with open(output_file,'w') as f:
for pattern in lda.show_topics():
print >> f, "%s" % str(pattern)
纯函数都是函子 Often, when implementing a feature, you won't know how certain events should be handled at the point where they occur and you'd rather defer to the user of your function or...
一、概念 前边我们介绍过,索引是与表或视图关联的磁盘上结构,可以加快从表或视图中检索行的速度。 聚集索引基于数据行的键值在表内排序和存储这些数据行,对磁盘上实际数据重新组织以按指定的一列或多列值排序,聚集索引的顺序和数据表中数据存储的顺序是一样的。每个表只能有一个聚集索引,因为数据行本身只能按一个顺序存储。举例子就是字典的拼音索引。 这里引申两个概念,...
最近复习数据结构,用java写一个树的模板,代码如下,写的比较仓促,如果有哪里写的不好,或者有错误,请在评论区提出,谢谢。package Tree;import java.util.ArrayList;import java.util.List;/** * 树节点 * @author * * @param <T> */public class Node<T> { private
2019独角兽企业重金招聘Python工程师标准>>> ...
Deeper and Wider Siamese Networks for Real-Time Visual Tracking 论文地址 代码写在前面又是一篇商汤做的关于SiamRPN的改进,加深了网络宽度与深度,优化特征提取过程,效果很好。Motivation深度的网络如ResNet在其他视觉任务上都有很好的表现,然而却不能移植到目标跟踪领域中;网络太深导致最后特征的感受野太大,更加...
简介此文,将尝试动态从某个不确定的文件夹中加载资源文件.文章,会继续完善自定义的 imageNamed 函数,并为下一篇文章铺垫.
本文暂时不贴代码,只是总结一下这两天的思路,做的过程中遇到的问题,尝试的各种方法以及结果。首先说下现阶段想要的一个效果吧:利用Kinect2采集人的骨架参数,实时映射到机械臂的几个自由度让其模仿人右臂的动作。Kinect2部分流程图大概如下:Created with Raphaël 2.1.0开始初始化选择对象检测骨架TCP/IP发送数据退出?结束yesno1)这里的初始化选择对象的意思是让电脑知道
def lettersChangeDatas(new_s): s_list=new_s.split() print(s_list) new_s='' for words in s_list: for letter in words: if letter.lower() in "abc": ne...
转自本人运营的公众号“携程技术中心PMO”(ID:cso_pmo)Key:Trip.com,携程,携程PMO,携程技术,敏捷开发,PMO,PMI,PMP,Scrum,AgileWIP是什么?WIP(work in progress)指的就是工作中心在制品区。在经过部分制程之后,还没有通过所有的制程,或者还没有经过质量检验,因而还没有进入到成品仓库的部分...
Unity版本:2021.1.3;前言:Post Processing(后处理效果)使用前需要区分渲染管线,不同的渲染管线有不同的添加方式,本文以通用和URP两种渲染管线举例;(这在之前的教程中没有看见提及)一、概括说明:通用渲染管线(3D):需要在 “Window > Package Manager” 找到 “Post Processing” 插件并安装;URP渲染管线:在安装URP插件之后(或者直接新建URP工程文件),直接在 “Hierarchy” 面板鼠标右键 “Volume >
上司让我react native 中显示 原生已经写好的 K线图 ,原生那边给我的是 fragment界面,一开始我将fragment放到framelayout 中返回,framelayout 显示了,但是fragment就是怎么样都不显示,后面就去google,发现有一些人也有这些问题,但是没有人有好的答案,最后也只能换个方法来实现了。所以,如果你也遇到这个问题,还是换个思路写吧,别浪费时
一、先做好excel表格二、另存为UTF8 编码的逗号分隔值文件格式(csv)三、python代码(csv2vcf.py)(经测试可直接使用)import sysimport osimport redef csv2vcf_android(csv_filename, encoding='utf-8'): """csv格式文件转换为安卓适用的vcf格式文件""" # 1.读取csv文件 with open(csv_filename, 'r', encoding='utf-