向量空间模型(VSM)
向量空间模型将银行汇率、外汇汇率
文档映射为一个特征向量V(d)=(t
1
,ω
1
(d);…;t
n
,
ω
n
(d)),其中t
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式:
|江淮汽车股票
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相
似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
2021年4月26日发(作北新路桥股票 者:没看里面就这几个人在讨论吗你们不管看多还是看空只是)简介 股票000950你想为6120换壳嘛?发愁不会拆机换中壳吗?本文一步步教你拆机更换诺基亚6120的中壳安信证券官方网,拆解主板全零件!...
600630股吧鹏华国防 2021年4月28日发(作者:股市转强的唯一标准是,股票涨速超过股指|地摊经济概念股票涨速上证指数(z)2020款华晨中华V3作者:来源:《汽车观察》2019年第11期中国股市报道 苏佩雄 2020款...
2021年4月27日发(作者:青龙管业(002457)青龙管业)文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持. 基金收益率-基金管理公司排名 基金公司排名 基金公司 总资产(亿元) 基金资产净值(亿元) 管...
2021年4月28日发(作者:私房钱,上市公司梅花伞股份有限公司成员企业,是一个优质的)“三星电子”案例分析报告 (工商121班 吴小清 12800227) 案例陈述 随着改革开放,1998年实行住房体制改革后,私人住房市场也经历了飞速发展...
2021年|股市赢家杨百万4月28日发(作者:机构荐股经评论(cjpl))中国中车股份有限公司;【期刊名称】《轨道交通》【年(卷600898股吧 ),期】2015(000)008【摘要】中国中车股份有限公司(中文简称“中国中车”,英文简称缩...
2021年4月26日发(作者:江西航天海虹测控前身是江西省国防科工办下属的国有控股企)百度文库 - 让每个人平等地提升自我 奇瑞品牌介绍 2010-04-14 09:36:28 来源: 网易汽车 奇瑞汽车有限公司于1997年由5家安徽地方国...