向量空间模型(VSM)
向量空间模型将文档映射为一个特征向量V(d)=(t
1
,ω
1
(d);…;t
n
, 银行汇率、外汇汇率
ω
n
(d)),其中t
i
(i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一般被定义为t
i
在d中出现频率tf
i
(d)的函数,即 。
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有
文档的数目,n
i
为含有词条t
i
的文档数目银行汇率、外汇汇率
。TF-IDF公式有很多变种,
下面是一个常用的TF-IDF公式:
|江淮汽车股票
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文
档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条
出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文
档d
i
,d
j
的相似度可以表示为
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:
|300044
当t
i
在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即
从而文档d与查询Q的相似度为
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-
近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档
子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相
似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能
够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入
时,则必须重新计算词的权值。
000611股吧2021年4月28日发(作者:成品油价格迎来四连涨汽柴油每升分别上调0.08元与0.09元)整车控制器 功能定义 2、目录整车控制器 ................................................
2021年4月26日发(作者:11.4的含义!三安光电(600703))外汇牌价怎么看汇率 外汇牌价和汇率有000665股票什么区别 相信对经常待在汇市中的投资者来讲,“外汇牌价”交割日是什么意思 这个词肯定听说过,但对刚入汇市者来说,它...
来源:北京商报股票002479白酒股走势分化,但不是跌幅大的就具备投资价值,酒文化支撑出名酒,这不是一个一荣俱荣的行业。白酒股的好日子,其实都因为贵州茅|莲香楼台的超级强势,于是在比价效应的作用下,白酒股集体出现一大汉缆股份股吧波上涨走势。...
国星光电是做什么的?是上市公司吗? 1、国星光电股份有限公司是国企。国星光电股份有限公司的全称是佛山市国星光电股份有限公司,佛山市国星光电股份有限公司是广东省属国有独资重点企业广晟控股集团的控股上市公司(股票代码:002449),专业从事研...
2021年4月28日发(作者:尿素尿素)杭州高铁三日游 牛仔网直播室———————————————————————————————— 作者: ———————————————————————————————— 日期: ? 002244股票...
002623股票 2021年4月26日发(作者:通裕重工(300185)通裕重工) 平 安 普 惠 贷 款名 称寿险贷年 龄23-55额度(万)2-30准入规则区间利率入件资料股票6008071、身份证2、工作单位名称+单位固...