LSA算法简单理解

更新时间:2023-07-20 16:30:59 阅读: 评论:0

LSA算法简单理解雏鸭
⽂本挖掘的两个⽅⾯应⽤:
(1)分类:
a.将词汇表中的字词按意思归类(⽐如将各种体育运动的名称都归成⼀类)
b.将⽂本按主题归类(⽐如将所有介绍⾜球的新闻归到体育类)
(2)检索:⽤户提出提问式(通常由若⼲个反映⽂本主题的词汇组成),然后系统在数据库中进⾏提问式和预存的⽂本关键词的⾃动匹配⼯作,两者相符的⽂本被检出。
⽂本分类中出现的问题:
(1)⼀词多义
⽐如bank 这个单词如果和mortgage, loans, rates 这些单词同时出现时,bank 很可能表⽰⾦融机构的意思。可是如果bank 这个单词和lures, casting, fish⼀起出现,那么很可能表⽰河岸的意思。
(2)⼀义多词
田叔⽐如⽤户搜索“automobile”,即汽车,传统向量空间模型仅仅会返回包含“automobile”单词的页⾯,⽽实际上包含“car”单词的页⾯也可能是⽤户所需要的。
发展经济LSA原理:
通过对⼤量的⽂本集进⾏统计分析,从中提取出词语的上下⽂使⽤含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提⾼了后续处理的精度。流程:
(1)分析⽂档集合,建⽴词汇-⽂本矩阵。
(2)对词汇-⽂本矩阵进⾏奇异值分解。
(3)对SVD分解后的矩阵进⾏降维
(4)使⽤降维后的矩阵构建潜在语义空间汽车座垫
LSA详细流程:
LSA初始矩阵的⽣成:
(1)⽣成词汇库(以英⽂⽂本为例)
a从⽂本中过滤⾮英⽂字母字符;
b过滤禁⽤词;
如何锻炼手臂力量
c相同词根单词归⼀;
d词汇统计和排序:
e⽣成词汇库
(2)⽣成词汇-⽂本矩阵
由各索引词在每篇⽂本中的出现频率⽣成词汇-⽂本矩阵 X 该矩阵中(第 i⾏第 j 列的元素数值aij 表⽰第 i个索引词在第 j 篇⽂本中出现的频率或者TF-IDF加权词频)
初始矩阵中每⼀⾏对应⼀个词,每列对应⼀篇⽂章,M个词和N篇⽂章可以表⽰为如下MX N的矩阵
(3)奇异值分解
如下图将⼀个⼤矩阵分成3个⼩矩阵相乘的形式。
(1)第⼀个⼩矩阵X是对词进⾏分类的⼀个结果,它的每⼀⾏表⽰⼀个词,每⼀列表⽰⼀个语义相近的词类,这⼀⾏中每个⾮零元素表⽰每个词在每个语义类中的重要性(或者说相关性)
如X =  [0.7 0.15;0.22 0.49;0.3 0.03]
则第⼀个词和第⼀个语义类⽐较相关,第⼆个词正好相反,第三个词与两个语义都不相关。
(2)第⼆个⼩矩阵B表⽰词的类和⽂章的类之间的相关性
如B = [0.7 0.21;0.18 0.63]
则第⼀个词的语义类和第⼀个主题相关,和第⼆个主题没有太多关系,第⼆个词的语义类则相反
(3)矩阵Y是对⽂本进⾏分类的⼀个结果,它的每⼀⾏表⽰⼀个主题,每⼀列表⽰⼀个⽂本,这⼀列每个元素表⽰这篇⽂本在不同主题中的相关性
如Y =[0.7 0.15;0.22 0;0.92 0.08]
则第⼀篇⽂章属于第⼀个主题,第⼆篇⽂章和第⼆个主题⾮常相关,第三篇⽂章与两个主题都不相关
灵泽实例:
将进酒原版
对⼀下九个标题进⾏分类以及对提问式human computer interaction进⾏检索
标题(⼈机互动和图形)
c1: Human machine interface for Lab ABC computer applications
c2: A survey of ur opinion of computer system respon time
c3: The EPS ur interface management system
c4: System and human system engineering testing of EPS
c5: Relation of ur-perceived respon time to error measurement
m1: The generation of random, binary, unordered trees
m2: The interction graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey
(1)构建词汇-⽂本矩阵
(2)使⽤MATLAB进⾏奇异值分解然后对其进⾏降维:
数学之美(p137-142)--吴军
LSI潜在语义信息检索模型--何伟
潜在语义分析在⽂本信息检索中的应⽤研究--卢健潜在语义分析理论研究及其应⽤--陈洁华
伏龙山版权声明:本⽂为博主原创⽂章,未经博主允许不得转载。

本文发布于:2023-07-20 16:30:59,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/1107182.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:语义   矩阵   主题   词汇   分类   处理   出现
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图