当前位置: 首页 > news >正文

网站集约化建设存在的问题wordpress开发单页面

网站集约化建设存在的问题,wordpress开发单页面,四川省查询建设证书的网站,图书馆网站建设费用文章目录 LDA主题数困惑度1.概率分布的困惑度2.概率模型的困惑度3.每个分词的困惑度 LDA主题数 LDA作为一种无监督学习方法,类似于k-means聚类算法,需要给定超参数主题数K,但如何评价主题数的优劣并无定论,一般采取人为干预、主题…

文章目录

        • LDA主题数
        • 困惑度
          • 1.概率分布的困惑度
          • 2.概率模型的困惑度
          • 3.每个分词的困惑度

LDA主题数

LDA作为一种无监督学习方法,类似于k-means聚类算法,需要给定超参数主题数K,但如何评价主题数的优劣并无定论,一般采取人为干预、主题困惑度preplexing和主题一致性得分coherence score,本文介绍困惑度。

困惑度

在信息论中,perplexity(困惑度)用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型。低困惑度的概率分布模型或概率模型能更好地预测样本。

1.概率分布的困惑度

定义离散概率分布的困惑度如下:

其中H§是概率分布p的熵,x是样本点。因此一个随机变量X的困惑度是定义在X的概率分布上的(X所有"可能"取值为x的部分)。(译者:x不能包含零测集的点,不然p(x)logp(x)没定义)

一个特殊的例子是k面均匀骰子的概率分布,它的困惑度恰好是k。一个拥有k困惑度的随机变量有着和k面均匀骰子一样多的不确定性,并且可以说该随机变量有着k个困惑度的取值(k-ways perplexed)。(在有限样本空间离散随机变量的概率分布中,均匀分布有着最大的熵)

困惑度有时也被用来衡量一个预测问题的难易程度。但这个方法不总是精确的。例如:在概率分布B(1,P=0.9)中,即取得1的概率是0.9,取得0的概率是0.1。可以计算困惑度是:

同时自然地,我们预测下一样本点的策略将是:预测其取值为1,那么我们预测正确的概率是0.9。而困惑度的倒数是1/1.38=0.72而不是0.9。(但当我们考虑k面骰子上的均匀分布时,困惑度是k,困惑度的倒数是1/k,正好是预测正确的概率)

困惑度是信息熵的指数。

2.概率模型的困惑度

用一个概率模型q去估计真实概率分布p,那么可以通过测试集中的样本来定义这个概率模型的困惑度。

其中测试样本x1, x2, …, xN是来自于真实概率分布p的观测值,b通常取2。因此,低的困惑度表示q对p拟合的越好,当模型q看到测试样本时,它会不会“感到”那么“困惑”。

我们指出,指数部分是交叉熵。


表示我们对真实分布下样本点x出现概率的估计。比如用p(x)=n/N

3.每个分词的困惑度

在自然语言处理中,困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整个句子或者文段上的概率分布。

比如,i这个句子位置上的概率分布的信息熵可能是190,或者说,i这个句子位置上出现的句子平均要用190 bits去编码,那么这个位置上的概率分布的困惑度就是2(190)。(译者:相当于投掷一个2(190)面筛子的不确定性)通常,我们会考虑句子有不同的长度,所以我们会计算每个分词上的困惑度。比如,一个测试集上共有1000个单词,并且可以用7.95个bits给每个单词编码,那么我们可以说这个模型上每个词有2^(7.95)=247 困惑度。相当于在每个词语位置上都有投掷一个247面骰子的不确定性。

在Brown corpus (1 million words of American English of varying topics and genres) 上报告的最低的困惑度就是247per word,使用的是一个trigram model(三元语法模型)。在一个特定领域的语料中,常常可以得到更低的困惑度。

要注意的是,这个模型用的是三元语法。直接预测下一个单词是"the"的正确率是7%。但如果直接应用上面的结果,算出来这个预测是正确的概率是1/247=0.4%,这就错了。(译者:不是说算出来就一定是0.4%,而是说这样算本身是错的)因为直接预测下一个词是”the“的话,我们是在使用一元语法,而247是来源于三元语法的。当我们在使用三元语法的时候,会考虑三元语法的统计数据,这样做出来的预测会不一样并且通常有更好的正确率。

http://www.yayakq.cn/news/355847/

相关文章:

  • dw制作简单网站模板下载地址logo设计在线制作神器
  • 建设网站设计深圳商业网站建设
  • 江苏省城乡住房建设厅网站公司新成立想要搭建网站怎么做
  • .php是什么网站用pc机做网站并让外网搜到
  • 宜昌市建设信息网站怎么申请 免费网站空间
  • 衣服图案设计网站辽宁省建设工程信息网公告
  • 用自己头像做的圣诞视频网站刷业务网站怎么做
  • 开装潢公司做网站营销技巧第三季
  • 昆明设计网站做网站大流量
  • 自学做视频网站网站页面布局名称
  • 商业图片素材网站网站外链发布
  • 邹城网站设计玛沁县网站建设公司
  • 网站上推广游戏怎么做广东网站制作哪家强
  • 网站建设对应的岗位网站管理是做什么的
  • 京市保障性住房建设投资中心网站html怎么做查询网站吗
  • 整站优化系统厂家网站的设计页面
  • 传媒有限公司免费网站wordpress08教程
  • 网站开发建设好处学工网站建设
  • 特色专业建设验收网站wordpress批量删除图片
  • 手机网站描述网站备案一般由谁来做
  • 百度搜索网站怎么做网站导航广告怎么做
  • 网站app开发一站式服务湖南seo网站设计
  • 阿里 网站建设深圳软件开发公司推荐
  • 开发网站的工具有哪些最专业的做网站公司有哪些
  • 建设厅网站业务系统板块查成绩公司做网站的费用记到哪个科目
  • 免费建站的手机app嘉兴网站建设公司哪家好
  • 手把手做网站access如何与网站连接数据库
  • 关键词优化排名详细步骤盐城网站关键词优化
  • 三门峡做网站公司黄骅的网站
  • 网络推广培训要多少钱高手优化网站