当前位置: 首页 > news >正文

东莞做网站优化天助网络武安市精品网站开发

东莞做网站优化天助网络,武安市精品网站开发,网站建设的网站,黄骅港泰地码头TIFS期刊 A类期刊 新知识点 Introduction Linguistic Steganalysis in Few-Shot Scenario模型是个预训练方法。 评估了四种文本加密分析方法,TS-CSW、TS-RNN、Zou、SeSy,用于分析和训练的样本都由VAE-Stego生产(编码方式使用AC编码)。 实验是对比在少样…

TIFS期刊 A类期刊

新知识点

在这里插入图片描述

Introduction

Linguistic Steganalysis in Few-Shot Scenario模型是个预训练方法。
评估了四种文本加密分析方法,TS-CSW、TS-RNN、Zou、SeSy,用于分析和训练的样本都由VAE-Stego生产(编码方式使用AC编码)。
实验是对比在少样本的情况下,各个模型的效果,当训练样本少于10的时候(few-shot),上面提到的TS-CSW和TS-RNN的表现都不好。
Zou和SeSy的方法用了pre-trained language mode,当训练标记样本到达1000的时候表现更好。
TS-CSW和TS-RNN的方法当样本达到10000的时候表现也很好。
表明,现有的分析网络需要大量样本作为训练的铺垫。

之前的文章 Few-shot text steganalysis based on attentional meta-learner[30]这篇文章考虑了few-shot的问题,但是作者的评价是:

Although this linguistic steganalysis method performs well when combined with multi-task scenario, there are some
problems in practical applications. Firstly, this method may not be able to demonstrate its advantages when there are
too few labeled samples to constitute multi-task, which limits its scope of application. Secondly, it is time-consuming
and labor-intensive to label samples accurately with various embedding rates and steganography algorithms

为了分析现实世界的实用场景,这篇文章只关注只有少量标记样本的实际场景(practiacl scenario)。
实验
第一阶段用 labeled data 去 fune-tune pretrained language model
第二阶段用 unlabeled data去进行 self-training(这个没太懂场景和效果问题)
在这里插入图片描述
总结的文本分析所用的方法和模型。👆
在这里插入图片描述
这是作者所用的模型,她提出了一个概念是,在slef-training的模型中,通过无标签(不知道是否是stego还是正常的cover)的文本来进行分析,选择more obvious and easier samples去标记pseudo-labeled(伪标记) dataset--------- D p D_p Dp D p D_p Dp便于后续的训练过程,提取和学习足够和更明显的特征,逐渐澄清分布差异。我们可以重复这个过程,然后得到了一种有效的少镜头语言步进分析方法。

basic model

对于基础模型,通过已标记数据集 D l D_l Dl来训练模型 B W ( ∗ ) B^W(*) BW()(Bert)。
训练的损失函数是:
在这里插入图片描述

N s N_s Ns是batch size,y_hat是预测结果,y是真实结果。

Self-Training Framework

在这里插入图片描述
其中的MC dropout是一种选择模型确定性较大的label给数据贴上。(个人理解类似于max_pooling,通过多次的选取特征明显的值来获取模型最能分辨的一些语句)。
MC dropout
其中 6 ,7 ,8 ,9 ,10几个公式在论文中展示了,效果就是从无标签的文本中选出最大特征的数据(这种数据对于basic model的训练效果最佳),从而实现对于整个模型的正循环的训练。

实验

dataset
使用IMDB和Twitter、News的文本,然后使用BERT-LSTM的架构训练一个VAE-stego的加密模型,对于每个模型,都使用了HC(Huffman Coding)和AC(Arithmetic Coding)两种编码方式来实现。
选择了嵌入率是,HC的candidate pool size 设为了32,每个单词的平均嵌入bit约为5。
AC的candidate pool size 设为了dictionary size,每个单词的平均嵌入bit约为7。
experimental settings
实验模型使用的bert,12层transformer,hidden dimension为768, 最大句子长度是128。
相同的steganalysis methods,做了对比试验,都使用bert作为基本模型,使用了 Zou,SeSy和FSStega进行了对比,在训练labeled sample小于等于10的情况下,作者的准确率(acc)要高于其他几个10%左右。
在这里插入图片描述

performance on unlabeled dataset
为了模拟真实场景(因为真实场景所含有的加密的样本比较少),作者把Cover:Stego的比例从2:1调整到1:0。然后在IMDB数据集上面的AC编码进行训练。由于训练的样本较少,基础模型不稳地,所以这次训练选择使用30个banlance labeled samples对之前的basic model进行再训练,然后再用unbalanced(正负样本比例不均衡) 和 unlabeled dataset对self-training进行训练。
-

Performance on Unlabeled Datasets With Mixed Language Styles
把三个数据集混合进行训练,按占比不同做新的数据集训练,然后按照训练的步骤再进行实验分类。

在这里插入图片描述
a是只进行basic model训练后的分类结果,b是通过unlabeled数据集训练后的分类结果,c是把a和b训练好的最终模型,来进行分类的结果(b产生的sample再进行a训练,把a的模型训练到最佳)。

Generality Test

一共六个数据集,选用了IMDB的AC编码的数据集,来进行对其他5个数据集的验证测试。
在这里插入图片描述

Efficiency Test

在这里插入图片描述
训练好的模型,做加密分析检测一次所需要的时间/内(显)存👆。

Hyper-Parameters Adoption

其中 θ θ θ是当unlableed产生假标记的数据后,labeled的数据(原始数据)再放进去训练basic model的比例(100%)则为完全的有监督学习。
在这里插入图片描述
其中的 α α α是等式9的可更改选择加标签数据的比例。
在这里插入图片描述
作者做的实验是真的全面,佩服!

http://www.yayakq.cn/news/746162/

相关文章:

  • 大兴做网站学校官网
  • 网站接入商是什么意思会员卡管理系统哪里买
  • 仅有网站做app网络设计有限公司
  • 无忧网站源码关于网站建设的报告
  • 建网站自学wordpress 更新feed
  • 黑龙江省华龙建设有限公司网站seo具体seo怎么优化
  • 米课中有个内贸网站建设方象科技专注于什么领域
  • 一个专门做ppt的网站vps 做网站
  • 番禺响应式网站开发怎么利用QQ空间给网站做排名
  • 网站开发前端与后端源代码同行做的好的网站
  • 滁州 来安县建设局网站新潮狼网站建设
  • 英文网站建设一般多少钱wordpress实现微信登录界面
  • 汽车销售服务东莞网站建设产品网络推广服务
  • 在哪些网站做推广wordpress菜单.html
  • 深圳网站开发公司h5网页制作软件教程
  • 最新企业网站开发和设计软件百度餐饮网站建设
  • 什么样的网站流量容易做自己做视频直播网站
  • 西安高新网站制作百度一下首页百度
  • 怎么制作一个自己的网站网上花店网站建设
  • 局域网内建设网站个体工商户可以做网站吗
  • 衡阳退休职工做面膜网站大学生创新创业网站开发
  • 手机网站合同wordpress 本地搭建
  • 公共场所建设网站沈阳做平板网站
  • 网站开发用哪些技术房地产基础知识
  • 保健品 东莞网站建设适合毕设做的简单网站
  • 五站合一网站建设重庆网站建设接重庆零臻科技
  • 个人做排行网站深圳市创同盟科技有限公司
  • 企业手机网站建设策划网名logo设计制作
  • 网站诸多个人或主题网站建设 实验体会
  • 静态网站是什么原因c 做网站怎么截取前面的字符