当前位置: 首页 > news >正文

跨境网站导航网

跨境网站,导航网,王烨请叫我鬼差大人,易商官方网站自我介绍 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【…

自我介绍

  • 做一个简单介绍,酒架年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师酒馆】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。微信小号【ca_cea】

在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:

  • 与第三方共享数据
  • 遵守GDPR等法规要求
  • 将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据

我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。

在第一部分中,我们找到了一种在文本中查找人名的方法,让我们看看我们还可以找到其他类型的PII。

介绍Duckling

Duckling是一个Haskell库,由Facebook开源,用于将文本解析为结构化数据。Duckling可以帮助我们在文本中找到不同类型的信息,包括信用卡号码、电子邮件地址和电话号码。

现在别担心,如果你不是了解Haskell的三个人之一,我们可以将Duckling与任何编程语言一起使用。

Python示例

让我们看看我们将如何用一种不需要关于副作用的害处的演讲的语言来使用Duckling。

先决条件:

安装Git、Docker和Docker-compose

步骤1:

git clone git@github.com:facebook/duckling.git

第2步:

在克隆的Duckling repo中制作一个docker compose文件。

docker-compose.yml:

version: '3'services:duckling:build:context: .ports:- 8000:8000

步骤3:

开始Ducking作为Docker服务:

docker-compose up duckling

现在,Duckling服务通过我们本地主机上的端口8000通过HTTP API提供。让我们开始对API进行一些调用,看看我们得到了什么:

import requeststext = 'My email address is spy@ninja.com and my number is +1 (650) 123-4567 so call me maybe?'response = requests.post('http://localhost:8000/parse', {'locale': 'en_US', 'text': text})entities = response.json()for entity in entities:print( entity['dim'] +": "+ entity['body'])

这将打印以下内容:

email: spy@ninja.com
phone-number: +1 (650) 123-4567

美好的Duckling在我们的文本中找到了电子邮件地址和电话号码,并确认此文本包含PII。现在让我们看看它是如何处理信用卡号的:

import requeststext = 'Last Christmas I gave you my card 4111-1111-1111-1111 But the very next day you gave it away'response = requests.post('http://localhost:8000/parse', {'locale': 'en_US', 'text': text, 'dims': ["credit-card-number"]})entities = response.json()for entity in entities:print( entity['dim'] +": "+ entity['body'])

迫不及待地想看到那个甜蜜的信用卡号被打印出来。让我们看看它打印了什么:

credit-card-number: 4111-1111-1111-1111
phone-number: 4111-1111-1111-1111

呃…它检测到我们的号码是电话号码和信用卡号码。我想安全总比抱歉好。

Duckling可以帮助我们找到其他类型的数据,或者用Duckling的语言称为“维度”,所以请随意浏览该项目的Github页面,看看还有什么可用的。

结论

我们现在可以添加到我们能够找到的PII类型列表中:人名、电子邮件地址、电话号码和信用卡号。我们已经看到还有改进的空间,例如,我们可以使用Luhn算法来确认一个号码是信用卡号码,而不是电话号码,但这超出了本系列的范围,因为每个人都需要在这里讨论的主题的基础上构建自己的用例。

在接下来的文章中,我们将看到其他工具是如何执行的,以及它们可以帮助我们找到哪些其他类型的PII。

本文:【自然语言处理】第2部分:识别文本中的个人身份信息 | 开发者开聊

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

http://www.yayakq.cn/news/971467/

相关文章:

  • 匈牙利网站后缀做购物网站的目的
  • 微信移动网站建设wordpress唯美主题
  • 网站建设公司一年赚多少俄罗斯乌克兰伤亡人数
  • 德州鲁企动力网站优化中心江苏建设管理信息网站
  • 智慧建设网站做网站应该会什么软件
  • 微信小程序与微网站江苏品牌网站建设
  • 怎么设计网站商用高端网站设计新感觉建站
  • 做兼职网站赚钱吗网站开站备案
  • 如何用电脑记事本做网站营销网站手机站
  • 济宁市建设局网站平台推广的方法有哪些
  • 网站抓取诊断ip出错wordpress 去购买按钮
  • 网站做全景图举例说明什么是网络营销
  • 做网站要提供营业执照吗wordpress版本回退
  • 哈尔滨网站定制公司二次开发收费需要高点
  • 中国纪检监察报总编辑咸阳网站建设seo
  • 网站如何设置404页面开工作室需要什么条件
  • 合肥 电子商务 网站推广网站制作排行榜
  • wordpress网站能APP吗seo网站模版
  • nike建设网站的目的网络建设公司经营范围
  • 如何在手机做网站wordpress 培训插件
  • 宠物网站制作费用明细杭州最新消息今天
  • 职业生涯规划大赛优秀作品网站建设优化服务流程
  • 网站建设方案设计网站制作公司-山而
  • 做海报找图片的网站中小企业网络规划与设计
  • 做网站月薪资多少钱做网站月入
  • 嘉兴市做网站优化全国代运营最好的公司
  • 建设英文网站的请示wordpress 503
  • 海淀网站开发洛阳做网站找哪家
  • wap建站程序哪个好王野天津音乐广播
  • 个人名义做网站能备案吗做seo的网站推广