当前位置: 首页 > news >正文

成都网站设计推荐软件定制开发如何做

成都网站设计推荐,软件定制开发如何做,建设银行网站的登录验证程序安全吗,wordpress 网站内跳转我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。 在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。 这篇文章旨在检验我的预测能力…

我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。

在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。

这篇文章旨在检验我的预测能力。但我也写这篇文章是为了引发关于关键趋势的讨论,并帮助数据科学家思考他们在未来几年应该发展的技能。

注意事项

  1. 这篇文章是从一个传统上以Pandas进行探索性数据分析,然后将分析结果以无服务器函数形式进行生产化的工作者的角度出发。生产阶段可能涉及机器学习模型,但也可能是一组定义好的规则和正则表达式。
  2. 我的经验也包括作为研究科学家在集群上运行大规模分析,而不涉及任何无服务器生产阶段。

预测一:Polars 和 DuckDB 将取代 Pandas 作为表格数据的核心工具

随着性能上相比 Pandas 的巨大飞跃,Polars 和 DuckDB 将成为 Python 中数据分析的标准工具。这一转变已经从那些感受到最大性能压力的用户开始,但随着它们周围生态系统的发展,它们将成为标准。

然而,这些工具的优势并不仅仅在于它们计算速度有多快。Polars 的表达式语法比 Pandas 中相应的语法更适合描述数据转换。这两个库都应用了自动查询优化,避免了 Pandas 代码越来越繁琐的手动优化。它们还都处理了并行化和大于内存的数据,而无需其他无数依赖项。

我认为 Polars 和 DuckDB 将成为双寡头,而不是其中之一取代 Pandas 成为垄断者。尽管这两个库的功能有很多重叠,但有些人会想要一个像 DuckDB 这样的工具,它拥有更多关系型数据库的陷阱,而有些人则不会。

预测二:Arrow 将成为数据科学生态系统的核心技术

Apache Arrow 是一种用于表示内存中数据的格式。Arrow 的设计是语言无关的,并且许多语言中都出现了实现这种格式的库。

Polars 是直接基于名为 Arrow2 的 Rust Arrow 库构建的。DuckDB 并不是基于 Arrow 构建的,但它可以从 Arrow 数据中进行零拷贝读取。

Arrow 将取代 Numpy 数组在数据科学生态系统中表格数据的核心地位。这意味着可视化、机器学习和其他库将接受 Arrow 对象作为输入。由于 Arrow 允许零拷贝数据交换,这些库将能够直接从数据框中直接摄取数据,而无需像现在这样进行大量浪费性的数据复制。

随着 Arrow 使得进程间通信更加容易,我们还将看到数据科学工具的融合,例如在 Python 脚本中拟合 R 模型。

在这方面,变革的步伐比 Polars 和 DuckDB 的采用要慢一些。然而,变革的步伐正在加快。例如,XGBoost 模型现在接受 Arrow 表作为输入,而 Huggingface 的 Datasets 库则使用 Arrow 作为其本地缓存系统。

预测三:Rust 化的趋势

在数据科学蓬勃发展的十年里,我所在领域的日常工作主要由像 Python 这样的动态语言或像 R 和 Julia 这样使用即时编译的语言主导。虽然像 C 和 C++ 这样的编译型语言被用于 Python 扩展或 DuckDB 的内部,但很少有数据科学家直接使用它们。

我预测 Rust 将成为数据科学家常用的第一种预编译语言(而不会取代 Python 和 R 作为主要语言)。Rust 在数据科学家中的普及将受到 Polars 的推动,用户会发现从使用 Python 切换到 Rust API 的门槛相对较低——比从 Pandas 切换到 C 的门槛要低得多!

我们还将看到更多基于 Rust 构建的库,这些库将提供 Python 和 R 的 API。特别是,我认为我们将看到一个广泛使用的、用 Rust 编写并基于 Apache Arrow 的 Scikit-Learn 替代品。

在过去的几个月里,我在 Polars 的工作中明显感受到了 Rust 的优势。相比 Python,Rust 在性能上的提升是巨大的,并且并行化得到了可靠的管理。然而,Rust 周围的现代工具系统,如用于管理依赖项的 Cargo,使得 Rust 对于 Python 开发者来说比旧语言更容易接受。我之所以决定将精力集中在 Polars 而不是 DuckDB 上,其中一个因素就是我对学习 Rust 的热情远超过学习 C++。

关于GPU

我最近将Polars描述为地球上最快的数据科学工具。然而,一位受访者正确地指出,基于GPU的库(如cuDF)更快。但是,使用GPU的额外成本很高,包括GPU本身的成本以及管理额外云实例的成本。

GPU在数据处理方面的流行度将继续增长,但在未来几年内不会成为标准方法。随着Polars和DuckDB通过内置并行化和矢量化指令更高效地利用多核CPU,只有高级用户才会觉得使用GPU的成本效益是合理的。

http://www.yayakq.cn/news/147560/

相关文章:

  • 营销网站制作费用什么是网络营销策略
  • 快速做网站企业做拼图字的网站
  • 西乡专业网站建设哪些官网用wordpress
  • 青岛网站优化排名成都网络运营公司
  • 门户类网站前台建设银行网站如何修改账单地址
  • 建一个网站容易吗扶余手机网站开发公司
  • php 企业网站框架常州做网站公司有哪些
  • 唐山市住房房和城乡建设厅网站重庆沙坪坝地图
  • 上海企业网站模板建站哪家好网站设计需要需要用
  • 成都大丰网站建设例表网网络工程师干啥的
  • 如何免费建立一个网站免费自助建站系统下载
  • 网站footer设计建设英文网站的申请怎么写
  • 学校网站改版wordpress怎么添加手机验证码
  • 网站开发语言 .net焦作做网站最专业的公司
  • 怀化公司网站建设西部数码网站管理助手 xp
  • 大庆 网站建设怎么做自建站
  • 模板大全网广州网站优化公司排名
  • 请人做竞价网站的要求重点wordpress调用网页
  • 做整个网站静态页面多少钱网站流量统计查询
  • 织梦确定网站风格深圳网络推广解决方案
  • 推广网站的方法有企业商务网站建设
  • 昆山网站优化建设硬件开发管理流程
  • 备案的网站可以改域名吗wordpress 上传svg
  • 金华网站建设微信开发电子商务平台排名
  • 帮人做淘宝网站骗钱快速模板建站
  • 厦门网站开发培训拖曳式网站建设
  • 国外服务器电商网站直播系统程序
  • 个人小说网站怎么做it网站设计培训
  • 阿里云的云服务器做网站用哪种重庆市招标网官网
  • 商丘网站建设有限公司天元建设集团有限公司最新消息