Python,Numpy,Pandas…数据科学家必备排序技巧

发布时间：2019-09-11 16:32:23 所属栏目：教程来源：读芯术

导读：副标题#e# 对数据进行分类整理是数据科学家和数据工程师的基础工作。Python会提供许多内置库，优化排序选项。有些库甚至可以同时在GPU上运行。令人惊奇的是，一些排序方法并没有使用之前所述的算法类型，其他方法的执行效果也不如预期。选择使用哪种库和哪

对于上面的每个Python库，我们对wall time进行了分析，以便在单列，单数组或单列表中对相同的1,000,000个数据点进行排序。同时使用了配有T4 GPU的Google Colab Jupyter笔记本。

数据来源: https://colab.research.google.com/drive/1NNarscUZHUnQ5v-FjbfJmB5D3kyyq9Av

观察

对于Numpy和Pandas，inplace比复制数据更快。这并不奇怪。
Pandas默认快速排序相当快。
大多数Pandas功能相对较慢。
TensorFlow操作相当快。
Python inplace排序慢得出奇。比Numpy inplace mergesort和TensorFlow慢了10倍。曾多次对其进行测试(使用不同的数据)来确认这不是一个异常现象。

重申，这只是一个小测试。绝对不是决定性的。

Wrap

通常不需要自定义排序。选择很多。一般不会采用单一的排序方法。相反，首先对数据进行评估，然后用效果更好的排序算法。如果排序进展不快，执行操作时也会自行改变算法。

在本文中，你已经了解了如何在Python数据科学堆和SQL中的每个板块里进行排序。

只需要记住选择哪个选项以及如何调用它们。可用上面的备忘表，节省时间。大致建议如下：

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

笔杆子怎么录音转文字	敬业签怎么同步备忘录
AutoCAD2014工具栏怎么	Shotcut怎么保存视频