已有1人关注此标签
关注自己能掌握的东西,通过开源站在巨人的肩膀上,一个人可以通过小预算,或是零预算的项目产生很多价值,大项目也会在不久之后道路。
Mars 能利用并行和分布式技术,加速 Python 数据科学栈,包括 numpy、pandas 和 scikit-learn。同时,也能轻松与 TensorFlow、PyTorch 和 XGBoost 集成。
python 分布式 集群 PyOdps DataFrame pandas index session html MaxCompute scikit-learn Numpy Mars
在数据科学世界,Python 是一个不可忽视的存在,且有愈演愈烈之势。而其中主要的使用工具,包括 Numpy、Pandas 和 Scikit-learn 等。 Mars 在 MaxCompute 团队内部诞生,它的主要目标就是让 Numpy、pandas 和 scikit-learn 等数据科学的库能够并行和分布式执行,支持通过 RAPIDS 平台用 GPU 加速数据科学。
python 深度学习 分布式 算法 性能 DataFrame pandas GPU big data 数据科学 scikit-learn tensor Numpy Mars
pandas.apply函数是Python在机器学习处理数据时常用的一个方法。apply函数会自动遍历每一行DataFrame的数据,最后将所有结果组合成一个Series数据结构并返回。该函数定义如下:DataFrame.apply(self, func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds)其中,func 参数是函数名,相当于C/C++的函数指针。
在过去的十年中,用于数据科学的Python逐渐流行起来,目前是该领域从业人员最流行的编程语言。在下面的文章中,作者将概述数据科学家使用的核心工具,这些工具主要侧重于基于Python的工具。