数据预处理Pandas绝对是当仁不让的王者,而Pandas加持了AI之后,又会有多好用呢?这只熊猫武装了AI之后,又有多能打呢?来来来,看这一篇就够了!先说实际效果~
以前,你要用熊猫的语言和Pandas对话,现在呢?
现在,你终于可以用人话和Pandas进行交流啦!
话说,前两天在工作群里,导师分享了github上一个叫Pandas-ai的库,让我们有空试试,然后今天抽空试了一下,结果呢…
于是,我自己在Google Colab的Python环境下,安装了一下Pandas的lib,然后拿现成的数据集(各个国家的GDP和幸福指数)做了一下测试,大概的效果如下:
– 读取数据并直接询问“哪个国家的GDP最高”
– 将数据以表格的形式展现
– 将数据用柱状图表示
– 将数据改用线图表示
– 将中国的Bar变成红色
– 将图片的尺寸放大
从以上可以看出,对于数据集的基本操作,可以直接通过自然语言来进行操作,如果你对Pandas库中的指令程序不熟悉的话,这无疑可以成为你的超级利器!
接下来看看Pandas AI
目前Github上已经有7.5K星星!
安装和试用基本一键即可!
1. 安装
2. 导入库
3. 创建数据集
4. 导入Open AI Key
5. 然后就可以用下面的语句开工了
pandas_ai.run(df, “bala bala bala…”)=
注意,Pandas AI项目也是基于Pandas的基础上开发,也就是说Pandas能处理的数据操作,Pandas AI才能处理。
超出Pandas之外的操作,这只AI熊猫还是无法应对啦~
以上,只是最基本的操作。
我个人认为,Pandas AI这个项目的的真正价值,还是在于真实、海量实例数据集的应用,建议大家使用知名公开,或者自己领域内的数据,来应用一下。
主要目的还是在于数据的预处理(Data Pre-processing),有论文表明,大部分机器学习的项目,数据预处理所需要占用的时间在70%以上,所以,从这个角度来看,这个工具的价值潜力还是很大的!
后续我也会分享一些实际数据集,有明确目的和任务的操作分享。
参考文献:
[1] https://github.com/gventuri/pandas-ai
[2] https://pandas-ai.readthedocs.io/en/latest/
[3] https://github.com/pandas-dev/pandas
HAVE FUN!
Let’s SciChat,你的专属AI学术和工程助手
来扫我吧, Let’s SciChat~
原创文章,作者:门童靖博士,如若转载,请注明出处:https://www.agent-universe.cn/2023/06/11337.html