-
从Sql角度,对比学习Python数据处理包pandas
- 网站名称:从Sql角度,对比学习Python数据处理包pandas
- 网站分类:技术文章
- 收录时间:2025-06-08 15:52
- 网站地址:
“从Sql角度,对比学习Python数据处理包pandas” 网站介绍
此系列文章收录在公众号中:数据大宇宙 > 数据处理 > pd
转发本文并私信我"python",即可获得Python资料以及更多系列文章(持续更新的)
经常听别人说 Python 在数据领域有多厉害,结果学了很长时间,连数据处理都麻烦得要死。后来才发现,原来不是 Python 数据处理厉害,而是他有数据分析神器—— pandas
前言
有不少小伙伴向我反映 pandas 专栏缺少练习题,因此这里我使用一套 sql 的题目,作为 pandas 专栏的课后练习题。本文大部分的解题过程尽可能使用 pandas 中最基础的入门操作完成,涉及的知识点基本在专栏中的前15节内容中有详尽讲解。
本文案例是一个关于学生科目考试成绩作为背景的数据,数据的准备过程上一篇已经有讲解,这里不多说,直接做题!
上一篇文章:
Python解决Sql题目,pandas其他思路解法,原来这么简单
题目
与"赵雷"同学报读课程至少有一门相同的学生信息:
解读:
- 行5:首先,找到"赵雷"的课程记录(df_wd.query(tg_query)[cols]) ,因为只有一行(.iloc[0]) ,看看哪些是缺考的(.isna())
- 行6:同上的逻辑,只是这次的条件是其他的同学
- 行8:用前2步的结果对比(tg_cond == other_cond) ,相当于知道每个同学的报考科目与"赵雷"一样有哪些,科目相同的是1,不同的是0,那么只需要数一下相同的(.sum(axis=1)) ,然后看结果是否多于一门即可(>=1)
这次,我们来详细对比一下 Sql 的实现:
- Sql 相对来说比较简单,但是不"简洁",因为他的执行顺序是从内到外,一般不能一下子看出来其中的逻辑。下来大概说下他的执行顺序
- 行5,6:从成绩表(sc)查出"赵雷"的考试科目(cid),为啥这里用 sid ?因为成绩表没有学生的名字!
- 行3,4:再次从成绩表(sc)找出与"赵雷"的科目(上一步结果)有一样的成绩记录出来。为啥最终结果包含了"赵雷"本身,因为这一步没有过滤"赵雷"的记录!
- 行1,2:结果需要大部分学生信息都在学生表(student),因此从学生表找到上一步结果的那些学生出来。为啥最终结果没有学生成绩的信息?因为学生表就没有这些信息!
- 整个 Sql 的关键是 in 的使用
- 使用 CTE(表达式) 可以让 Sql 的逻辑更加清晰,但是每个数据库的支持程度不太一样
- 如果需求变成是,至少有2门一样的学生,那么以上思路完全不行了!
pandas 也能按这种思路完成:
- pandas 中的 isin 对应 Sql 的 in
- A列.isin(B列),得到的结果是一个长度与A列一样的 bool值的列,每个 bool 值表示 A列对应的值是否在 B列存在
与"赵雷"同学报读课程完全相同的学生信息:
- 你会发现,这完全与之前的需求一样,只是上图红线处的判断数量的逻辑不一样而已
但是,如果我们使用之前的 Sql 思路,在这个需求上就完全不能使用,正确的 Sql 做法请看源码吧
没学过"张三"老师讲授的任一门课程的学生姓名:
- 行4:所有(all)课程教师都不是"张三"(df_wd[cols]!=tc)的
两门及其以上不及格课程的同学的学号,姓名及其平均成绩:
- 行3:少于60分的科目(df_wd[cols]<60)的数量(.sum(axis=1))多于或等于2门的(>=2)
- 行5:平均成绩(df_wd[cols].mean(axis=1))
检索"语文 "课程分数小于 60,按分数降序排列的学生信息:
- 行3:语文成绩小于60分(df_wd[cols]<60)
- 行5:按分数降序排列(.sort_values(cols,ascending=False))
按平均成绩从高到低显示所有学生的所有课程的成绩以及平均成绩:
- 行4:求出平均成绩
- 行5:有平均成绩的学生
- 行6:排序
需要源码的小伙伴请转发本文并私信我"python"
如果希望从零开始学习 pandas ,那么可以看看我的 pandas 专栏。
更多相关网站
- 云服务器:SQL数据库超时的原因与解决方法
- 一个时间戳精度问题,引发了一个MySQL血案
- (二十二) 程序员必备: 10秒到0.1秒,亿级数据下MySQL慢查询分析教程
- MySQL各种SQL的执行频率
- PGSQL提取本月跨越的周数及每周的开始结束日期
- '0000-00-00'日期可以存入MySQL吗
- 【SQL】SQL 语法差异大全(PgSQL/MySQL/Oracle/TiDB/OceanBase)
- 了解SQL吗
- SQL用了两年多,分享2个最常用的小技巧
- SqlServer根据身份证号码查询出生日期和年龄
- 吊打面试官(十一)--Java语言中日期处理相关问题总结
- 玩转MySQL的时间类型:Date、DateTime、TimeStamp、Time
- 多表关联查询的性能优化技巧:预关联
- SQL学习:SQL同比分析案例讲解,一看就懂
- java.util.Date、java.sql.Date、java.sql.Timestamp区别和总结
- 疯传!Java 日期时间底层逻辑大揭秘,看完直接拿捏面试官挖的坑!
- 记一次有意思的 SQL 实现 → 分组后取每组的第一条记录
- 全量跑1小时 vs 增量抽1分钟!选对时间戳&主键增量的ETL方法更省时
- 最近发表
-
- 联想推出 IdeaPad 14s / 15s:均为 3399 元,运行 Win11 系统
- 顶配版ThinkPad X1 Carbon评测
- 联想ThinkPad X1 Carbon评测
- lenovo联想 拯救者-14 加装ssd、内存及win10转移到ssd经验谈
- 联想发布新款耳机鼠标等配件:专为ThinkPad X1设计
- 杜比全景音体验,联想K4 Note在印度正式发布
- 3099 元起,联想推出 IdeaPad 15:约10小时续航,预装 Win11系统
- 联想拯救者Y70、小新Pad Pro 2022发布丨拯救者Y70测评体验
- 千元可定制!联想K4 Note印度发布:杜比全景音体验
- 声临其境 联想TAB2 A10平板联手杜比
- 标签列表
-
- serv-u 破解版 (6)
- 极域电子教室2009 (6)
- 6300主题下载 (1)
- oracle11204下载 (1)
- c++论坛 (14)
- huaweiupdateextractor (4)
- thinkphp6下载 (7)
- 前端论坛 (11)
- mysql 时间索引 (13)
- mydisktest_v298 (35)
- unlocker208 (1)
- sql 日期比较 (33)
- document.appendchild (35)
- 头像打包下载 (35)
- 二调符号库 (23)
- oppoa5专用解锁工具包 (8)
- acmecadconverter_8.52绿色版 (25)
- oracle timestamp比较大小 (7)
- chm editor破解版 (7)
- throttlestop防止降频 (9)
- f12019破解 (16)
- 流星蝴蝶剑修改器 (18)
- pygame中文手册 (2)
- 联想杜比音效驱动下载 (10)