简单数据处理与可视化
终于把辅修毕业论文的事儿解决的差不多了,已经很久没有记录东西了,正好昨天帮别人做了个简单的Python作业,就拿出来写写。

首先,导入相关库,并读入文件,观察数据形式:

可以发现,前两行我们不需要,所以drop掉,并且将index变回默认状态:

已经变成我们想要的dataframe形式了,首先就开始第一题,遇到分类问题,不需要想,大概率是用groupby,由于数据还是str类型,首先需要转换为整型类型:
结果如下:

可以发现2022年的AI词频数为0,按道理这是异常值,但题目中没特别注明,不知道他们老师有没有要求剔除,就不剔除了,这也不是本题的重心。
第二问也很简单,使用seaborn绘制多变量两两间散点图明显比matplotlib方便许多。

第三问,观察一开始的dataframe,可以发现行业代码后有数字,这并不是我们需要的,首先需要提取行业代码中的第一个字母:

任务完成