以下为《人工智能数据分析与机器学习练习题二》的无排版文字预览,完整内容请下载
人工智能数据分析与机器学习练习题二
3. 数据处理
3.1 与 Python 基本数据类型(列表、元组、字典等)和主要针对数值数据储存的 numpy 数
组相比,pandas 包某某提供了支持数值和文本混合数据类型更加有效的存储方式,比如序列
和数据框。现有列表L1=[1,-2,2.3,'hq']、L2=[‘kl’,’ht’,’as’,’km’]和元组T1=(1,8,8,9)和T2=(2,4,7,’hp’),
请给出值为 L1,采用默认索引和指定索引(a,b,c,d)两种方式的序列定义方法,以及索引为
a,b,c,d,列名和值分别为 L1、L2、T1、T2 及其值的数据框构造方法。
[知识点及要求]赋值定义较复杂数据结构:序列和数据框
/
3.2 在实际数据建模应用中,常常需要读取外部数据文件,比如 Excel 文件、TXT 文件和 CSV
文件,请编程实现以下任务:1)请读取“一、车次上车人数统计表.xlsx”中的 sheet2 数据,
用一个数据框 df1 来表示;2)请读取文本文件 txt1 中的数据,用一个数据框 df2 来表示;3)
大容量文件的读取需要采用分块读取的方式来处理数据,比如 csv 文件常用来存放大容量文
件。请采用分块读取的方式读取“data.csv”文件,每次读取 20000 行,读取出来的数据分
别用数据框 A1,A2,A3,A4……等来表示。
[知识点及要求]外部数据文件读取:Excel、TXT、Csv。
/
3.3 序列和数据框作为 pandas 包某某两种非常重要的数据结构,同时他们之间也有紧密的联系,
数据框可以视为由多个序列组成,它们具有相同的索引,取出数据框中的一列则为序列。在
数据处理中,往往是采用不同的数据结构进行相互转化,并利用特定数据结构中的方法计算
和处理数据。请读取地铁站点进出站客流数据表(Data.xlsx),完成以下任务:1)取出第 0
列,通过去重的方式获得地铁站点编号的个数;
/ 2)采用数据框中的 groupby 分组计算函数,
统计出每个站点每天的进站人数和出站人数,计算结果采用一个数据框 df 来表示,其中列
标签依次为站点编号、日期、进站人数和出站人数;
/3)计算出每个站点国庆节期间(10.1~10.7)
的进站人数和出站人数。
[知识点及要求]数据框逻辑索引切片和基本切片方法,groupby 分组计算函数应用。
3.4 数据处理过程中经常需要对多个数据集按键进行关联,pandas 包某某提供了 merge()函数
实现两个数据框之间的关联,包括内连接、左连接和右连接,请根据以下定义的两个字典
dict1 和 dict2,完成如下任务:1)将两个字典转化为数据框;2)对两个数据框给出左连接、
右连接和内连接的实现代码,同时简要说明其基本思想。
dict1={'code':['A01','A01','A01','A02','A02','A02','A03','A03'],'month':['01','02','03','01','02','03','0
1','02'],'price':[10,12,13,15,17,20,10,9]}
dict2={'code':['A01','A01','A01','A02','A02','A02'],'month':['01','02','03','01','02','03'],
'vol':[10000,10110,20000,10002,12000,21000]}
[知识点及要求]数据框内连接、左连接和右连接关联操作
3.5 数据处 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 案例
3.10 现实生活中抽签是一种比较公平有效的选择或者分配方式,现有 30 个课程设计选题需
要分配给 30 个同学,请你写一个程序,实现不重复的随机抽签功能,从而帮助同学们进行
抽签。
[知识点及要求]序列及简单随机抽样
3.11 某题库有选择、填空、判断、计算和应用 5 种题型,每种题型题号从 1 开始依次按顺
序编号,其中选择题 70 道,填空题 80 道,判断题 50 道,计算题 30 道,应用题 20 道。现
有 40 个同学参加考试,要求每个同学从 5 种题型中随机抽取 1 道题目组成试卷,请编程实
现给出每个同学试卷的具体题目编号。
[知识点及要求]序列及较复杂抽样
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《人工智能数据分析与机器学习练习题二》的无排版文字预览,完整内容请下载
人工智能数据分析与机器学习练习题二由用户“檭^6檭`洹狈窒矸⒉迹厍胱⒚鞒龃?/span>