以下为《《人工智能导论》课程大作业》的无排版文字预览,完整内容请下载
《人工智能导论》课程
大作业
目录
1 作业导读 2
1.1 作业导读 2
2 泰坦尼克号存活率预测模型 3
2.1 作业背景 3
2.1.1 数据集说明 3
2.2 作业要求 4
2.3 作业任务 4
2.3.1 任务1.(30分)考察数据分析与特征工程 4
2.3.2 任务2. (40分)考察模型搭建 4
2.3.3 任务3(30分)考察模型评估与优化 5
3 开放性课题作业 6
3.1 作业要求 6
作业导读
作业导读
本作业设计适用于学生学完《人工智能导论》课程之后,作为课程大作业进行完成。本作业以泰坦尼克号幸存者数据集为例,全面考察学生的数据分析与可视化能力,模型搭建能力,模型评估与参数优化能力。学生可应用课上所学知识,基于实际场景理解和分析数据,解决问题加固对所学知识的理解。
作业分为以下三个任务
任务1 数据分析与特征工程 40分
任务2 模型搭建 30分
任务3 模型评估与优化 30分
第3章为开放性课题作业,在学生已经完成第二章三个任务后,适用于学生进一步探索提升模型性能的方法。本章不提供参考答案。学生完成该课题视为加分项。
泰坦尼克号存活率预测模型
作业背景
泰坦尼克号的沉没是历史上最臭名昭著的海难之一。1912年4月15日,在她的一次航行中,泰坦尼克号与冰山相撞后沉没。不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气,但似乎有些人比其他人更有可能生存。
在本节作业中,我们要求同学建立一个预测模型来回答以下问题:“什么样的人更有可能生存?” 使用乘客数据(即姓名,年龄,性别,社会经济舱等)。
数据集说明
数据集字段说明:
- PassengerId => 乘客ID
- Survived => 是否存活(测试数据里面需要我们预测的)
- Pclass => 乘客等级(1/2/3等舱位)
- Name => 乘客姓名
- Sex => 性别
- Age => 年龄
- SibSp => 堂兄弟/妹个数
- Parch => 父母与小孩个数
- Ticket => 船票信息
- Fare => 票价
- Cabin => 客舱
- Embarked => 登船港口
作业要求
本次作业的最终结果是预测乘客是否生存,对于结果而言只有生存和没有生存两种结果,故是个二分类问题。针对二分类问题,可使用的算法有逻辑回归、朴素贝叶斯、支持向某某、决策树模型等。考虑到实验的完整性和实用性,本实验选用业界常用的逻辑回归模型和随机森林模型来做对比。考虑到样本极度不均衡,模型评价选用综合指标f1_score。涉及的技术要求及具体细节如下:
1. 技术要求:Python、scikit-learn、numpy、pandas、matplotlib、seaborn等
2. 数据分析以及特征工程:对原始数据集进行预处理,包括合并数据集、数据统计与分析、相关性分析、数值型与非数值型数据分布、非数值化特征处理、数据标准化等操作。
3. 模型搭建:对预处理后的数据进行模型搭建,可自选模型,这里不做限制。
4. 模型评估:采用不同纬度的评价指标对所搭建模型的性能、准确率等进行评估。
5. 模型优化:可采用不同模型进行预测分析,推荐使用交叉验证、网格搜索等方法进行模型的参数优化。
6. 作业提交要求:代码、方案完整设计文档、方案说明PPT。
2.3 作业 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 优化
这部分考察学生对模型建立完成后的评估能力,1.可采用不同的标准衡量模型的各项指标(15);2.并对模型进行优化后选取合适的参数进行二次建模,或者可以提出自己的建议(15)。
开放性课题作业
作业要求
以第二章的三个任务为基础,同学可采用Pytorch、keras、Tensorflow或MindSpore等开源深度学习框架,搭建神经网络对模型进行二分类预测,对比第二章所提传统机器学习模型的性能,给出分析原因。
作业具体要求如下:
1. 作业考察点:包括创意、完成度、完成质量、实用价值等。
2. 作业提交:a. 调研分析报告;b. 方案完整设计文档;c. 方案说明PPT;d. 代码。
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《《人工智能导论》课程大作业》的无排版文字预览,完整内容请下载
《人工智能导论》课程大作业由用户“acheng6666”分享发布,转载请注明出处