#看看代码机器学习7步进行肺癌预测

门童靖博士 • 2022-11-07 15:33 • 论文 • 194 views

今日立冬，刚好一杯咖啡的工夫，看一段机器学习的几行经典代码，放松一下。

#看看代码机器学习7步进行肺癌预测

#看看代码机器学习7步进行肺癌预测

代码很简单，但却不失机器学习标准流程的必要步骤。

#看看代码机器学习7步进行肺癌预测

使用SVM（支持向量机）对肺癌数据集进行学习，并对测试集进行预测。

数据集：

https://raw.githubusercontent.com/aviralb13/git-codes/main/datas/lung%20cancer.csv

1. 导入包，并读取数据集并获取前5行数据：

import pandas as pd
import numpy as np

URL = 'https://raw.githubusercontent.com/aviralb13/git-codes/main/datas/lung%20cancer.csv'
data = pd.read_csv(URL)
data.head()

#看看代码机器学习7步进行肺癌预测


2. 对离散非数据特征，使用Onehot特征编码：
one_hot = pd.get_dummies(data['GENDER'])
data = data.drop('GENDER',axis = 1)
data = data.join(one_hot)
data.head()

3. 导入预处理库，并对目标类Label编码：
from sklearn import preprocessing

label = preprocessing.LabelEncoder()
data['LUNG_CANCER'] = label.fit_transform(data['LUNG_CANCER'])
data.head()

4. 获取并设定数据集特征X，以及预测目标值y：
features = ['AGE', 'SMOKING', 'YELLOW_FINGERS', 'ANXIETY', 'PEER_PRESSURE','CHRONIC DISEASE', 'FATIGUE ', 'ALLERGY ', 'WHEEZING','ALCOHOL CONSUMING', 'COUGHING', 'SHORTNESS OF BREATH','SWALLOWING DIFFICULTY', 'CHEST PAIN', 'F', 'M']
x = data[features]
y = data['LUNG_CANCER'] 

5. 导入Split库，并对对原数据集分为训练和测试数据：
from sklearn.model_selection import train_test_split

train_x,test_x,train_y,test_y = train_test_split(x,y)

6. 导入SVM算法，并对训练数据进行拟合，训练模型：
from sklearn.svm import LinearSVC

SVC = LinearSVC()
SVC.fit(train_x,train_y)

7. 导入模型评估库，并使用已经训练的模型对测试数据进行预测：
from sklearn.metrics import accuracy_score

prediction = SVC.predict(test_x)
accuracy_score(test_y, prediction)

预测准确率（accuracy）如下：

0.9358974358975359

咖啡喝完，收工！

完整源码如下：

https://github.com/aviralb13/git-codes/blob/main/datas/lung%20cancer.csv

原创文章，作者：门童靖博士，如若转载，请注明出处：https://www.agent-universe.cn/2022/11/12704.html

Like (0)

0

关于作者

门童靖博士

博士在读，门童之心，漫漫旅途中，尤在意风景，故将所见、所思、所为做些记录以供自己学而时习，亦愿与有缘人分享交流，携手共进。本人原鏖战于产业，现行走于学术计算机科学博士在读，聚焦于人工智能、机器学习、物联网与数据科学的探索和实践~

Midjourney：和Discord互相成就 | AI系列06 （5600字）

Previous 2022-11-04 12:08

如何通过积累知识资产进入新领域：以AIGC为例

Next 2022-11-08 13:28

论文

实战Elicit, 让你惊艳的AI学术研究工作神器(一）

Systematic Literature Review绝对是每个学术研究工作者的必经之路，顺利完成一篇SLR才能代表你真正了解该领域，成为该领域的专家，并且知道在该领域有哪些Ga…

2023-05-30
7020
论文

大模型日报（5月18~19日学术篇）

特别活动我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。欢迎大家一起交流！…

2024-05-19
2070
论文

AI学术 | 写Research Proposal, Claude和ChatGPT哪家强？

Claude和ChatGPT这两个AI工具，在学术领域的工作当中到底哪家强呢？这不是一个容易回答的问题，需要对学术领域的具体问题，进行全面的考察，我们不妨一步步来～下面我们来简…

2023-10-17
1930
论文

大模型日报（6月15~16日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。欢迎大家一起交流！学习 0…

2024-06-16
1790
论文

AI 学术| SciSpace 提供最简单的方法查找、理解和学习论文，用完定让你爱不释手！

有没有一种最简单方法来查找、理解和学习任何研究论文？有没有一种对于咱们阅读的每一篇论文，都能够轻松地从AI那里获得简单的解释和答案，并发现一个由相互关联的相关论文组成的网络？来…

2023-07-14
2610
论文

大模型日报（4月7日学术篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。欢迎大家一起交流！论文 01 AutoWebGLM：基于大型语言模型的We…

2024-04-07
1040
论文

大模型日报（4月24日学术篇）

欢迎观看大模型日报，进入大模型日报群和空间站（活动录屏复盘聚集地）请直接扫码。社群内除日报外还会第一时间分享大模型活动。欢迎大家一起交流！论文 01 多头专家混合模型稀疏专家…

2024-04-24
1530
论文

实战Elicit, 让你惊艳的AI学术研究工作神器(三）

Systematic Literature Review绝对是每个学术研究工作者的必经之路，顺利完成一篇SLR才能代表你真正了解该领域，成为该领域的专家，并且知道在该领域有哪些Ga…

2023-06-06
1250
论文

AI工具 | 用10web，5分钟创建自己的网站！

5分钟就可以通过AI创建属于自己的网站？！在当今的数字世界中，拥有网站并在线展示无论对于个人还是组织来说至关重要。但建立一个网站似乎是一项令人生畏的任务。幸运的是，有一些易于…

2023-07-02
1950
论文

大模型日报（7月23日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。「奇绩大模型日报」知识库现已登陆飞书官方社区： https://www.feishu.…

2024-07-23
2630