#看看代码 机器学习7步进行肺癌预测

今日立冬,刚好一杯咖啡的工夫,看一段机器学习的几行经典代码,放松一下。

#看看代码 机器学习7步进行肺癌预测

#看看代码 机器学习7步进行肺癌预测

代码很简单,但却不失机器学习标准流程的必要步骤。


#看看代码 机器学习7步进行肺癌预测


使用SVM(支持向量机)对肺癌数据集进行学习,并对测试集进行预测。

数据集:

https://raw.githubusercontent.com/aviralb13/git-codes/main/datas/lung%20cancer.csv

1. 导入包,并读取数据集并获取前5行数据:

import pandas as pd
import numpy as np

URL = 'https://raw.githubusercontent.com/aviralb13/git-codes/main/datas/lung%20cancer.csv'
data = pd.read_csv(URL)
data.head()
#看看代码 机器学习7步进行肺癌预测


2. 对离散非数据特征,使用Onehot特征编码:
one_hot = pd.get_dummies(data['GENDER'])
data = data.drop('GENDER',axis = 1)
data = data.join(one_hot)
data.head()

3. 导入预处理库,并对目标类Label编码:
from sklearn import preprocessing

label = preprocessing.LabelEncoder()
data['LUNG_CANCER'] = label.fit_transform(data['LUNG_CANCER'])
data.head()

4. 获取并设定数据集特征X,以及预测目标值y:
features = ['AGE', 'SMOKING', 'YELLOW_FINGERS', 'ANXIETY', 'PEER_PRESSURE','CHRONIC DISEASE', 'FATIGUE ', 'ALLERGY ', 'WHEEZING','ALCOHOL CONSUMING', 'COUGHING', 'SHORTNESS OF BREATH','SWALLOWING DIFFICULTY', 'CHEST PAIN', 'F', 'M']
x = data[features]
y = data['LUNG_CANCER']

5. 导入Split库,并对对原数据集分为训练和测试数据:
from sklearn.model_selection import train_test_split

train_x,test_x,train_y,test_y = train_test_split(x,y)

6. 导入SVM算法,并对训练数据进行拟合,训练模型:
from sklearn.svm import LinearSVC

SVC = LinearSVC()
SVC.fit(train_x,train_y)

7. 导入模型评估库,并使用已经训练的模型对测试数据进行预测:
from sklearn.metrics import accuracy_score

prediction = SVC.predict(test_x)
accuracy_score(test_y, prediction)

预测准确率(accuracy)如下:

0.9358974358975359

咖啡喝完,收工!

完整源码如下:

https://github.com/aviralb13/git-codes/blob/main/datas/lung%20cancer.csv

原创文章,作者:门童靖博士,如若转载,请注明出处:https://www.agent-universe.cn/2022/11/12704.html

Like (0)
Previous 2022-11-04 12:08
Next 2022-11-08 13:28

相关推荐

  • 5分钟用ChatGPT完成一篇PhD Proposal!

    如何用ChatGPT在5分钟内完成一篇PhD Proposal?  接下来看我的~ 申请博士需要套瓷找导师,而能否得到导师的青睐,一篇有趣的Proposal至关重要。 接下来我们就…

    2023-03-23
    202
  • 一眼看透机器学习中的欠拟合(Underfitting)和过拟合(Overfitting)

    第一篇文章没有漂亮的开场白,想到哪就写哪,只因发现一个特别有趣的东西而已。 众所周知,无论是学术界还是产业界,人工智能乃当下大热,而机器学习作为其中的重要分支,亦是热中之热,重中之…

    2022-07-12
    187
  • 新发现 | CSRankings: 世界顶尖计算机科学排名,快速精准找到你的领路人和同行者!

    计算机科学专业哪家强?这个问题泛泛而谈很容易,比如直接看大学综合排名和专业排名,但要具体到细分领域,还是有待商榷的。 一般我们都会想到知名的评级机构,比如QS、USnews、软科等…

    2023-07-17
    119
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163
  • 大模型日报(5月10日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-10
    140
  • AI工具 | 用10web,5分钟创建自己的网站!

    5分钟就可以通过AI创建属于自己的网站?! 在当今的数字世界中,拥有网站并在线展示无论对于个人还是组织来说至关重要。  但建立一个网站似乎是一项令人生畏的任务。幸运的是,有一些易于…

    2023-07-02
    181
  • 大模型日报(4月13~14日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 AI 集群基础设施 InfiniBand 详…

    2024-04-14
    143
  • 大模型日报(10月1-7日国庆特刊 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-08
    299
  • ChatGPT-4发布,燎原之势无法阻挡~

    ChatGPT4终于发布了! 今天,Open AI 宣布了最新版本 GPT-4。新模型被描述为“OpenAI 努力扩大深度学习的最新里程碑”,并在性能方面进行了一些重大升级,并提供…

    2023-03-15
    131
  • 大模型日报(8月7日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-07
    207