Python操作csv文件源程序

ID:654171 · 發(fā)表于 2020-6-9 11:00

# -*- coding:UTF-8 -*-
from sklearn.feature_extraction import DictVectorizer
from sklearn import preprocessing
from sklearn import tree
import csv
import pydotplus
# -*- coding:utf-8 -*-
#以只讀的方式打開指定的擴(kuò)展名為csv的文件，其編碼格式為UTF-8-sig，注意這個(gè)位置的編碼格式不能是utf-8
file = open(r'E:\python\a.csv','r',encoding='utf-8-sig')
#讀取文件的內(nèi)容并將其賦給變量data
data = csv.reader(file)
#讀取變量data中的第一行（表頭）
header = next(data)
#print('header = ' + str(header))
#創(chuàng)建一個(gè)列表attributeList，專門存放數(shù)據(jù)源的屬性值
attributeList = []
#創(chuàng)建一個(gè)列表resultList，專門存放對(duì)應(yīng)各行記錄的結(jié)果值
resultList = []
for row in data:
resultList.append(row[len(row) - 1]) #將每行記錄的結(jié)果值存入resultList中
rowDictionary = {} #定義一個(gè)詞典rowDictionary，用來存放每行的屬性名稱及其對(duì)應(yīng)的屬性值
for i in range(1,len(row) - 1):
rowDictionary[header[i]] = row[i] #向詞典rowDictionary添加屬性名稱及其對(duì)應(yīng)的屬性值
attributeList.append(rowDictionary) #將每次內(nèi)層循環(huán)產(chǎn)生的詞典添加到列表attributeList中
# print(resultList)
vec = DictVectorizer() #創(chuàng)建一個(gè)DictVectorizer的實(shí)例，DictVectorizer是字典特征提取器，用來將數(shù)據(jù)的數(shù)據(jù)類型轉(zhuǎn)化為整型
attributeArray = vec.fit_transform(attributeList).toarray() #利用vec實(shí)例將列表attributeList轉(zhuǎn)化成“01”矩陣，函數(shù)fit_transform是先擬合數(shù)據(jù)，再標(biāo)準(zhǔn)化，函數(shù)toarray是將轉(zhuǎn)化后的數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)組
title = vec.get_feature_names() #獲取vec中所有特征向量的名稱和及其能取到的值
#print(title)
#print(array)
lb = preprocessing.LabelBinarizer() #初始化變量lb，preprocessing.LabelBinarizer()的作用是可將分類數(shù)據(jù)轉(zhuǎn)化為“01”數(shù)據(jù)，例如可以把yes和no轉(zhuǎn)化為0和1，或是把incident和normal轉(zhuǎn)化為0和1
resultArray = lb.fit_transform(resultList) #將結(jié)果值列表resultList轉(zhuǎn)化為“01”矩陣
#print(resultArray)
transformArray = tree.DecisionTreeClassifier(criterion='entropy') #利用分類決策樹tree（已引入）模塊創(chuàng)建決策樹分類器DecisionTreeClassifier，其實(shí)現(xiàn)算法是ID3算法(criterion=entropy)
transformArray = transformArray.fit(attributeArray, resultArray) #根據(jù)attributeArray和resultArray生成決策樹
#利用pip安裝graphviz包和pydotplus包
dotData = tree.export_graphviz(transformArray,feature_names=title,out_file=None)#根據(jù)transformArray和title生成判定樹的節(jié)點(diǎn)，同時(shí)讓輸出文件為None（out_file=None）
graph = pydotplus.graph_from_dot_data(dotData) #根據(jù)上條語句生成的決策樹結(jié)點(diǎn)dotData生成判定樹的圖形結(jié)構(gòu)
graph.write_pdf('E:/python/a.pdf') #將樹形結(jié)構(gòu)寫入到指定的文件中

復(fù)制代碼

帳號(hào)		自動(dòng)登錄	找回密碼
密碼			立即注冊(cè)