Dalam data mining, sumber data bisa berasal dari csv. Dataset seringkali juga disimpan dalam format *.csv. Untuk mengambil data dari csv, kita menggunakan paket pandas. Data dari CSV akan di konversi kedalam Dataframe Untuk itu, kita awali dengan instalasi paket pandas menggunakan PIP.
pip install pandas
Buatlah program dengan nama dataframe_1.py, Simpan di D:\Project\Latihan
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
data = pd.read_csv('Dataset/Iris.csv')
Data yang akan kita buka berada di direktori D:\Project\Latihan\Dataset. Kita menggunakan paket Seaborn dan Matplotlib untuk visualisasi data.
Untuk melihat beberapa data yang paling atas (header), gunakan perintah data.head(). Secara default data yang ditampilkan berjumlah 5, namun kita bisa mengganti dengan angka yang lain.
g = sns.pairplot(tmp, hue='Species', markers='+')
plt.show()
Menyimpan ke CSV
Perubahan yang kita lakukan dalam dataframe bisa kita simpan dalam file *.csv yang baru. Proses penyimpanan ini akan menghemat proses komputasi yang berulang. namun jika jarang kita proses mungkin proses penyimpanan kedalam file baru tidak perlu dilakukan.
data.to_csv('Dataset/Iris_Update.csv')
Perintah untuk menyimpan file Iris.csv yang kita buka sebelumnya menjadi Iris_update.csv. File disimpan di direktori Dataset.
0 Comments