# 1. 数据读取与预处理
## 1.1 数据读取
```python
import pandas as pd
# 读取CSV文件
file_path = 'data.csv'
data = pd.read_csv(file_path)
# 显示数据的基本信息
print("数据基本信息:")
data.info()
# 显示数据集行数和列数
rows, columns = data.shape
if rows < 100:
# 短表数据(行数少于100)查看全量数据信息
print("数据全部内容信息:")
print(data.to_csv(sep='\t', na_rep='nan'))
else:
# 长表数据查看数据前几行信息
print("数据前几行内容信息:")
print(data.head().to_csv(sep='\t', na_rep='nan'))
```
## 1.2 数据清洗
```python
# 查看数据中是否存在缺失值
print("数据缺失值情况:")
print(data.isnull().sum())
# 处理缺失值
if data.isnull().any().any():
# 存在缺失值,删除包含缺失值的行
data = data.dropna()
# 查看数据中是否存在重复值
print("数据重复值情况:")
print(data.duplicated().sum())
# 处理重复值
if data.duplicated().any():
data = data.drop_duplicates()
```