In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# ============================
# 1. 读取 CSV 文件
# ============================
# 文件路径按你提供的设置
file_path = "/Users/wangwanglulu/ks-projects-201801.csv"
df = pd.read_csv(file_path)

# ============================
# 2. 将 launched 和 deadline 转为日期格式
# ============================
# errors='coerce'：遇到非法日期会变成 NaT，避免报错
df['launched'] = pd.to_datetime(df['launched'], errors='coerce')
df['deadline'] = pd.to_datetime(df['deadline'], errors='coerce')

# ============================
# 3. 计算每个项目的时间跨度（单位：天）
# ============================
# 先做日期相减，得到 Timedelta，再用 .dt.days 取出“天数”整数
df['duration_days'] = (df['deadline'] - df['launched']).dt.days

# ============================
# 4. 提取年份，方便按年份分组
# ============================
# 从 launched 列中提取年份，作为新的一列 launch_year
df['launch_year'] = df['launched'].dt.year

# ============================
# 5. 计算 2010–2018 年项目时间跨度的平均值
# ============================
# 先筛选 2010~2018 年的数据，再按年份分组，对 duration_days 求平均
mask = (df['launch_year'] >= 2010) & (df['launch_year'] <= 2018)
avg_duration_by_year = (
    df[mask]
    .groupby('launch_year')['duration_days']
    .mean()
)

# 打印查看一下结果（可选）
print("2010–2018 年项目时间跨度平均值（天）：")
print(avg_duration_by_year)

# ============================
# 6. 绘制折线图（横坐标为年份）
# ============================
plt.figure(figsize=(8, 5))  # 设置图像大小

# x 轴：年份（索引），y 轴：平均时间跨度
plt.plot(
    avg_duration_by_year.index,          # 年份
    avg_duration_by_year.values,        # 对应平均天数
    marker='o',                         # 用圆点标出每个年份
    linestyle='-'                       # 折线
)

plt.title("Average Project Duration (2010–2018)")  # 图标题
plt.xlabel("Year")                                 # x 轴标签
plt.ylabel("Average Duration (days)")              # y 轴标签
plt.grid(alpha=0.3)                                # 添加浅色网格线，便于阅读
plt.xticks(avg_duration_by_year.index)             # x 轴刻度设为每个年份

# ============================
# 7. 保存图像为 JPG 文件（dpi=300）
# ============================
fig_output_path = "/Users/wangwanglulu/avg_duration_2010_2018.jpg"
plt.savefig(fig_output_path, dpi=300, bbox_inches='tight')  # bbox_inches='tight' 收紧边缘
plt.show()   # 显示图像（如果在脚本中可以保留或删除）
plt.close()  # 关闭图像，释放内存（习惯性操作）

print("折线图已保存为：", fig_output_path)

# ============================
# 8. 保存包含 duration_days 列的完整数据到新的 CSV 文件
# ============================
csv_output_path = "/Users/wangwanglulu/ks-projects-duration-added.csv"
df.to_csv(csv_output_path, index=False)

print("带有 duration_days 列的新数据已保存到：", csv_output_path)