在Python-dataframe中如何把出生日期转化为年龄?

简介:

我们在做数据挖掘项目或大数据竞赛时,如果个体是人的时候,获得的数据中可能有出生日期的Series,举个简单例子,比如这样的一些数:


# -*- coding: utf-8 -*-
import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt %matplotlib inline
data = {'birth': ['10/8/00', '7/21/93', '6/14/01', '5/18/99', '1/5/98']}
frame = DataFrame(data)
frame

8dee0fe4b8637bb7da3a48db9a49d2e7b62316c3

从数据来看,'10/8/00'之类的数,最左边的数表示月份,中间的数表示日,最后的数表示年度。

实际上我们在分析时并不需要人的出生日期,而是需要年龄,不同的年龄阶段会有不同的状态,比如收入、健康、居住条件等等,且能够很好地把不同样本的差异性进行大范围的划分,而不是像出生日期那样包含信息量过大且在算法训练时不好作为有效数据进行训练,age是一个很好地特征工程指示变量。

那如何把上述birth数据变为年龄age呢?

在这里用到datetime这个库,如下:

(1)首先把birth转化为标准时间格式


frame['birth'] = pd.to_datetime(frame['birth'])
frame
05c07e21eb668d4e89640d33c891d7a707397f98

(2)获取当前时间的年份,并减去birth的年份


import datetime as dt
now_year =dt.datetime.today().year #当前的年份
frame['age']=now_year-frame.birth.dt.year
frame

在这里使用了dt.datetime.today().year来获取当前日期的年份,然后将birth数据中的年份数据提取出来(frame.birth.dt.year),两者相减就得到需要的年龄数据,如下:

8b897d8d0c3e90f20370b22b777782325171858f

有时候我们可能还会关注到人的出生月份与要预测变量的关系,比如人的星座就是很流行的一种以出生月份、日份来评估其对人的影响,也可以按这种方法去提取月、日数据。


原文发布时间为:2018-10-18

本文作者:博观厚积

本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

相关文章
|
7天前
|
Python
「Python系列」Python 日期和时间
Python 提供了多个内置模块来处理日期和时间,其中最常用的是 `datetime` 模块。这个模块提供了类来操作日期、时间、日期和时间间隔。
22 0
|
1月前
|
Unix 数据处理 Python
Python中日期时间的处理
Python中日期时间的处理
24 0
|
3月前
|
编译器 Python
Python关于日期的记录
Python关于日期的记录
18 0
|
3月前
|
Python
python获取当前日期
python获取当前日期
30 1
|
6月前
|
存储 Linux C语言
Python标准库分享之时间与日期 (time, datetime包)
Python标准库分享之时间与日期 (time, datetime包)
|
1月前
|
安全 Python
Python如何使用datetime模块进行日期和时间的操作
Python如何使用datetime模块进行日期和时间的操作
25 1
|
1月前
|
开发者 Python
Python生成日期和时间
Python生成日期和时间
16 0
|
2月前
|
存储 Python
用Python提取长时间序列遥感文件中缺失文件所对应的日期
【2月更文挑战第1天】本文介绍批量下载大量多时相的遥感影像文件后,基于Python语言与每一景遥感影像文件的文件名,对这些已下载的影像文件加以缺失情况的核对,并自动统计、列出未下载影像所对应的时相的方法~
用Python提取长时间序列遥感文件中缺失文件所对应的日期
|
2月前
|
BI Python
Python获取上个月最后一天的日期
Python获取上个月最后一天的日期
35 0
Python获取上个月最后一天的日期
|
3月前
|
Python
Python 时间日期处理库函数
Python 时间日期处理库函数
54 0
Python 时间日期处理库函数