1. 查找重復(fù)數(shù)據(jù)dasdas庫提供了duplicated()函數(shù)來查找重復(fù)數(shù)據(jù)。該函數(shù)返回一個(gè)布爾值的Series對象,用于指示每個(gè)行是否重復(fù)。例如
portdas as pd
ame', 22]}e(data)t(df.duplicated())
輸出結(jié)果為
0 False
1 False
2 True
3 False
4 False
dtype bool
在上面的例子中,行和第二行不重復(fù),第三行與行重復(fù),因此返回True,第四行和第五行也不重復(fù)。
2. 處理重復(fù)數(shù)據(jù)
有兩種方法可以處理重復(fù)數(shù)據(jù)刪除重復(fù)數(shù)據(jù)和替換重復(fù)數(shù)據(jù)。
2.1 刪除重復(fù)數(shù)據(jù)e,其中不包含重復(fù)數(shù)據(jù)。例如
portdas as pd
ame', 22]}e(data)
df = df.drop_duplicates()t(df)
輸出結(jié)果為ame age 20
1 Jerry 23
3 lice 25
4 Bob 22
在上面的例子中,刪除了重復(fù)的行,只剩下了不重復(fù)的行。
2.2 替換重復(fù)數(shù)據(jù)known”
portdas as pd
ame', 22]}e(data)ameameknown'})t(df)
輸出結(jié)果為ame ageknown 20
1 Jerry 23known 20
3 lice 25
4 Bob 22
known”。
das庫的duplicated()和drop_duplicates()函數(shù)可以查找和刪除重復(fù)數(shù)據(jù),通過replace()函數(shù)可以替換重復(fù)數(shù)據(jù)。在數(shù)據(jù)處理過程中,及時(shí)查找和處理重復(fù)數(shù)據(jù)可以提高數(shù)據(jù)的準(zhǔn)確性和完整性。