以上代碼定義了兩個函數is_duplicate和add_article,它們分別實現了判斷文章是否已存在和將文章添加到哈希表的功能。我們定義了4篇文章,其中文章1和文章2是相似的,文章3和文章4也是相似的。在執行add_article時,我們將每篇文章都加入到哈希表中,但由于文章1和文章2、文章3和文章4存在相似性,因此只有文章1、文章3和文章4被成功添加到哈希表中,文章2被判定為已存在。 最后,我們輸出了整個哈希表,可以看到其中包含了3篇文章的內容:import hashlib def is_duplicate(text, table): """判斷給定的文章是否已存在于哈希表中""" hash_val = hashlib.md5(text.encode()).hexdigest() return hash_val in table def add_article(text, table): """將文章添加到哈希表中""" hash_val = hashlib.md5(text.encode()).hexdigest() if hash_val in table: print("文章已存在") return table[hash_val] = text print("文章添加成功") # 測試 article1 = "Python是一門流行的編程語言" article2 = "Python是一門面向對象的編程語言" article3 = "Java是一門流行的編程語言" article4 = "C++是一門面向對象的編程語言" article_table = {} add_article(article1, article_table) add_article(article2, article_table) add_article(article3, article_table) add_article(article4, article_table) print(article_table)
以上就是用Python建立無重復的文章的簡單實現。通過哈希表的高效查找和插入,我們可以實現對大規模文章的快速去重和管理,從而提高文章庫的質量和可靠性。如果你對此感興趣,可以進一步深入學習哈希表和Python相關知識,從而掌握更多實用技能。{'db73c26475359acb6f733d0bdb291c6e': 'Python是一門流行的編程語言', '1bdc300c67f193011b82c1d67cc73301': 'Java是一門流行的編程語言', '7b7281a8c1d23bc9a966a4457e0dad8f': 'C++是一門面向對象的編程語言'}