Python過濾非中文文章的方法
import re def check_chinese(text): """檢查文本是否為中文""" chinese = re.compile(r"[\u4e00-\u9fa5]+") result = chinese.search(text) if result: return True else: return False def filter_non_chinese(text): """過濾掉非中文字符""" chinese = re.compile(r"[\u4e00-\u9fa5]+") result = chinese.findall(text) return ''.join(result) # 讀取文件 with open('example.txt', 'r', encoding='utf-8') as f: text = f.read() # 過濾掉非中文字符 filtered_text = filter_non_chinese(text) # 輸出結果 print(filtered_text)
說明:
1. 首先定義了一個用于檢查文本是否為中文的函數check_chinese()。
2. 接著定義了一個用于過濾非中文字符的函數filter_non_chinese()。
3. 使用正則表達式[\u4e00-\u9fa5]+匹配出中文字符。
4. 最后讀取文件example.txt,并對其進行過濾,然后輸出結果。
注意:
1. 本文只是一個簡單的例子,實際情況中需要考慮的問題更多,如英文字符大小寫轉換、標點符號等。
2. 使用正則表達式過濾掉非中文字符也可能會過濾掉一些有效信息,需要根據實際情況進行調整。
上一篇c json 轉化為數組
下一篇vue believer