String 字元/Regular Expression 正規表達特徵
- 在分隔、判斷與取代的文字操作中常提及以特徵(pattern)來作為根據
在很多的應用情境中,資料科學團隊需要用一個更廣泛的特徵表達方式,這時就會採用正規表達式(Regular Expression)來支援,常用的正規表達特殊字元有:
- . :任意文字
- ^ :開頭文字
- $ :結束文字
- ? :文字出現零次到一次
- :文字出現零次到多次
- :文字出現一次到多次
- {m} :文字剛好出現 m 次
- {m, n} :文字出現次數介於 m 次與 n 次之間(m < n)
- [] :文字組合
- \ :跳脫符號
- \s :空格
Python 中使用 re 模組
- 就可以採取正規表達式做為分隔、判斷與取代的特徵
- 只要呼叫 re 模組中的
- split() 函數
- findall() 函數
- sub() 函數
import re
shaq = "Shaquille O'Neal"
print(re.split(pattern="\s+", string=shaq)) # 以空格分隔
## ['Shaquille', "O'Neal"]
print(len(re.findall(pattern="\s+", string=shaq)) > 0) # 判斷是否有空格
## True
print(re.sub(pattern="\s+", repl=';', string=shaq)) # 將空格取代為分號
## Shaquille;O'Neal