String 字元/Regular Expression 正規表達特徵

  • 在分隔、判斷與取代的文字操作中常提及以特徵(pattern)來作為根據
  • 在很多的應用情境中,資料科學團隊需要用一個更廣泛的特徵表達方式,這時就會採用正規表達式(Regular Expression)來支援,常用的正規表達特殊字元有:

    • . :任意文字
    • ^ :開頭文字
    • $ :結束文字
    • ? :文字出現零次到一次
      • :文字出現零次到多次
      • :文字出現一次到多次
    • {m} :文字剛好出現 m 次
    • {m, n} :文字出現次數介於 m 次與 n 次之間(m < n)
    • [] :文字組合
    • \ :跳脫符號
    • \s :空格
  • Python 中使用 re 模組

    • 就可以採取正規表達式做為分隔、判斷與取代的特徵
    • 只要呼叫 re 模組中的
      • split() 函數
      • findall() 函數
      • sub() 函數
import re

shaq = "Shaquille O'Neal"
print(re.split(pattern="\s+", string=shaq))             # 以空格分隔
## ['Shaquille', "O'Neal"]

print(len(re.findall(pattern="\s+", string=shaq)) > 0)  # 判斷是否有空格
## True

print(re.sub(pattern="\s+", repl=';', string=shaq))     # 將空格取代為分號
## Shaquille;O'Neal

Reference:

results matching ""

    No results matching ""