Hôm trước, khi tạo ảnh đại diện dự phòng cho bài, có đoạn anh dùng PHP để bỏ dấu thanh điệu. Thực ra trước đó ở Dự án S anh đã làm chuyện ấy bằng Python.
Nay không có việc gì nên viết lên đây cho đỡ quên.
def remove_tonemark(string : str):
from_ = [
'[àảãáạ]', '[ằẳẵắặ]', '[ầẩẫấậ]',
'[ÀẢÃÁẠ]', '[ẰẲẴẮẶ]', '[ẦẨẪẤẬ]',
'[èẻẽéẹ]', '[ềểễếệ]', '[ìỉĩíị]',
'[ÈẺẼÉẸ]', '[ỀỂỄẾỆ]', '[ÌỈĨÍỊ]',
'[òỏõóọ]', '[ồổỗốộ]', '[ờởỡớợ]',
'[ÒỎÕÓỌ]', '[ỒỔỖỐỘ]', '[ỜỞỠỚỢ]',
'[ùủũúụ]', '[ừửữứự]', '[ỳỷỹýỵ]',
'[ÙỦŨÚỤ]', '[ỪỬỮỨỰ]', '[ỲỶỸÝỴ]',
]
to_ = [
'a', 'ă', 'â', 'A', 'Ă', 'Â',
'e', 'ê', 'i', 'E', 'Ê', 'I',
'o', 'ô', 'ơ', 'O', 'Ô', 'Ơ',
'u', 'ư', 'y', 'U', 'Ư', 'Y',
]
for i, c in enumerate(from_):
string = re.sub(rf"{c}", to_[i], string)
return string