Loại bỏ dấu thanh điệu bằng Python

Python: Loại bỏ dấu thanh điệu tiếng Việt

Hôm trước, khi tạo ảnh đại diện dự phòng cho bài, có đoạn anh dùng PHP để bỏ dấu thanh điệu. Thực ra trước đó ở Dự án S anh đã làm chuyện ấy bằng Python.

Nay không có việc gì nên viết lên đây cho đỡ quên.

def remove_tonemark(string : str):
  chars = [
    'aàảãáạ', 'ăằẳẵắặ', 'âầẩẫấậ',
    'eèẻẽéẹ', 'êềểễếệ', 'iìỉĩíị',
    'oòỏõóọ', 'ôồổỗốộ', 'ơờởỡớợ',
    'uùủũúụ', 'ưừửữứự', 'yỳỷỹýỵ',
    'AÀẢÃÁẠ', 'ĂẰẲẴẮẶ', 'ÂẦẨẪẤẬ',
    'EÈẺẼÉẸ', 'ÊỀỂỄẾỆ', 'IÌỈĨÍỊ',
    'OÒỎÕÓỌ', 'ÔỒỔỖỐỘ', 'ƠỜỞỠỚỢ',
    'UÙỦŨÚỤ', 'ƯỪỬỮỨỰ', 'YỲỶỸÝỴ',
  ]

  for c in chars:
    string = re.sub(rf"[{c}]", c[0], string)

  return string

Một bình luận

 1. […] vos.remove_tonemark() loại bỏ dấu thanh điệu (đã giới thiệu ở Lựợm.TV) […]