Currently viewing the tag: "xử lí ngôn ngữ"

Thú thực với các bác là cả đời mình, em chưa bao giờ nghiên cứu một thuật toán nào về sắp xếp cả (vì một thằng khối C như em thì chỉ nghe đến “thuật toán” là đã hãi rồi). Bình thường thì, khi có nhu cầu sắp xếp, em dùng sort. Cứ echo input [...]

đọc tiếp...

Về lí thuyết, tiếng Việt có bao nhiêu âm tiết ở dạng chữ viết? Câu hỏi vớ vẩn này thỉnh thoảng lại làm lắm kẻ động lòng… Bây giờ kết hợp tất cả các “âm vị” ở dạng chữ viết, cho vào một danh sách. Sau đó tách danh sách to đó ra thành các [...]

đọc tiếp...

Em fix my brain

On 27/04/2007 By

Trong khi mọi người vui vẻ về quê hoặc đi du lịch thì em phải ngồi nhà cố nuốt chửng mớ lí thuyết ngôn ngữ học chán chết. Cứ tưởng là dễ ăn, hoá ra toàn những bài học thuộc lòng, mà em thì xưa nay có trí nhớ cực tồi. Làm gì em cũng [...]

đọc tiếp...

Chả phải đợi đến 24h ngày 05/12, mà tầm hơn 20h đã đơ ra như thế này. Tốt quá (nhưng lúc ấy đang buff, kể ra cũng tiếc 2 lọ MP )!

Khởi động Linux. Mới cài FC6. Lúc mới cài thì chạy ngon. Nhưng chả hiểu sao hôm nọ “ụp đất” bằng yum [...]

đọc tiếp...

#! /bin/sh # Trường hợp CH – TR # Lấy 'LIST' (danh sách các âm tiết) ở đây: echo 'Đang tạo danh sách các âm tiết…' egrep "^ch" LIST > ch.txt egrep "^tr" LIST > ch.txt echo 'Đang tạo danh sách tạm…' sed -e 's/^ch//g' -e 's/$/_ /g' ch.txt > tmp.txt sed -e 's/^tr//g' [...]

đọc tiếp...

“Regex Spellcheck” (step 1)

(ch|gh|kh|ngh|ng|nh|p|ph|th|tr|b|c|d|đ|g|h|gi|k|l|m|n|q|r|s|t|v|x)? ( ( [uo] )? ( ( [aàảãáạăằẳẵắặâầẩẫấậeèẻẽéẹêềểễếệiìỉĩíịoòỏõóọôồổỗốộơờởỡớợuùủũúụưừửữứựyỳỷỹýỵ] ) | ( y[aàảãáạêềểễếệ] ) ) | ( ia|ìa|ỉa|ĩa|ía|ịa|iê|iề|iể|iễ|iế|iệ|ưa|ừa|ửa|ữa|ứa|ựa|ươ|ườ|ưở|ưỡ|ướ|ượ|ua|ùa|ủa|ũa|úa|ụa ) ) ( (i|o|u|y|m|n|ng|nh|p|t|c|ch)? )

đọc tiếp...