Lao động khổ sai

Vì đại đa số các đ/c thợ dạy đều bận bịu nên chả mấy người gửi cho chúng em cái lờ lờ ca hát (lí lịch khoa học) theo đúng mẫu mà chúng em đã mất cả nửa tháng ngâm cứu. Cực chẳng đã, em đành nhắm mắt chép lại bản cũ rích từ năm 2006. Tất nhiên là thông tin thiếu toe toét rồi. Nhưng thôi, méo mó có hơn không.

Ban đầu làm em bôi đen rồi “View Selection Source”, định dạng lại bằng Bluefish. Được khoảng hơn 2 chục bác thì em thấy tay mình sưng to hẳn lên. Sợ xấu giai nên em không chơi source nữa mà bôi đen, sao chép trực tiếp rồi dùng sed định dạng lại. Quy trình là cứ mở trang ra rồi di chuột, rồi ^C rồi ^V vào một tập tin, rồi chạy tập lệnh, rồi chép lại, rồi dán vào Joomla! ở dạng HTML. Mỗi bác em mất 5, 7 phút gì đó.

Em làm thế được hẳn hơn 40 bác nhá!

Nhưng mà càng lúc em càng thấy mệt mỏi, mất thời giờ. Cứ chuyển hết cửa sổ nọ đến cửa sổ kia, chóng hết cả mặt.

Thế là em lại cào theo kiểu trâu bò…

#!/bin/bash

# Cập nhật: 08:38, 21/7/2008

mkdir -p ~/tmp/vnu-cv/tuning

cd ~/tmp/vnu-cv/

for i in `seq 1 14`; do wget -U Firefox http://news.vnu.edu.vn/TTSK/VIETNAMESE/C1736/C2020/C2025/?35\&intPageId="$i" -O "$i".html; done
grep 'class=clsHomeTitle' *.html | sed -r -e 's@^.*href="(.*)" class.*$@http://news.vnu.edu.vn\1@g' > list.txt
for i in `cat list.txt`; do j=$(echo "$i" | sed -r -e 's@^.*(N[0-9]+)/\?35@\1@'); wget "$i" -O "$j.html"; done

for i in `ls -1 N*.html`; do sed 's/.$//' "$i" | sed -e :a -e '$!N; s/\n/ /; ta' | sed -r -e 's@^.*clsHotTD1">(.*)<TR><TD><div class=clsAuthor align=right>.*$@\1@' > tuning/"$i"; done

cd ~/tmp/vnu-cv/tuning

if [ ! -d last ]; then
	mkdir last
fi

if [ -f logging.txt ]; then
	rm -f logging.txt
fi

for i in `ls -1 N*.html`; do

name=`sed -r -e 's@^([^<]*)<.*$@\1@' "$i"`
echo "Đang xử lí $name ($i)"

echo "$i: $name" >> logging.txt

mfixiy.sh -i "$i";
mfixoaoeuy.sh "$i";

name2=`echo "$name" | sed -r -e 's@^(.*),.*$@\1@' -e 's@GS\.?\s?TS\.?@GS\.TS@g'`

unit=`echo "$name" | sed -r -e 's@^(.*),\s?(.*)$@\2@'`

sed -r \
-e 's@\&nbsp;@ @g' \
-e 's@</?(TR|TD|FONT|SPAN|DIV|B|STRONG|A|IMG|tr|td|font|span|div|b|a|img)[^>]*>@@g' \
-e 's@<(/)?(em|EM)>@<\1i>@g' \
-e 's@</?(p|P)[^>]*>@\n@g' \
-e 's@\s([,\.:\?])@\1@g' \
-e 's/<(LI|li)>/\n<li>/g' "$i" | \
sed -r \
-e 's@^ @@g' \
-e '/^(\s+)?$/d' \
-e 's@<li>\s+@<li>@g' \
-e 's@/\s+?</[iI]>\s+?/@</i>\. @g' \
-e 's@//@.@g' \
-e 's@\.\s+?</[iI]>@</i>\. @g' \
-e 's@</[iI]> \.@</i>\. @g' \
-e 's@\(\s?[Vv]iết chung\s?\)\s?(</i>)?@\1 (viết chung)@g' \
-e 's@\(\s?[Cc]hủ biên\s?\)\s?(</i>)?@\1 (chủ biên)@g' \
-e 's@\(\s?[Đđ]ồng chủ biên\s?\)\s?(</i>)?@\1 (đồng chủ biên)@g' \
-e 's@\(\s?[Đđ]ồng tác giả\s?\)\s?(</i>)?@\1 (đồng tác giả)@g' \
-e 's@\s+@ @g' \
-e 's@ </[iI]>@</i>@g' \
-e 's@<[buiBUI]>([ ,\.;:])+</[buiBUI]>@\1@g' \
-e 's@^Thời gian công tác( (ở|tại) trường)?@Thời gian công tác tại Trường@' \
-e 's@^(Năm sinh|Sinh ngày|Nơi sinh|Học vị|Chức danh|Thời gian công tác tại Trường):\s?(.*)$@<li><i>\1</i>: \2</li>@g' \
-e 's@^(<li><i>Thời gian công tác tại Trường</i>: từ (năm )?[0-9]{4}\s?</li>)@<li><i>Đơn vị công tác hiện nay</i>: '"$unit"'</li>\n\1@g' \
-e 's@^([1I\. ])+?(Sơ (lược|yếu) lí lịch|SƠ (LƯỢC|YẾU) L[Íí] LỊCH|SƠ LƯợC Lí LịCH)\s?$@<h2 style="text-align:center">'"$name2"'</h2>\n<h3>I. Sơ lược lí lịch</h3>\n<ul>@g' \
-e 's@^([2I\. ])+?(Các công trình khoa học|CÁC CÔNG TRÌNH KHOA HỌC)(:)?\s?$@</ul>\n<h3>II. Các công trình khoa học</h3>@g' \
-e 's@^(<[iI]>)?\s?(\*\s?)?(Các bài báo khoa học)(:)?\s?(</[iI]>)?\s?$@<p><b><i>\3</i></b></p>@' \
-e 's@^(<[iI]>)?\s?(\*\s?)?(Các giáo trình, chuyên khảo, sách tham khảo)(:)?\s?(</[iI]>)?\s?$@\n<p><b><i>\3</i></b></p>@' \
-e 's@<li><i>Sinh ngày</i>@<li><i>Năm sinh</i>@g' \
-e 's@GS\.?\s?TS\.?@GS\.TS@g' \
-e 's@,\s?Nxb@\. Nxb@g' \
-e 's@<(/?)LI>@<\1li>@g' \
-e 's@<(/?)I>@<\1i>@g' \
-e 's@<(/?)OL>@<\1ol>@g' \
-e 's@</?st1[^>]*>@@g' \
-e 's@<\?xml:[^>]*>@@g' \
-e 's@công tác hiện nay</i>:\s+Khoa Báo chí\s?</li>@công tác hiện nay</i>: Khoa Báo chí và Truyền thông</li>@' \
-e 's@công tác hiện nay</i>:\s+Khoa Du lịch\s?</li>@công tác hiện nay</i>: Khoa Du lịch học</li>@' \
-e 's@công tác hiện nay</i>:\s+Bộ môn Tư tưởng Hồ Chí Minh và Khoa học chính trị\s?</li>@công tác hiện nay</i>: Bộ môn Khoa học Chính trị</li>@' \
-e 's@công tác hiện nay</i>:\s+Khoa Tiếng Việt và Văn hoá Việt Nam cho người nước ngoài\s?</li>@công tác hiện nay</i>: Khoa Việt Nam học và Tiếng Việt</li>@' \
-e 's@\s([,\.:\?;])@\1@g' > last/"$i";

done

for i in `grep -rL 'Sơ lược lí lịch' ./last/`; do
	sed -r -e 's@^([^<])(.*),.*@&\n<h2>\1\2</h2>\n<h3>I. Sơ lược lí lịch</h3>@' -i $i
done

Em định chuyển luôn sang MySQL rồi tống thẳng luôn vào CSDL. Nhưng em làm được thì lại giỏi quá. Thôi, cứ túc tắc cá chép cá rán là được rồi.

Ấy thế nên em nghèo nhất trường.

Bình luận
Lựợm

Lựợm là một cử nhân ngôn ngữ học thích chụp ảnh tư liệu hơn làm web. Anh kiếm sống chủ yếu bằng nghề chụp ảnh ở Hà Nội.

4 Comments
  1. Dạo này thì tớ đang chiến với bài thi đại học. Năm nay vẫn tập sự, tập sự mãi…:( nên chưa được đi chấm. Đành làm chân thư kí vậy. Cũng thuộc dạng lao động khổ sai vì xử lý đủ trăm thứ với từng bài thi. Người thì đông đúc, bảo mật, công an, linh tinh thôi.

    Khoảng 1 tuần nữa mới thoát. Payment 60k/day->vì sự nghiệp giáo dục!!!

  2. Ít ra thì mày cũng có 60k. Còn tao chả được cái chết tiệt gì ngoài chóng mặt, nhức đầu.

  3. @pclouds: Keke. Bây giờ cũng không hiểu tại sao lại có đống đó. Chắc là thấy gì thì viết nấy. Miễn là nó chạy 😆

    Sau khi xử lí xong, kết hợp với cái component Masscontent, tốc độ gửi bài nhanh hẳn. Trung bình cứ 15 phút được 10 bài.

Leave a Reply

Your email address will not be published.