Vì đại đa số các đ/c thợ dạy đều bận bịu nên chả mấy người gửi cho chúng em cái lờ lờ ca hát (lí lịch khoa học) theo đúng mẫu mà chúng em đã mất cả nửa tháng ngâm cứu. Cực chẳng đã, em đành nhắm mắt chép lại bản cũ rích từ năm 2006. Tất nhiên là thông tin thiếu toe toét rồi. Nhưng thôi, méo mó có hơn không.
Ban đầu làm em bôi đen rồi “View Selection Source”, định dạng lại bằng Bluefish. Được khoảng hơn 2 chục bác thì em thấy tay mình sưng to hẳn lên. Sợ xấu giai nên em không chơi source nữa mà bôi đen, sao chép trực tiếp rồi dùng sed
định dạng lại. Quy trình là cứ mở trang ra rồi di chuột, rồi ^C rồi ^V vào một tập tin, rồi chạy tập lệnh, rồi chép lại, rồi dán vào Joomla! ở dạng HTML. Mỗi bác em mất 5, 7 phút gì đó.
Em làm thế được hẳn hơn 40 bác nhá!
Nhưng mà càng lúc em càng thấy mệt mỏi, mất thời giờ. Cứ chuyển hết cửa sổ nọ đến cửa sổ kia, chóng hết cả mặt.
Thế là em lại cào theo kiểu trâu bò…
#!/bin/bash # Cập nhật: 08:38, 21/7/2008 mkdir -p ~/tmp/vnu-cv/tuning cd ~/tmp/vnu-cv/ for i in `seq 1 14`; do wget -U Firefox http://news.vnu.edu.vn/TTSK/VIETNAMESE/C1736/C2020/C2025/?35\&intPageId="$i" -O "$i".html; done grep 'class=clsHomeTitle' *.html | sed -r -e 's@^.*href="(.*)" class.*$@http://news.vnu.edu.vn\1@g' > list.txt for i in `cat list.txt`; do j=$(echo "$i" | sed -r -e 's@^.*(N[0-9]+)/\?35@\1@'); wget "$i" -O "$j.html"; done for i in `ls -1 N*.html`; do sed 's/.$//' "$i" | sed -e :a -e '$!N; s/\n/ /; ta' | sed -r -e 's@^.*clsHotTD1">(.*)<TR><TD><div class=clsAuthor align=right>.*$@\1@' > tuning/"$i"; done cd ~/tmp/vnu-cv/tuning if [ ! -d last ]; then mkdir last fi if [ -f logging.txt ]; then rm -f logging.txt fi for i in `ls -1 N*.html`; do name=`sed -r -e 's@^([^<]*)<.*$@\1@' "$i"` echo "Đang xử lí $name ($i)" echo "$i: $name" >> logging.txt mfixiy.sh -i "$i"; mfixoaoeuy.sh "$i"; name2=`echo "$name" | sed -r -e 's@^(.*),.*$@\1@' -e 's@GS\.?\s?TS\.?@GS\.TS@g'` unit=`echo "$name" | sed -r -e 's@^(.*),\s?(.*)$@\2@'` sed -r \ -e 's@\ @ @g' \ -e 's@</?(TR|TD|FONT|SPAN|DIV|B|STRONG|A|IMG|tr|td|font|span|div|b|a|img)[^>]*>@@g' \ -e 's@<(/)?(em|EM)>@<\1i>@g' \ -e 's@</?(p|P)[^>]*>@\n@g' \ -e 's@\s([,\.:\?])@\1@g' \ -e 's/<(LI|li)>/\n<li>/g' "$i" | \ sed -r \ -e 's@^ @@g' \ -e '/^(\s+)?$/d' \ -e 's@<li>\s+@<li>@g' \ -e 's@/\s+?</[iI]>\s+?/@</i>\. @g' \ -e 's@//@.@g' \ -e 's@\.\s+?</[iI]>@</i>\. @g' \ -e 's@</[iI]> \.@</i>\. @g' \ -e 's@\(\s?[Vv]iết chung\s?\)\s?(</i>)?@\1 (viết chung)@g' \ -e 's@\(\s?[Cc]hủ biên\s?\)\s?(</i>)?@\1 (chủ biên)@g' \ -e 's@\(\s?[Đđ]ồng chủ biên\s?\)\s?(</i>)?@\1 (đồng chủ biên)@g' \ -e 's@\(\s?[Đđ]ồng tác giả\s?\)\s?(</i>)?@\1 (đồng tác giả)@g' \ -e 's@\s+@ @g' \ -e 's@ </[iI]>@</i>@g' \ -e 's@<[buiBUI]>([ ,\.;:])+</[buiBUI]>@\1@g' \ -e 's@^Thời gian công tác( (ở|tại) trường)?@Thời gian công tác tại Trường@' \ -e 's@^(Năm sinh|Sinh ngày|Nơi sinh|Học vị|Chức danh|Thời gian công tác tại Trường):\s?(.*)$@<li><i>\1</i>: \2</li>@g' \ -e 's@^(<li><i>Thời gian công tác tại Trường</i>: từ (năm )?[0-9]{4}\s?</li>)@<li><i>Đơn vị công tác hiện nay</i>: '"$unit"'</li>\n\1@g' \ -e 's@^([1I\. ])+?(Sơ (lược|yếu) lí lịch|SƠ (LƯỢC|YẾU) L[Íí] LỊCH|SƠ LƯợC Lí LịCH)\s?$@<h2 style="text-align:center">'"$name2"'</h2>\n<h3>I. Sơ lược lí lịch</h3>\n<ul>@g' \ -e 's@^([2I\. ])+?(Các công trình khoa học|CÁC CÔNG TRÌNH KHOA HỌC)(:)?\s?$@</ul>\n<h3>II. Các công trình khoa học</h3>@g' \ -e 's@^(<[iI]>)?\s?(\*\s?)?(Các bài báo khoa học)(:)?\s?(</[iI]>)?\s?$@<p><b><i>\3</i></b></p>@' \ -e 's@^(<[iI]>)?\s?(\*\s?)?(Các giáo trình, chuyên khảo, sách tham khảo)(:)?\s?(</[iI]>)?\s?$@\n<p><b><i>\3</i></b></p>@' \ -e 's@<li><i>Sinh ngày</i>@<li><i>Năm sinh</i>@g' \ -e 's@GS\.?\s?TS\.?@GS\.TS@g' \ -e 's@,\s?Nxb@\. Nxb@g' \ -e 's@<(/?)LI>@<\1li>@g' \ -e 's@<(/?)I>@<\1i>@g' \ -e 's@<(/?)OL>@<\1ol>@g' \ -e 's@</?st1[^>]*>@@g' \ -e 's@<\?xml:[^>]*>@@g' \ -e 's@công tác hiện nay</i>:\s+Khoa Báo chí\s?</li>@công tác hiện nay</i>: Khoa Báo chí và Truyền thông</li>@' \ -e 's@công tác hiện nay</i>:\s+Khoa Du lịch\s?</li>@công tác hiện nay</i>: Khoa Du lịch học</li>@' \ -e 's@công tác hiện nay</i>:\s+Bộ môn Tư tưởng Hồ Chí Minh và Khoa học chính trị\s?</li>@công tác hiện nay</i>: Bộ môn Khoa học Chính trị</li>@' \ -e 's@công tác hiện nay</i>:\s+Khoa Tiếng Việt và Văn hoá Việt Nam cho người nước ngoài\s?</li>@công tác hiện nay</i>: Khoa Việt Nam học và Tiếng Việt</li>@' \ -e 's@\s([,\.:\?;])@\1@g' > last/"$i"; done for i in `grep -rL 'Sơ lược lí lịch' ./last/`; do sed -r -e 's@^([^<])(.*),.*@&\n<h2>\1\2</h2>\n<h3>I. Sơ lược lí lịch</h3>@' -i $i done
Em định chuyển luôn sang MySQL rồi tống thẳng luôn vào CSDL. Nhưng em làm được thì lại giỏi quá. Thôi, cứ túc tắc cá chép cá rán là được rồi.
Ấy thế nên em nghèo nhất trường.
Bình luận