การบ้านครั้งที่ 2: เขียนโปรแกรมหา collocation โดยใช้วิธี likelihood ratio

คำอธิบาย


เขียนโปรแกรมเขียนชื่อ collocation-xxx.py (xxx แทนด้วยรหัสนิสิต) ที่รับคำสั่งจาก command line โดยที่พารามิเตอร์ที่จะรับเข้าไปมีดังนี้
python collocation-xxx.py [corpus] [number]
  • corpus คือ ชื่อไฟล์ของคลังประโยคที่ต้องการหา collocation
  • number คือ จำนวน collocation ที่มีค่าสูงสุด

ให้นิสิตใช้ไฟล์ corpus เดียวกันกับการบ้านครั้งที่ 1 สำหรับการทดสอบ

การแสดงผลลัพธ์ให้พิมพ์ออกทาง standard output ดังนี้

ตัวอย่าง
python collocation-xxx.py news_cp874 5
ผลลัพธ์ที่ได้คือ
score1 x1 y1
score2 x2 y2
score3 x3 y3
score4 x4 y4
score5 x5 y5
โดยให้เรียงจากคะแนนมากที่สุดไปหาคะแนนน้อยที่สุด และค่าคะแนนให้แสดงอยู่ในรูปของทศนิยม 4 ตำแหน่ง

กำหนดส่ง

วันศุกร์ที่ 12 สิงหาคม 2554 ก่อน เวลาเที่ยงครึ่ง ส่งช้ากว่ากำหนดหักคะแนนวันละ 0.5 คะแนน (คะแนนเต็ม 5 คะแนน)

วิธีการส่งการบ้าน

ให้บีบอัดไฟล์โดยใช้วิธีการ zip และตั้งชื่อว่า collocation-xxx.zip (xxx คือรหัสนิสิต) แล้วส่งมาที่ sutee.s@gmail.com โดยใช้หัวเรื่องว่า NLP Homework 02