LINK DOWNLOAD MIỄN PHÍ TÀI LIỆU "Tài liệu TIỂU LUẬN: Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp pptx": http://123doc.vn/document/1050146-tai-lieu-tieu-luan-phan-loai-van-ban-tieng-viet-bang-phuong-phap-phan-tich-cu-phap-pptx.htm
I. Đặt vấn đề
Như chúng ta đã biết, hầu hết các thông tin được trao đổi hiện nay nằm dưới dạng tài
liệu văn bản. Các thông tin đó có thể là các bài báo, các tài liệu kinh doanh, các thông
tin kinh tế, các bài nghiên cứu khoa học. Dù áp dụng Cơ sở dữ liệu vào trong hoạt
động của tổ chức là rất phổ biến và đem lại nhiều lợi ích khi lưu trữ và xử lý, nhưng
ta không thể quên được rằng còn rất nhiều dạng thông tin khác được lưu trữ dưới
dạng văn bản. Thậm chí ngay cả trong các thông tin được lưu trong các cơ sở dữ liệu
thì phần lớn trong số chúng cũng được tổ chức dưới dạng văn bản. Hiện nay, các tổ
chức đã áp dụng công nghệ thông tin vào quản lý hệ thống công văn giấy tờ, ví dụ
các hệ thống sử dụng Lotus Node. Tuy nhiên đó chỉ thực sự là cách quản lý luồng dữ
liệu văn bản, cung cấp các công cụ kho chứa, còn dữ liệu vẫn thực sự nằm dưới dạng
văn bản. Chúng ta chưa có các giải thuật phân loại, tìm kiếm tài liệu, các công cụ
trích lọc thông tin nhằm mục đích thống kê, phát hiện tri thức, ra quyết định trực tiếp
trên các nguồn dữ liệu kiểu này.
Với thực tế đó, vấn đề đặt ra là làm thế nào chúng ta có thể khai thác được những
thông tin hữu ích từ các nguồn tài liệu văn bản nói chung. Các nguồn dữ liệu này
phải được xử lý như thế nào để người dùng có thể có những công cụ tự động hoá trợ
giúp trong việc phát hiện tri thức và khai thác thông tin. Rõ ràng, chúng ta phải hiểu
rõ bản chất của dữ liệu văn bản, hiểu rõ các đặc trưng của các dữ liệu loại này để có
thể có được những phương pháp luận cần thiết.
Việc khai thác thông tin từ các nguồn dữ liệu văn bản trong các tổ chức Việt Nam
chắc chắn phải dựa vào những kết quả nghiên cứu về văn bản nói chung, về dữ liệu
văn bản và các kỹ thuật xử lý đã được phát triển trên thế giới. Tuy nhiên, những văn
bản tiếng Việt lại có những đặc trưng riêng của nó. Ta có thể nhận thấy được ngay sự
khác biệt về mặt kí pháp, cú pháp và ngữ pháp tiếng Việt trong các văn bản so với
các ngôn ngữ phổ biến trên thế giới như tiếng Anh, tiếng Pháp. Vậy thì những đặc
trưng này ảnh hưởng thế nào đến các kỹ thuật khai phá dữ liệu văn bản, ta cần phải
có những ký thuật mới nào để có thể tận dụng được những ưu thế của tiếng Việt cũng
như giải quyết được những phức tạp trong tiếng Việt.
Để trả lời được những câu hỏi này, đồ án sẽ đi từ những bước nghiên cứu về Khai
phá dữ liệu văn bản, tìm hiểu những đặc trưng của tiếng Việt, từ đó đề ra phương
hướng giúp giải quyết bài toán phân loại văn bản tiếng Việt phức tạp ở các nghiên
cứu cao hơn. Các kết quả của nghiên cứu trong đề tài thực tập này sẽ là nhưng bước
tiến đầu tiên cho luận văn tốt nghiệp của em với đề tài “Phân loại văn bản tiếng Việt
bằng phương pháp phân tích cú pháp.”
II. Cơ sở lý thuyết
1. Khái niệm Text Mining
a. Khai phá dữ liệu (Data Mining)
Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trong
vòng 60 năm trở lại đây. Với dữ liệu được thu thập trong suốt quá trình hoạt động
của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những
dữ liệu đó. Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ sở dữ
liệu. Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước
đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri
thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các
hệ chuyên gia hay hệ hỗ trợ quyết định.
Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ cơ sở dữ
liệu. Quá trình khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc
dữ liệu, có nghĩa là chỉ tìm các mẫu tri thức (pattern) có ý nghĩa trên tập dữ liệu có hy
vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây.
Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu và tìm
kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó. Mặc dù mẫu hình có thể
tìm được từ bất kì một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm
kiếm mới được gọi là tri thức. Ta sẽ có những hàm số để đánh giá các tiêu chí mẫu
như mới, có lợi, đáng được xem xét.
Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với hệ
thống hoặc đối với người dùng. Ví dụ với dữ liệu của một công ty, quá trình Khai phá
dữ liệu tìm ra được một luật như Lợi tức thu được giảm vào mùa thu ở vùng phía
Bắc, đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập
kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính.
Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm. Với
một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc dù
là mới đối với anh ta.
Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng không
phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là
khi áp dụng các kỹ thuật dựa trên thống kê. Do đó luôn phải có các tiêu chí và các
hàm đánh các mẫu đáng xem xét, không tầm thường.
Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ các
Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phân
oại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng
nơ-ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy
nạp luật rule reduction)
Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu
- Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một
mẫu dữ liệu vào một trong các lớp cho trước.
- Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ
liệu vào một biến dự đoán có giá trị thực
- Bài toán lập nhóm ( clustering): Là việc mô tả chung để tìm ra các tập
xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu.
- Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả
chung tóm tắt cho một tập con dữ liệu.
b. Khai phá dữ liệu văn bản (Text Mining)
Khai phá dữ liệu văn bản hay phát hiện tri thức từ các cơ sở dữ liệu văn bản (textual
databases) đề cập đến tiến trình trích lọc các mẫu hình thông tin (pattern) hay tri thức
(knowledge) đáng quan tâm hoặc có giá trị (non-trivial) từ các tài liệu văn bản phi
cấu trúc. Quá trình này có thể được coi là việc mở rộng kỹ thuật Khai phá dữ liệu
truyền thống, vì như ch úng ta đã thấy (đã được đề cập ở trên) kỹ thuật Khai phá dữ
liệu truyền thống (DataMining) hướng tới việc phát hiện tri thức từ các cơ sở dữ liệu
có cấu trúc.
Thông tin được lưu trữ dưới dạng nguyên sơ nhất chính là văn bản. Thậm chí ta có
thể thấy rằng dữ liệu tồn tại dưới dạng văn bản còn có khối lượng lớn hơn rất nhiều
so với các dữ liệu có cấu trúc khác. Thực tế, những nghiên cứu gần đây đã cho thấy
rằng có đến 80% thông tin của một tổ chức nằm dưới dạng văn bản. Đó có thể là các
công văn giấy tờ, các biểu mẫu điều tra, các phiếu đặt hàng, các yêu cầu khiếu nại,
giải quyết quyền lợi, các thư tín điện tử (email), các thông tin trên các website thương
mại Khi các nghiên cứu về cơ sở dữ liệu ra đời vào những năm 60, người ta tưởng
rằng có thể lưu mọi loại thông tin dưới dạng dữ liệu có cấu trúc. Nhưng trên thực tế
sau gần 50 năm phát triển, người ta vẫn dùng các hệ thống lưu trữ ở dạng văn bản và
thậm trí còn có xu hướng dùng thường xuyên hơn. Từ đó người ta có thể tin rằng các
sản phẩm Khai phá dữ liệu văn bản có thể có giá trị thương mại cao hơn rất nhiều lần
so với các sản phẩm Khai phá dữ liệu truyền thống khác. Tuy nhiên ta cũng có thể
thấy ngay rằng các kỹ thuật Khai phá dữ liệu văn bản phức tạp hơn nhiều so với các
kỹ thuật Khai phá dữ liệu truyền thống bởi vì phải thực hiện trên dữ liệu văn bản vốn
đã ở dạng phi cấu trúc và có tính mờ (fuzzy).
Một ví dụ cho bài toán khai phá dữ liệu văn bản, khi phân tích các bài báo nghiên
cứu khoa học, ta có các thông tin sau:
- “stress là một bệnh liên quan đến đau đầu”
- “stress xuất hiện có thể do thiếu Magê trong máu”
- “Canxi có thể ngăn cản một số chứng đau đầu”
- “Magê là một nguyên tố điều hoà canxi tự nhiên trong máu”
Sau khi phân tích các thông tin quan trọng này, hệ thống cần phải đưa ra các suy luân
cụ thể mang tính cách mạng:
- “Thiếu hụt Magê có thể gây ra một số bệnh đau đầu”
Rõ ràng ở đây có sự phân tích suy luận ở mức độ cao. Để đạt được khà năng như vậy
cần phải có những công trình nghiên cứu về trí tuệ nhân tạo tiên tiến hơn.
Bài toán Khai phá dữ liệu văn bản là một bài toán nghiên cứu đa lĩnh vực, bao gồm
rất nhiều kỹ thuật cũng như các hướng nghiên cứu khác nhau: thu thập thông tin
(information retrieval), phân tích văn bản (text analysis), chiết xuất thông tin
(information extraction), lập đoạn (clustering), phân loại văn bản (categorization),
hiển thị trực quan (visualization), công nghệ cơ sở dữ liệu, học máy (machine
learning) và bản thân các kỹ thuật Khai phá dữ liệu.
Trong đề tài này em chủ yếu đề cập đến hai bài toán cụ thể, đó là bài toán phân loại
dữ liệu văn bản (Text categorization) và bài toán thu thập thông tin (information
retrieval). Các nghiên cứu mới chỉ dừng lại ở bước tìm hiểu, khảo sát, so sánh là tiền
đề cho các nghiên cứu cụ thể sau này mà mục đích trước mắt là phục vụ cho luận văn
tốt nghiệp.
Với một hệ thống Khai phá văn bản thường bao gồm ba bước chính:
- Bước tiền xử lý: Ở bước này, hệ thống sẽ chuyển văn bản từ
dạng phi cấu trúc về dạng có cấu trúc. Ví dụ, với văn bản Tổ chức này
to lắm, hệ thống sẽ cố gắng phân tích thành Tổ chức|này|to|lắm. Các từ
được lưu riêng rẽ một cách có cấu trúc để tiện cho việc xử lý.
- Loại bỏ các thông tin không cần thiết. Ở bước này, bộ phân tích
tìm cách loại bỏ các thông tin vô ích từ văn bản. Bước này phụ thuộc
rất nhiều vào ngôn ngữ đang được phân tích và kỹ thuật sẽ được dùng
để phân tích ỏ bước tiếp theo. Ví dụ, nếu kỹ thuật phân tích văn bản chỉ
dựa vào xác xuất xuất hiện từ khoá, khi đó ta có thể loại bỏ các từ phụ
như: nếu, thì, thế nhưng, như vậy…
- Khai phá dữ liệu đã được giản lược với các kỹ thuật khai phá dữ
liệu (data mining) truyền thống.
Có rất nhiều kỹ thuật và phương pháp tốt được sử dụng cho Text Mining để tìm ra
các kiến trúc mới, các mẫu mới, và các liên kết mới. Các bước tiền xử lý là các kỹ
thuật rất phức tạp nhằm phân tích một phân lớp đặc biệt thành các thuộc tính đặc biệt,
sau đó tiến hành áp dụng các phương pháp khai phá dữ liệu kinh điển tức là phân tích
thống kê và phân tích các liên kết. Các bước còn lại sẽ khai phá cả văn bản đầy đủ từ
tập các văn bản, ví dụ như phân lớp văn bản.
Mục tiêu cuối cùng của Text Mining thường là đường lối hiệu quả, hoàn thiện, và
đặc trưng để trình diễn và tìm kiếm các tập hợp rộng lớn của các văn bản. Do đó, các
kỹ thuật chính của Text Mining có thể được phân phân ra thành các nhiệm vụ mà
chúng thực hiện khi xử lý khai phá văn bản: loại thông tin mà chúng có thể trích ra và
loại phân tích được thực hiện bởi chúng.
Các loại thông tin được trích ra có thể là:
- Các nhãn: Giả sử, được liên kết với mỗi văn bản là tập các nhãn
các thao tác khai phá tri thức được thực hiện trên các nhãn của mỗi văn
bản. Nói chung, có thể giả sử rằng các nhãn tương ứng với các từ khoá,
mỗi một từ khoá có quan hệ với một chủ đề cụ thể nào đó.
- Các từ: Ở đây giả sử rằng một văn bản được gán nhãn với từng
từ xuất hiện trong văn bản đó.
- Các thuật ngữ: Ở đây với mỗi văn bản tìm thấy các chuỗi từ,
chuỗi từ đó thuộc về một lĩnh vực nào đó và do đó việc tìm khai phá
văn bản được thực hiện trên các khai niệm được gán nhãn cho mỗi văn
bản. Ưu điểm của phương pháp này là các thuật ngữ được tách ra ít và
có xu hướng tập trung vào các thông tin quan trọng của văn bản hơn hai
phương pháp trước đây.
Các loại kết hợp:
- Kết hợp thông thường: Một số thuật toán trước đây giả sử rằng
dữ liệu nguyên mẫu được tạo lập chú dân để trợ giúp cho các kỹ thuật
xử lý ngôn ngữ tự nhiên. Các cấu trúc có chú dẫn trên thực tế có thể
được sử dụng như một cơ sở cho việc xử lý khai phá tri thức.
- Các phân cấp thuật ngữ: Ở đây mỗi văn bản được đính với các
thuật ngữ lấy ra từ một phân cấp các thuật ngữ. Sau đó, một hệ thống sẽ
phân tích sự phân bố nội dung của các thuật ngữ hậu duệ của từng thuật
ngữ liện quan đến các hậu duệ khác do các phân bố liên kết và các phép
đo khác nhằm khai thác các quan hệ mới giữa chúng. Loại liên kết này
có thể cũng được sử dụng để lọc và tổng hợp chủ đề của các tin tức.
- Khai phá văn bản đầy đủ: Không giống như loại liên kết thông
thường thực hiện thao tác mù quáng trên các chú dẫn của văn bản, kỹ
thuật này sử dụng lợi thế của nội dụng nguyên mẫu của các văn bản.
Kỹ thuật này được gọi là “trích văn bản nguyên mẫu”.
2. Bài toán phân loại văn bản (Text categorization)
a. Khái niệm phân loại văn bản
Phân loại văn bản (Text categorization) là xử lý nhóm các tài liệu thành các lớp khác
nhau hay các phân nhóm (categories). Đây là một tác vụ phân lớp liên quan đến việc
ra quyết định xử lý. Với mỗi xử lý phân nhóm, khi đưa ra một tài liệu, một quyết
định được đưa ra nó có thuộc một lớp nào hay không. Nếu nó thuộc một phân lớp
nào đó thì phải chỉ ra phân lớp mà nó thuộc vào. Ví dụ, đưa ra một chủ đề về thể
thao, cần phải đưa ra quyết định rằng chủ đề đó thuộc các phân lớp cờ vua, quần vợtt,
cầu lông, bơi lội hay bất cứ một môn thể thao nào khác. Các hệ thống phân loại văn
bản thường làm việc với một thuật toán tự học (learning algorithm). Thuật toán đó
được cung cấp một tập mẫu để phục vụ cho việc dạy học. Tập mẫu này bao gồm một
tập các thực thể có gán nhãn được phân lớp trước có dạng (x, y) ở đó x là thực thể
được phân lớp, y là nhãn (hay phân lớp) được gán cho nó. Với cơ cấu cơ sở như vậy,
khi một thực thể được cung cấp cho hệ thống, nó sẽ cố gắng suy ra một hàm toán học
từ tập đào tạo mẫu và ánh xạ thực thể mới đó vào một phân lớp. Phân lớp văn bản là
bài toán hay và đang có những bước phát triển hết sức quan trọng mà nguyên nhân
chủ yếu do sự phát triển mạnh mẽ gần đây của các thông tin nguyên trực tuyến.
b. Các phương pháp phân loại văn bản
b.1. Sử dụng từ điển phân cấp chủ đề
Một phương pháp thống kê phân lớp văn bản được điều khiển bởi một từ điển chủ đề
có phân cấp được đề xuất. Phương pháp này sử dụng một từ điển với một cấu trúc
đơn giản. Từ điển này có thể dạy được dễ dàng trên một tập hợp tài liệu được phân
lớp bằng tay và có thể dịch được tự động sang nhiều ngôn ngữ khác nhau.
Chúng ta xem xét nhiệm vụ phân loại văn bản bởi chủ đề của tài liệu: ví dụ, một số
tài liệu về những động vật, và một số khác nói về vấn đề công nghiệp. Chúng ta giả
sử rằng danh sách chủ đề là lớn nhưng cố định. Giải thuật của chúng ta không thu
được những chủ đề từ thân của tài liệu nhưng thay vào đó, nó liên hệ tài liệu với một
trong những chủ đề được liệt kê trong từ điển hệ thống. Kết quả là phép đo (về phần
trăm) sự tương ứng của tài liệu với mỗi từngchủ đề có sẵn.
Có một vấn về xuất hiện là độ tối ưu, hay độ hợp lý, độ chi tiết cho phân loại như
vậy. Ví dụ, khi phân loại tin tức trên internet với một người đọc “bình thường”,
những phân loại như các loài động vật hoặc nghành công nghiệp thì khá phù hợp,
trong khi phân lớp các chủ đề về động vật học giống như một cuốn từ điển như vậy
sẽ đưa ra một câu trả lời chung chung rằng tất cả các chủ đề đó đều nói về động vật.
Hay nói cách khác, với một người đọc tin tức trên internet bình thường, thật không
thích hợp dùng để phân loại những tài liệu với những chủ đề chi tiết hơn như những
động vật có vú, động vật có xương sống, động vật thân nhiệt.
Trong bài nghiên cứu này, chúng ta sẽ bàn luận về cấu trúc của từ điển chủ đề, cách
chọn lựa và cách sử dụng các trọng số của các nút riêng lẻ trong phân cấp, và một số
khía thực tế về việc biên soạn điển chủ đề.
b.1.1. Giải thuật phân lớp và phân cấp chủ đề
Trong bài nghiên cứu của các tác giả Guzmán và Arenas vào năm 1997 và 1998, hai
ông đề xuất việc sử dụng một từ điển có phân cấp để xác định những đề tài chính của
một tài liệu [1]. Về mặt kỹ thuật, từ điển bao gồm hai phần: các nhóm từ khóa đại
diện cho các chủ đề riêng biệt, và một biểu diễn phân cấp của các chủ đề này.
Một nhóm từ khóa là một danh sách các từ hoặc các biểu thức liên quan đến tình
trạng tham chiếu bởi tên của chủ đề. Ví dụ, chủ đề tôn giáo liệt kê các từ như nhà thờ,
thầy tu, nến, kinh thánh, cầu nguyện, người hành hương,…Chú ý rằng những từ này
không được liên kết với đầu mục tôn giáo hay liên kết với nhau bởi bất kỳ quan hệ
ngữ nghĩa tiêu chuẩn nào như kiểu con, phần,…
Cây chủ đề được tổ chức thành một phân cấp, hay nói chung là tổ chức thành một
mạng (khi đó một số chủ đề có thể thuộc một vài nút của cây phân cấp).
Giải thuật tìm kiếm chủ đề trên từ điển cũng gồm có hai phần : tìm kiếm chủ đề đơn
(chủ đề lá) và sự truyền lan trọng số của chủ đề trên cây. Thực tế, nó trả lời, cho câu
hỏi sau: tới mức độ nào thì tài liệu này sẽ phù với chủ đề đã cho? Một câu hỏi như
vậy được trả lời cho mỗi chủ đề riêng biệt. Trong trường hợp đơn giản nhất, trọng số
của một chủ đề là số (tần suất) các từ tương ứng, trong danh sách từ, được tìm thấy
trong tài liệu [1].
Phần thứ hai của giải thuật có trách nhiệm lan truyền các tần suất tìm thấy trên cây
[1]. Với phần giải thuật này, chúng ta có thể chỉ ra rằng một tài liệu đề cập đến chủ
về những động vật có vú, những động vật thân mềm, những động vật giáp sát ở nút
lá, phù hợp với chủ đề về những động vật, các sinh vật sống và tự nhiên không ở nút
lá.
b.1.2. Sự phù hợp và sự phân biệt của các trọng số
Thay vì các danh sách từ đơn giản, một số trọng số có thể được sử dụng bởi giải thuật
để định nghĩa (1) phép đo định lượng sự phù hợp của các từ với các chủ đề và (2) đo
mức quan trọng của các nút của thuộc cây phân cấp [1].
Không có nhận xét nào:
Đăng nhận xét