Thư viện Đại học Duy Tân, Đà Nẵng, Việt Nam

CSDL Bài trích Báo - Tạp chí

Hiển thị Marc

Áp dụng xác suất thống kê và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt

Tác giả: Lê Trung Hiếu, Lê Anh Vũ, Lê Trung Kiên

Số trang: Tr. 32-38.

Tên tạp chí: Khoa học & công nghệ Đại học Duy Tân

Số phát hành: Số 1 (6)/2013

Kiểu tài liệu: Tạp chí trong nước

Nơi lưu trữ: 03 Quang Trung

Mã phân loại: 004

Ngôn ngữ: Tiếng Việt

Toàn văn: http://thuvienso.duytan.edu.vn/handle/123456789/86456

Từ khóa: Xử lý ngôn ngữ, nhận dạng từ, phân tách từ.

Chủ đề: Tiếng Việt & Xác suất thống kê

Tóm tắt:

Trình bày hai vấn đề chính: Sử dụng mô hình xác suất nhận dạng và phân tách từ tiếng Việt; Áp dụng quá trình máy tự học xây dựng mô hình xác suất tối ưu. Với mỗi mô hình xác suất, từ mới được nhận dạng, các tiếng thuộc từ mới được nối tạo thành tiếng mới trong mô hình xác suất mới. Quá trình nối chuỗi các tiếng tạo thành tiếng mới làm giảm sự nhập nhằng giữa tiếng và từ trong tiếng Việt, tăng độ chính xác cho các hàm thống kê, tăng hiệu quả cho quá trình nhận dạng từ mới. Vì vậy, mô hình xác suất sẽ hội tụ về mô hình tối ưu. Quá trình thực nghiệm với 250.034 bài báo online, gồm hơn 15.000.000 câu tiếng Việt. Độ chính xác của thuật toán phân tách từ đạt trên 90%. Từ điển được xây dựng gồm hơn 100.000 từ và cụm từ tiếng Việt.

Tạp chí liên quan

Bài báo Giảng viên DTU

Thư mục chuyên đề

CSDL Bài trích Báo - Tạp chí

Áp dụng xác suất thống kê và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt

Tóm tắt: