Người chuyên 'xử lý ngôn ngữ tự nhiên' trong tin học

Người chuyên 'xử lý ngôn ngữ tự nhiên' trong tin học
TP - “Tôi đã làm ứng dụng xử lý ngôn ngữ tự nhiên cho nhiều thứ tiếng như Nhật, Hàn Quốc, Arập, Trung Quốc. Về nước lần này cũng vì muốn nghiên cứu ứng dụng cho ngôn ngữ nước mình”, TS Phạm Bảo Sơn tâm sự.
Người chuyên 'xử lý ngôn ngữ tự nhiên' trong tin học ảnh 1
Phạm Bảo Sơn

Là một trong 10 gương mặt thanh niên xuất sắc trong lĩnh vực công nghệ thông tin đạt giải Quả Cầu Vàng 2007 do T.Ư Đoàn TNCS Hồ Chí Minh và Bộ KHCN tổ chức từng có hai bằng sáng chế công nghệ thông tin, Tiến sĩ trẻ Phạm Bảo Sơn có mong muốn giản dị là có một công trình khoa học bằng tiếng Việt và truyền cho những sinh viên Việt ngọn lửa khám phá, sáng tạo từ những kiến thức mình được học và nghiên cứu về tin học nơi đất bạn.

Đó cũng là lý do anh trở về làm giảng viên tại trường ĐH Công nghệ sau 10 năm học tập và nghiên cứu tại trường Đại học Tổng hợp New South Wales (Úc).

Thành quả của 10 năm đam mê

Đam mê ngôn ngữ tin học từ khi còn là học sinh phổ thông, suốt 10 năm học tập và nghiên cứu tại Úc, Phạm Bảo Sơn dồn toàn bộ thời gian và tâm huyết để nghiên cứu về Xử lý ngôn ngữ tự nhiên trong tin học.

Tài năng và công sức của Sơn với thành quả của 10 năm là 2 bằng phát minh sáng chế công nghệ thông tin năm 2006 và bảo vệ xuất sắc luận án Tiến sĩ năm 2007. “Tôi có duyên trong nghiên cứu vấn đề này”.

Làm thế nào để biết được các thông tin về tác giả của một email? Câu trả lời sẽ được tìm thấy trong sáng chế: “Xử lý ngôn ngữ email và thuộc tính người viết” và “Xử lý ngôn ngữ văn bản” mà anh Sơn và các bạn trong Công ty Appen (Công ty công nghệ ngôn ngữ của Úc) đã dày công nghiên cứu.

Ngôn ngữ tự nhiên chính là ngôn ngữ chúng ta vẫn dùng. Nó có thể được lưu trữ trên máy tính dưới dạng văn bản (email, blog, news...), hay ghi âm lại giọng nói.

Nghiên cứu “Xử lý ngôn ngữ tự nhiên” nhằm mục đích để máy tính có thể tự xử lý được ngôn ngữ tự nhiên, hiểu được ngôn ngữ tự nhiên…

“Theo sáng chế này, bạn có thể xác định tên tuổi, tính cách, sở thích, và những thuộc tính khác của người gửi email chỉ qua cách viết của họ nhờ việc khai thác hoạt động tìm kiếm thông minh của máy tính”, anh Sơn chia sẻ.

Anh đã mất 1 năm để nghiên cứu email của hơn 100 người ở các nước sử dụng ngôn ngữ tiếng Anh và tiếng Ả rập, mỗi người 10 email, từ đó gửi những câu hỏi tâm lý học, phân tích thói quen, tính cách, sở thích, đặc điểm chung nhất của người viết.

Còn đối với văn bản, có thể xác định được đoạn nào người gửi email viết đoạn nào của người khác. “Sáng chế này sẽ được áp dụng với mục đích an ninh như: tìm chủ nhân của thư lạc danh, thư khủng bố, chat, blog,... và hiện tại Cty Appen đã triển khai ứng dụng nó”, anh Sơn cho biết.

Cùng với thành công trong những sáng chế, anh Sơn đã bảo vệ xuất sắc luận án tiến sĩ Luận văn nghiên cứu của anh là: “Incremental Knowledge Acquisition for Natural Language Processing” (“Thu thập tri thức từng bước cho xử lý ngôn ngữ tự nhiên”) sau 3,5 năm nghiên cứu.

Đề tài của anh Sơn đề cập tới một vấn khó và không mới nhưng được đánh giá cao bởi đã đưa ra được những giải pháp. “Lập trình hệ thống luật để máy tính tự hỏi người sử dụng khi đặt lệnh xử lý, qua đó đưa trí thức của người sử dụng máy tính vào trong máy, để máy tính có thể tự đánh giá được vấn đề nào tốt hay xấu...”, anh Sơn chia sẻ.

“Muốn khảo sát thị trường, bạn có thể đặt lệnh, máy tính sẽ tự khảo sát trên các trang web và đưa ra kết quả. Ví dụ, muốn tìm tên sản phẩm của Cty trên các web, máy tính sẽ tự động search khi được nhận lệnh và đưa ra kết quả thống kê chính xác từ các trang web”, anh Sơn nói về ứng dụng của đề tài này.

Bảo vệ thành công luận án Tiến sĩ, Phạm Bảo Sơn là người duy nhất của Khoa học máy tính trường ĐH New South đạt Huy chương của trường dành cho sinh viên tốt nghiệp xuất sắc năm 2001.

Người chuyên 'xử lý ngôn ngữ tự nhiên' trong tin học ảnh 2
Sơn cùng gia đình trong ngày bảo vệ luận án Tiến sĩ tại trường ĐH Tổng hợp New South Wales (Úc)

Hai lần vô địch robot bóng đá thế giới

Là học sinh giỏi quốc tế (lớp 11 và 12 đạt Huy chương bạc quốc tế môn Tin học), được tuyển thẳng vào Đại học Công nghệ - ĐH Quốc gia Hà Nội. Sang Úc du học, Sơn tiếp tục theo đuổi môn Tin học.

Năm thứ hai Đại học Sơn nhận được học bổng hè của trường dành cho những sinh viên có thành tích học tập tốt trong năm 2000. May mắn đã đến với anh khi người trao học bổng đó là vị giáo sư đầu ngành trong lĩnh vực trí tuệ nhân tạo. Ông ngỏ ý mời Sơn tham gia đội tuyển Robot bóng đá của trường.

Sơn chia sẻ: “Tôi đồng ý trong tâm trạng vừa mừng, vừa lo. Mừng vì đây là cơ hội tốt cho tôi được cọ xát, nghiên cứu; lo vì  mình vừa sang được 1 năm sợ còn non kinh nghiệm”.

Robot bóng đá quốc tế là cuộc thi thường niên dành cho các trường ĐH công nghệ thông tin trên thế giới. Với hình thức là các chú chó robot của các đội sẽ thi đá bóng với nhau trong một khoảng thời gian nhất định.

“Mỗi con chó robot đều có phần cứng giống nhau, mỗi đội sẽ phải lập trình phần mềm cho con chó để thi đấu đạt kết quả cao nhất”- Sơn cho biết:

Đội của Sơn (gồm 3 người) đã dành quyết tâm cao độ, miệt mài viết chương trình phần mềm trong cả 1 năm trời. Bước vào thi đấu đội robot của Sơn đi từ chiến thắng này đến chiến thắng khác. Đây là giải đấu bóng đá robot đầu tiên trường của Sơn có chiến thắng dòn giã như thế, bởi chiến thuật đã có sự khác biệt và nổi trội.

Ngay cả trong trận gặp đội của trường CMU của Mỹ - trường hàng đầu thế giới về tin học, đội tuyển của Sơn cũng đã thắng với tỷ số 13 - 10, thắng đội của Trung tâm nghiên cứu robot của Paris tỷ số 10 - 0. Năm 2000, cũng là năm đầu tiên, trường của Sơn đoạt chức vô địch robot bóng đá thế giới.

Đến năm 2001, Sơn làm huấn luyện cho đội tuyển robot bóng đá của trường. Truyền lại những kinh nghiệm, đồng thời cùng mọi người viết những chương trình mới, một lần nữa, Sơn đã đưa cúp vô địch robot bóng đá thế giới về cho trường New South.

Hiện, Sơn về giảng dạy tại Khoa Công nghệ thông tin- Đại học Công nghệ Hà Nội với mong muốn rất giản dị là làm một công trình khoa học bằng tiếng Việt, điều mà 10 năm qua Sơn chưa làm được.

“Tôi đã làm ứng dụng xử lý ngôn ngữ tự nhiên cho nhiều thứ tiếng như Nhật, Hàn Quốc, Arập, Trung Quốc. Về nước lần này cũng vì muốn nghiên cứu ứng dụng cho ngôn ngữ nước mình”, anh Sơn tâm sự.

MỚI - NÓNG