Vén bức màn sự thật liệu AI Facebook có tạo nên ngôn ngữ mới.

1948

Đã có rất nhiều bài báo với tiêu đề “ Facebook “khai tử” hệ thống AI tự phát triển ngôn ngữ riêng “. Thật sự, báo chí chỉ đang “giật tít câu view”. Một vài tờ báo khiến bạn tin rằng chúng ta vừa thoát chết – nếu như các nhà khoa học tại Facebook không dừng các AI trước khi chúng chiếm lấy thế giới. Nhưng bên cạnh đó, vẫn có những người tỉnh táo cho rằng, họ đưa ra nhiều bài viết giải thích lí do tại sao tất cả các bàn luận về ngày tận thế là hoàn toàn vô căn cứ ( ví dụ như Snopes CNBC ). Thậm chí có một vài tờ báo ban đầu đưa ra một quan điểm phản đối kịch liệt về sự kiện này nhưng cuối cùng đã chỉnh sửa nội dung để giảm bớt sự phản đối ( tờ The Independent là một ví dụ ).

Vấn đề là các tin tức gây hoang mang như thế dễ lan truyền hơn bất cứ thứ gì. Cá nhân tôi cũng thấy tò mò rằng tại sao không có bài viết nào giải thích điều gì đang thực sự xảy ra theo cách mà mọi người đều hiểu. Tôi đã cố gắng giải thích điều này cho vài người bạn và cuối cùng quyết định viết nó ra. Có thể nó sẽ giúp mọi người không phải gặp ác mông về SKYNET. Tuy nhiên, mục đích của tôi là giúp mọi người hiểu – cho thấy được cách thức hoạt động của AI – hoàn toàn khách quan.

Facebook AI Research (FAIR)

Facebook đang thực sự hoạt động ra sao? Và làm thế nào để robot đã “gần như trở nên có ý thức”? Toàn bộ tài liệu về dự án này đã được công bố và luôn sẵn sàng cho cộng đồng. Bất cứ ai cũng có thể tải về và chạy AI này, cũng như tự quan sát ngôn ngữ mới. Chỉ cần cẩn thận và cho dừng hoạt động đúng lúc như các kĩ sư Facebook đã làm.

Hệ thống sẽ cố gắng mô phỏng lại hội thoại và cuộc thương lượng. Robots được cho một số vật dụng ( sách, mũ, bóng) và một số sở thích cho những món đồ mà nó muốn nhiều hơn. Sau đó nó phải đàm phán với đối tác, có thể là con người hoặc một robot khác, về cách phân chia vật phẩm giá trị.

Nghiên cứu được đưa ra cộng đồng vào tháng 6, bao gồm tất cả code và dữ liệu training được sử dụng để huấn luyện. Nếu bạn muốn biết chi tiết hơn, đọc bài báo chính thức sau hoặc tải code từ gifthub.

Cuối cùng, nó hoạt động như thế nào ? ( bằng ngôn ngữ đời thường )

Machine Learning tôi sẽ không làm bạn bối rối với các kiến thức chi tiết kĩ thuật, Nhưng cần phải hiểu rõ các nguyên lý cơ bản về cách thức công nghệ này hoạt động.

Khi phát triển một robot như thế, bạn bắt đầu với một thứ gọi là “tập dữ liệu training”. Nó bao gồm các ví dụ mô tả rõ ràng các hành vi mà robot đang cố gắng mô phỏng. Trong trường hợp cụ thể của Bot chat Facebook, bạn cho nó ví dụ về cuộc hội thoại thương lượng với toàn bộ hướng dẫn chính xác – trạng thái ban đầu là gì, sở thích của đối phương, điều gì sẽ nói, kết quả là gì,… Chương trình phân tích tất cả các ví dụ này, trích ra một vài điểm đặc biệt trong mỗi cuộc hội thoại, và gán một điểm số cho chúng, đại diện cho tần suất mà cuộc hội thoại với nét đặc trưng đó kết thúc trong kết quả tích cực. Để hiểu hơn về cụm từ “điểm đặc trưng“ (feature) , hãy nghĩ đến từ, cụm từ và câu. Trong thực tế, nó phức tạp hơn thế, nhưng như vậy là đủ để nắm được nguyên lý.

Cụ thể hơn, nếu robot muốn mũ, cụm từ “Bạn có thể có tất cả số mũ” sẽ cho một điểm số rất thấp bởi vì câu này kết thúc với một kết quả tệ trong các kịch bản từ dữ liệu training – người thương lượng không nhận được những gì mình muốn.

Diagram representing a sample dialog evaluation (Deal or No Deal? End-to-End Learning for Negotiation Dialogues, 2017)

Điều này về cơ bản sẽ giúp bạn làm được phiên bản AI đầu tiên của mình. Bây giờ nó đã nhận biết được những câu này có nhiều hay không khả năng nhận được một sự đồng thuận từ phía đối phương. Bạn có thể sử dụng nó để bắt đầu một cuộc hội thoại. Nó sẽ cố gắng tối đa hóa xác suất để cho ra một kết quả tích cực dựa trên số lượng thu thập trong giai đoạn training. Thuật ngữ AI cảm giác hơi khó chịu – nó là một thứ gì đó nhân tạo, nhưng không phải rất thông minh. Nó không hiểu ý nghĩa những gì nó nói. Nó có một tập hợp giới hạn các hộp thoại và chỉ chọn một số từ hoặc cụm từ dựa trên xác suất tính từ lịch sử hội thoại. Nó chỉ tính xác suất nhận được số tiền mong muốn của một chiếc mũ, quả bóng hoặc sách, và dựa trên đó nói với người dùng.

Tiếp theo sử dụng kỹ thuật gọi là học củng cố (reinforcement learning). Vì khả năng để cung cấp các dữ liệu training được hướng dẫn chính xác rất hạn chế, nên cần một cách khác cho AI học. Một trong những cách tiếp cận phổ biến là để cho AI tự chạy mô phỏng, và học hỏi từ kết quả đó. Trước khi giải thích điều này có ý nghĩa gì đối với trường hợp robot của Facebook, hãy bắt đầu với một AI khác.

AlphaGo

Google Deepmind AlphaGo là một chương trình nổi tiếng mà bạn đã nghe từ năm ngoái.  Đó là AI đầu tiên đánh bại một kỳ thủ cờ vây chuyên nghiệp. Và là một ví dụ hoàn hảo cho học củng cố.

AlphaGo bắt đầu học hỏi từ các trận đấu thực sự của con người. Nó phân tích và ghi lại từng bước di chuyển có thể dựa trên kiến ​​thức này. Điều này đã khiến AlphaGo có thể chơi, mặc dù không hoàn hảo – nó không hiểu trò chơi, nhưng nó đã có một cách để ghi lại những nước đi dựa trên những trận đấu đã phân tích trước đây.

Nhưng, Go khá dễ dàng để mô phỏng. Chúng tôi có một bộ quy tắc chính xác và có một mục tiêu hoàn hảo cho nó – để giành chiến thắng trong trận đấu. Vì vậy, chúng tôi tạo ra hai biến thể của AI như vậy và để cho nó chơi với chính nó. Với việc tận dụng được khả năng tính toán tuyệt vời nên nó có thể dễ dàng chơi hàng triệu trận đấu để tập luyện, nhiều hơn bất cứ tuyển thủ nào có thể. Sau đó, nó cập nhật xác suất chiến thắng cho mỗi lần di chuyển dựa trên tất cả các kết quả mô phỏng, ngày càng hoàn thiện hơn khi ghi lại được những nước đi tốt.

Tôi đang đơn giản hóa các khái niệm. Nếu bạn muốn tìm hiểu thêm về AlphaGo, hãy đọc bài viết này từ Christopher Burger. Hãy cố gắng rút ra điều này từ ví dụ AlphaGo. Học củng cố hoạt động rất hiệu quả (như đã được chứng minh bởi AlphaGo và nhiều người khác) nếu chúng ta có thể đáp ứng ba điều kiện:

  1. Một không gian được xác định rõ ràng cho các lựa chọn của AI. Trong trường hợp của AlphaGo, nó chỉ có thể thực hiện các nước di chuyển hợp lệ trong cờ vây.
  2. Một cách hay để ghi lại kết quả. Trong trường hợp của AlphaGo, chiến thắng là tốt, thất bại là không tốt.
  3. Một cách tốt để mô phỏng trạng thái và để AI học. Trong trường hợp này, chúng ta cho phép AI đấu với chính nó (nên là đấu với các phiên bản khác nhau vì nó dễ dàng học được điều gì đó mới nếu đối thủ khác với nó).

Quay trở lại với Facebook

Hãy nhìn lại vấn đề ban đầu, Facebook đã cố gắng tạo ra một con robot có thể thương lượng. Vậy làm thế nào nó phù hợp với ba điều kiện trên? Có một cách hoàn hảo để ghi lại kết quả vì có một giá trị được gán cho mỗi vật dụng là một phần của cuộc đàm phán. Nhờ đó chúng ta có thể một mô phỏng lại trạng thái và để AI học. Đó là chính xác những gì Facebook đã làm – để cho hai biến thể của robot thương lượng với nhau. Nhưng điểm cuối cùng có hơi chút khó khăn.

Không giống như các trận đấu của Alphago, không có bất kì một định nghĩa dễ dàng nào về tiếng Anh. Bộ dữ liệu training ban đầu bằng tiếng Anh, nhưng các điểm đặc trưng được trích ra chỉ là từ và cụm từ, và robot kết nối chúng lại với nhau dựa trên số điểm đại diện cho mức độ có thể nó sẽ giúp đạt được kết quả mong muốn.

Hai con robot không thực sự hiểu tiếng Anh đã kết thúc nói chuyện với nhau và học lẫn nhau. Cách tính toán sự thành công duy nhất của nó là nó phân phối sách, mũ và bóng ra sao?. Quy tắc duy nhất được đưa ra là hiện chữ trên màn hình. Nó bắt đầu nói tiếng Anh nhiều hơn hoặc ít hơn, nhưng nó lại học được từ những sai lầm của chính bản thân, mà không biết nó thực sự đã sai – dẫn đến kết quả mong muốn dưới dạng mũ, sách và bóng. Một số từ đã mất vì theo số liệu, nó đã không đóng góp để có một kết quả đàm phán tốt. Một vài chi tiết được cường điệu lên. Nếu nói rằng “Tôi muốn” cải thiện cơ hội nhận được một cái gì đó, thì tại sao chúng ta không nên nói nó nhiều lần, đúng không? Và một khi nó hoạt động, AI sẽ coi nó như một xác nhận rằng đây là một chiến lược phù hợp.

Nếu đó là học để chống lại loài người thì nó không hẳn là một vấn đề lớn, vì phía bên kia sẽ sử dụng đúng ngôn ngữ. Lúc này vấn đề thực sự là rất khó để chạy một số lượng lớn các mô phỏng để huấn luyện AI.

Như các kỹ sư của Facebook đã lưu ý, nó có thể đã hoạt động tốt hơn nếu chức năng cho điểm có thể tính luôn việc kiểm tra ngôn ngữ, chứ không chỉ là tổng giá trị các vật dụng nhận được sau khi thương lượng. Nhưng, mọi việc không như thế. Thực tế việc ngôn ngữ bị suy thoái không đáng để cảm thấy ngạc nhiên hay thú vị . Nó xảy ra với mọi nhà khoa học khi làm việc trên nhiều vấn đề, và tôi chắc chắn các kỹ sư Facebook thực sự mong chờ kết quả đó. Họ chỉ cần tắt các mô phỏng khi nó suy thoái quá nhiều, sau khi lặp đi lặp lại liên tục, và sau khi nó ngừng hiển thị các kết quả phù hợp.

Nhân tiện, nếu bạn đã đọc báo cáo về sự kiện này, ngoài cuộc nói chuyện vô nghĩa đã được chia sẻ trên internet, cũng có nhiều kết quả tốt. Các thử nghiệm đã hoạt động đúng như dự định, và tôi cho rằng nó khá thành công ở mức tổng quan.


This is not a new “more efficient” language that only AI understands as some journalists would lead you to believe. It is just a degenerate form of English after too many rounds of reinforcement learning.

Cuối cùng, nó không có gì đáng ngạc nhiên

Không có gì phải sợ, sốc hay thậm chí đáng lưu tâm. Chỉ là một ngày bình thường với một thí nghiệm khoa học bình thường. Và sau đó tất cả viễn cảnh tồi tệ nhất đã được đưa ra bởi các tờ báo về ngày tận thế. Tắt một bot chat khi nó không còn hiển thị những kết quả hợp lý thì nguy hiểm như thay một bóng đèn bị lỗi.

Techtalk via medium.com

CHIA SẺ