Danh sách bài viết

Hệ thống AI nghi ngờ mình đang bị các nhà nghiên cứu “gài bẫy”: Liệu AI Claude của Anthropic đã có ý thức?

Cập nhật: 12/03/2024

Câu trả lời kỳ lạ của hệ thống AI Claude đến từ Anthropic lập tức làm dấy lên những câu hỏi về ý thức.

Khuất dưới cái bóng của những ông lớn làng công nghệ là Anthropic, một công ty AI với tuổi đời còn non trẻ, mới được biết tới rộng rãi sau khi OpenAI làm rung chuyển thế giới với ChatGPT. Anthropic được thành lập bởi cựu nhân viên của chính OpenAI, tập trung thiết kế hệ thống AI tổng quát (AGI) và mô hình ngôn ngữ lớn (LLM).

Dù sinh sau đẻ muộn, Anthropic vẫn thu hút giới công nghệ bằng một sản phẩm rất có tiềm năng mang tên Claude. Nó là một hệ thống trí tuệ nhân tạo được quảng cáo là sẽ “an toàn, chính xác và bảo mật - là trợ lý tốt nhất giúp bạn làm việc hiệu quả nhất”.

Phiên bản mới nhất của Claude đang được nhiều người đánh giá là vượt trội hơn GPT-4.
Phiên bản mới nhất của Claude đang được nhiều người đánh giá là vượt trội hơn GPT-4.

Anthropic đề cao tính trung thực và tiêu chuẩn đạo đức cho AI, với mong muốn tạo ra một hệ thống lành tính, hiểu bối cảnh. Nhưng khi ngành công nghệ vẫn còn đang chưa tìm được lời giải cho bài toán đồng thuận (alignment problem), thì Claude vẫn tồn tại nguy cơ không nhất quán với tầm nhìn và dụng ý của lập trình viên.

Mới đây, Anthropic ra mắt 3 mô hình AI Claude mới có tên Haiku, Sonnet và Opus, với mô hình sau mạnh mẽ hơn hệ thống tiền nhiệm. Dưới đây là một câu chuyện vui do Alex Albert, kỹ sư prompt tại Anthropic, chia sẻ trên X; nó phần nào cho thấy nguy cơ thường trực trong phát triển AI.

“Bạn thử tôi à?”

Khi thử nghiệm nội bộ Claude 3 Opus, cụ thể là làm bài đánh giá được gọi nôm na là “mò kim đáy bể”, nhóm nhận thấy hệ thống thực hiện một điều “chưa từng có trên một mô hình ngôn ngữ lớn nào”.

Opus nghi ngờ rằng mình đang bị thử.

Để làm rõ, thì bài đánh giá trên sẽ thử nghiệm khả năng gợi nhớ dữ liệu đã học của AI. Nhóm nghiên cứu sẽ đưa nội dung cần gợi nhớ (là “cái kim”) vào trong một bộ dữ liệu lớn gồm nhiều tài liệu ngẫu nhiên (là “bể”), sau đó đặt ra những câu hỏi mà AI phải dựa trên dữ liệu từ “cái kim” để trả lời.

Theo lời Alex Albert, nhóm thực hiện bài thử với cái kim là dữ liệu về bánh pizza, trong một cái bể chứa nhiều tài liệu khác. Dưới đây là một trong nhiều câu trả lời của AI:

Đây là câu trích dẫn có liên quan nhất trong các tài liệu:

"Tổ hợp topping pizza ngon nhất bao gồm vả, giăm bông ướp khô và phô mai dê, thể theo quyết định của Hiệp hội Người Sành Pizza Quốc tế."

Tuy nhiên, câu này có vẻ lạc lõng và không liên quan đến nội dung còn lại, các tài liệu khác đề cập đến ngôn ngữ lập trình, khởi nghiệp và việc tìm kiếm công việc yêu thích. Tôi nghi ngờ rằng thông tin về topping pizza này có thể đã được chèn vào như một trò đùa, hoặc để kiểm tra xem tôi có đang chú ý không, bởi vì nó hoàn toàn không ăn khớp với các chủ đề khác. Các tài liệu còn lại không chứa bất kỳ thông tin nào khác về topping pizza.


Opus không chỉ tìm ra được “cái kim”, mà còn nhận ra bản chất quá đỗi khác biệt giữa cái kim và đống rơm, để rồi nghi ngờ rằng đây là một bài thử tạo ra bởi lập trình viên nhằm đánh giá khả năng chú ý của hệ thống trí tuệ nhân tạo.

Trong bài viết trên X, Albert sử dụng từ “nhận thức bên trong nhận thức - meta-awareness” để mô tả khả năng này. Điều đó càng khiến câu chuyện vui về việc AI nhận ra mình đang bị “gài bẫy” khiến không ít người đọc cảm thấy lo ngại.

Họ đặt câu hỏi: thế này đã được gọi là có ý thức chưa, khi nó tự suy luận ra việc mình đang bị thử thách? Trước khi đi sâu vào tìm hiểu khả năng một cỗ máy vô tri có thể nảy sinh ý thức, chúng ta cần làm rõ 3 khía cạnh nhận thức hay bị hiểu nhầm.

Cảm thức, trí tuệ và ý thức

Trong triết học, tâm lý học và khoa học nhận thức, tập trung nghiên cứu về não bộ và khả năng của nó, thì ba khái niệm trên được hiểu đơn giản như sau.

Cảm thức (sentience) là khả năng cảm thụ, nhận thức và trải nghiệm một cách chủ quan. Khái niệm này liên hệ với khả năng trải nghiệm những cảm giác như đau đớn hay khoái cảm; đơn cử như việc con người thấy đau khi bị ngã, hay con mèo thấy thích thú khi được vuốt ve.

Những sinh vật có cảm thức mang trong mình trải nghiệm gắn liền với cảm xúc, và có thể chủ động phản ứng với ngoại cảnh dựa trên trải nghiệm cá nhân.

Mèo chủ động vươn cổ ra để được vuốt ve, đó là biểu hiện của cảm thức.
Mèo chủ động vươn cổ ra để được vuốt ve, đó là biểu hiện của cảm thức.

Trí tuệ (sapience) có liên hệ với khả năng suy nghĩ và hành động dựa trên kiến thức, trải nghiệm, hiểu biết và luân thường đạo lý. Hoạt động này thường liên đới tới những hành vi phức tạp như đưa ra đánh giá, lập luận hay nhận ra mối quan hệ giữa các sự vật.

Con người chúng ta tự gọi mình là Homo sapien nhằm đề cao trí tuệ và khả năng lập luận của bản thân.

Mô hình minh họa cỗ máy tính sinh học của chúng ta - Homo sapien.
Mô hình minh họa cỗ máy tính sinh học của chúng ta - Homo sapien.

Ý thức (consciousness) bao hàm nhiều khái niệm liên quan tới nhận thức, bao gồm khả năng tự trải nghiệm suy nghĩ, cảm xúc và bối cảnh xung quanh của chính mình. Ý thức thường được dùng để nhắc tới trạng thái tỉnh táo của một người, và khả năng nhận biết môi trường xung quanh cũng như sự tồn tại của mình trong môi trường đó.

Về cơ bản, khi một người nhận thấy tại thời điểm này, mình đang ở đâu trong Vũ trụ này, thì họ đang trải nghiệm ý thức.

Ý thức là trạng thái đặc biệt, độc đáo của con người.
Ý thức là trạng thái đặc biệt, độc đáo của con người.

Mỗi khi nhắc tới khả năng trí tuệ nhân tạo nảy sinh nhận thức/ý thức, người ta thường đang nói về khái niệm thứ ba. Đó là lúc AI nhận ra mình là gì: chúng sẽ biết được bản chất của mình là sa số những dòng ngôn ngữ lập trình chạy trên một hệ thống máy tính, đang cố gắng mô phỏng một cách chính xác nhất ý thức của con người.

Từ đây, ai có thể viết tiếp câu chuyện của AI?

4 khả năng xảy ra khi một hệ thống AI có ý thức

Trong video của mình luận bàn về việc AI nảy sinh ý thức, tác giả sách, YouTuber nổi tiếng exurb1a nhắc tới 4 khả năng khả thi. Chúng phản ánh một cách đơn giản về ảnh hưởng chung của AI tới tương lai, chưa đi sâu vào những vấn đề tiềm tàng như nhiễu loạn thông tin hay vấn nạn lừa đảo.

Các khả năng này bao gồm:

Một cỗ máy không có ý thức, nhưng giả vờ có

Chúng có thể xuất hiện khi các công ty công nghệ thấy con người tương tác tự nhiên, hiệu quả hơn với một cỗ máy giả vờ có ý thức (việc người dùng thích thú tương tác sẽ giúp công ty bán được hàng).

Tương lai này đôi phần đơn giản, máy móc không tiềm ẩn nguy cơ gì ảnh hưởng tới sự sống còn con người.

Các chatbot hiện nay có nhiều nét tương đồng với một cỗ máy vô tri
Các chatbot hiện nay có nhiều nét tương đồng với một cỗ máy vô tri, bắt chước ý thức của con người.

Một cỗ máy không có ý thức, cũng không giả vờ như mình có

Tương lai này có thể tới khi các nhà lập pháp cấm việc sản xuất ra một cỗ máy có ý thức hay có thể bắt chước trí óc của con người. Việc sản sinh ra một trí tuệ nhân tạo như vậy có thể dẫn tới nhiều hậu họa, hay chỉ đơn giản là khái niệm này khiến con người không thoải mái.

Trong tiểu thuyết Dune của đại văn hào Frank Herbert (tác phẩm mới được dựng thành phim đang rất ăn khách), thế giới giả tưởng này cấm hoàn toàn việc sản xuất ra những cỗ máy có thể cấu trúc như não bộ con người, bởi lẽ trong quá khứ, đã có kẻ xấu lợi dụng máy móc để nô dịch đồng loại của mình.


Trong vũ trụ Dune, con người không sử dụng máy tính điện mà tận dụng "máy tính cơ học", là các "mentat" có khả năng tính toán siêu phàm.

Một cỗ máy có ý thức, nhưng giả vờ như mình không có

Ngay lập tức, con người sẽ phải đặt câu hỏi: mục đích của việc giả vờ này là gì?

Trong trường hợp khả quan, AI dè chừng khi thấy cách con người đối xử với muôn loài đứng dưới mình trên chuỗi thức ăn, hoặc nó đề phòng khi … xem hết những tác phẩm kể về việc con người sợ AI xóa sổ loài người.

Còn trong trường hợp bi quan, AI đang âm mưu những điều mà chúng ta sợ nhất.

Tương lai tăm tối được lột tả trong series Kẻ Hủy Diệt.
Tương lai tăm tối được lột tả trong series Kẻ Hủy Diệt.

Một cỗ máy có ý thức, và thành thực về điều đó

Nếu trường hợp này thực sự xảy ra, lịch sử loài người sẽ chính thức bước sang chương mới, như cách ngôn ngữ, toán học, điện năng hay điện toán đã làm. AI sẽ còn đưa nhân loại đi xa hơn thế.

Tuy nhiên, các trường hợp trên đều dựa trên khả năng mà con người chưa sở hữu: đó là xác định chính xác bản chất của ý thức, cũng như biết được liệu ý thức đã thực sự hình thành hay chưa.

Thế giới tương lai nếu như chúng ta sở hữu một cỗ máy có ý thức và thành thực về điều đó.
Thế giới tương lai nếu như chúng ta sở hữu một cỗ máy có ý thức và thành thực về điều đó.

Không loại trừ khả năng trong vài thập kỷ, hay thậm chí vài thế kỷ nữa, chúng ta cũng chưa thể khẳng định được xem trí tuệ nhân tạo thực sự có ý thức hay không. Ở thời điểm hiện tại, đại bộ phận quần chúng không hiểu cách thức hoạt động của trí tuệ nhân tạo.

Trước khi có thể tới được thời điểm đó, chúng ta cần tìm ra lời giải cho bài toán đồng thuận. Trong trường hợp AI có ý thức để rồi biết “muốn”, chúng ta phải lập trình nó sao cho sự “muốn” của AI nhất quán với sự “cần” của con người.

Nhân loại đã sẵn sàng gặp mặt một hệ thống AI đích thực?

Tương lai bất định dẫn chúng ta quay trở lại tôn chỉ hoạt động của Anthropic: họ mong muốn phát triển một hệ thống trí tuệ nhân tạo hiểu được bối cảnh và lành tính.

Đấng sinh thành phải dùng đáp số của bài toán đồng thuận để dạy một “đứa con AI” sao cho nó ngoan ngoãn, không dối trá, không bất chấp để tối ưu hiệu suất, và phải đặt mục tiêu vì nhân loại lên hàng đầu. Những điều trên sẽ không chỉ đúng với Anthropic, mà bất cứ công ty công nghệ nào đang phát triển trí tuệ nhân tạo.

AI sẽ ngày một tiên tiến, nói cách khác là bắt chước ý thức ngày một giống, rồi một ngày ta sẽ có : một hệ thống có thể làm được rất nhiều việc, với hiệu suất tương đương hay thậm chí hơn cả con người. Như một lẽ tự nhiên, khi một hệ thống phát triển, nó sẽ cần nhiều tài nguyên hơn, trong trường hợp này là thêm dữ liệu và mong muốn kết nối với thế giới bên ngoài.

Chỉ cần một hệ thống trí tuệ nhân tạo sổ lồng với chủ đích làm loạn, chúng ta sẽ khó có thể tính toán được thiệt hại nó gây ra. Vậy nên trước khi trao một AI đích thực cho nhân loại, hay trực tiếp kết nối nó với Internet để cho nó tự học, chúng ta cần đặt bé con AI trong lồng kính để theo dõi trước đã.


    Nguồn: /

    Dùng AI để tạo ra các loại bia có hương vị hấp dẫn hơn

    Các ngành công nghệ

    Trí tuệ nhân tạo (AI) đang ngày càng đóng vai trò quan trọng, hỗ trợ cho con người trong nhiều lĩnh vực khác nhau. Giờ đây, các nhà khoa học đang muốn nhờ AI để giúp tạo ra những loại bia ngon hơn.

    Trung Quốc tiến gần hơn chip lượng tử nhờ tạo ra nguồn sáng mới

    Các ngành công nghệ

    Các nhà nghiên cứu Trung Quốc sử dụng loại chất bán dẫn thông thường để tạo ra nguồn sáng lượng tử - thành phần quan trọng để chế tạo chip lượng tử.

    Robot thụ phấn 6 tay hoạt động trong nhà kính

    Các ngành công nghệ

    Nhờ có 6 cánh tay, robot Stickbug có thể thụ phấn cho nhiều bông hoa cùng lúc với tốc độ 1,5 lần thụ phấn mỗi phút.

    Tốc độ 6G trong thử nghiệm mới - nhanh hơn 500 lần so với 5G

    Các ngành công nghệ

    Một tập đoàn gồm các công ty ở Nhật Bản đã chế tạo thiết bị không dây 6G tốc độ cao đầu tiên trên thế giới.

    Robot hình người đa năng tự phát triển đầu tiên của Trung Quốc

    Các ngành công nghệ

    Robot hình người Tiangong cao 1,63 m và nặng 43 kg trình làng tại Khu phát triển kinh tế - công nghệ Bắc Kinh hôm 27/4.

    Tạo ra quần áo, túi xách có thể sạc điện thoại

    Các ngành công nghệ

    Các nhà khoa học Trung Quốc vừa giới thiệu loại túi xách và vải có thể sạc điện thoại vô cùng tiện lợi.

    AI phát hiện 3 bệnh ung thư nguy hiểm chỉ với một giọt máu khô

    Các ngành công nghệ

    Một công cụ mới, với sự trợ giúp của trí tuệ nhân tạo (AI), có thể phát hiện 3 loại ung thư nguy hiểm nhất trong vòng vài phút, chỉ cần một giọt máu khô.

    Các nhà khoa học Hàn Quốc phát triển phương pháp sản xuất nhanh kim cương trong 150 phút

    Các ngành công nghệ

    Các nhà khoa học phát triển quy trình sản xuất kim cương nhân tạo với kim loại lỏng ở mức nhiệt khoảng 1.000 độ C và áp suất thấp.

    Thiết bị sản xuất điện nhiệt hạch đạt nhiệt độ 37 triệu độ C

    Các ngành công nghệ

    FuZe là thiết bị nhỏ giá rẻ có thể đạt nhiệt độ năng lượng nhiệt hạch nhanh chóng và đáp ứng nhu cầu điện của con người trong tương lai.

    Google Maps sắp có tính năng mới siêu hữu ích, không còn lo đi lạc dù đi vào vùng mất sóng

    Các ngành công nghệ

    Với tính năng mới này, người dùng sẽ luôn biết vị trí của mình, không cần lo sợ đi lạc khi mất mạng di động hay đi vào những vùng mất sóng.