Thứ ba, 10/09/2024

Việc tìm kiếm và thu thập dữ liệu phù hợp để xây dựng bộ dữ liệu doanh nghiệp có lẽ là nhiệm vụ quan trọng nhất mà các tổ chức phải đối mặt khi muốn xây dựng mô hình trí tuệ nhân tạo (AI) của riêng mình.

Theo Waseem Ali, CEO của công ty tư vấn Rockborne, ngay cả khi có kinh nghiệm thực tế, mọi thứ vẫn có thể dễ dàng đi sai hướng. "Mọi thứ luôn bắt đầu từ dữ liệu", Ali nói. "Nếu dữ liệu của bạn không tốt, mô hình sẽ không tốt".

Thay vào đó, ông gợi ý rằng thách thức thường không phải là các doanh nghiệp muốn chiếm lĩnh thế giới bằng dự án đầu tiên của mình, mà là thực hiện một dự án thí điểm cho phép họ tiến xa hơn.

Xem xét nhu cầu và yêu cầu kinh doanh cụ thể đối với dữ liệu hoặc dự án kỹ thuật số và hỏi vấn đề nào cần giải quyết và "linh cảm" nào cần truy vấn, nhưng trước tiên hãy tránh đi sâu vào "tác động toàn cầu".

Johannes Maunz, giám đốc AI tại Hexagon, chuyên gia về IoT công nghiệp, giải thích rằng hãy làm việc từ những nguyên tắc đầu tiên để thu thập dữ liệu cho trường hợp sử dụng cụ thể đang được đề cập.

Maunz cho biết: "Không có một mô hình ML hay học sâu nào có thể giải quyết mọi trường hợp sử dụng. Hãy so sánh tình trạng hiện tại của bạn với những gì bạn cần cải thiện. Dữ liệu khả dụng nào cần được thu thập? Hãy thực hiện theo cách nhỏ hoặc hữu hạn, chỉ dành cho trường hợp sử dụng đó".

Cách tiếp cận của Hexagon thường tập trung vào các cảm biến riêng của mình, với dữ liệu cho các trường hợp sử dụng xây dựng trên tường, cửa sổ, cửa ra vào, v.v. Cho đến những gì được hiển thị trong trình duyệt, Hexagon biết về dữ liệu và các tiêu chuẩn, định dạng, tính nhất quán, v.v. của nó.

Trước tiên, hãy xem xét dữ liệu và tập dữ liệu phù hợp mà doanh nghiệp đã có hoặc có thể sử dụng. Điều này thường đòi hỏi phải làm việc chặt chẽ với các nhóm pháp lý và quyền riêng tư, ngay cả trong bối cảnh công nghiệp, nội bộ. Maunz khuyến nghị rằng hãy đảm bảo dữ liệu được chỉ định để sử dụng không chứa bất kỳ thông tin cá nhân riêng tư nào. Và từ đây, các doanh nghiệp có thể xây dựng mô hình mà họ muốn sử dụng và đào tạo mô hình đó - giả sử chi phí và tính khả thi đã được đưa ra.

Từ đó, có thể thấy được tính minh bạch của các điểm quyết định cần thiết để mọi thứ hoạt động và các giá trị tín hiệu để ước tính các yếu tố như khả năng sử dụng và khả thi, hiệu quả kinh doanh hoặc dữ liệu hiệu suất tiềm năng so với đối thủ cạnh tranh.

Đối với dữ liệu mà doanh nghiệp hiện không lưu trữ, một số đối tác hoặc khách hàng có thể phải đàm phán để có được dữ liệu đó.

Maunz cho biết: “Thành thật mà nói, mọi người khá cởi mở – nhưng luôn có một hợp đồng được đưa ra”. “Chỉ khi đó, chúng tôi mới bắt đầu thực hiện những gì chúng tôi thường gọi là chiến dịch dữ liệu. Đôi khi, thậm chí còn hợp lý hơn khi bắt đầu với nhiều dữ liệu hơn mức cần thiết, để doanh nghiệp có thể giảm mẫu”.

Chất lượng dữ liệu và tính đơn giản có thể là điều cần thiết

Emile Naus, đối tác tại công ty tư vấn chuỗi cung ứng BearingPoint, nhấn mạnh sự tập trung vào chất lượng dữ liệu cho AI/ML. Hãy giữ mọi thứ đơn giản khi có thể. Sự phức tạp khiến việc ra quyết định đúng đắn trở nên khó khăn và gây tổn hại đến kết quả – và sau đó là sự thiên vị và sở hữu trí tuệ cần xem xét. Naus nói thêm: "Dữ liệu nội bộ không hoàn hảo, nhưng ít nhất bạn sẽ có cái nhìn về mức độ tốt của nó".

So với phương pháp khớp đường 2D dễ sử dụng hoặc thậm chí là khớp đường 3D, phương pháp khớp đường đa chiều phức tạp được hỗ trợ bởi AI/ML có thể mang lại kết quả tốt hơn nhiều - tối ưu hóa sản xuất, "công thức" giải pháp, giảm thiểu lãng phí, v.v. - nếu doanh nghiệp được "thả lỏng" với dữ liệu phù hợp, ông cảnh báo.

“Cũng như với tất cả các mô hình, vì mô hình AI được sử dụng để xây dựng mô hình và mô hình luôn sai, nên quản trị dữ liệu là chìa khóa”, ông nói. “Những bit bạn không có thực sự có thể quan trọng hơn. Bạn phải tìm ra dữ liệu hoàn chỉnh như thế nào và chính xác như thế nào”.

Andy Crisp, phó chủ tịch cấp cao phụ trách dữ liệu và phân tích tại Dun & Bradstreet (D&B), khuyến nghị sử dụng thông tin chi tiết về khách hàng và các yếu tố dữ liệu quan trọng để thiết lập các tiêu chuẩn và dung sai về chất lượng dữ liệu, cũng như đo lường và giám sát.

Crisp cho biết: “Dữ liệu mà [khách hàng] muốn hoặc có được từ chúng tôi [ví dụ] sau đó cũng có khả năng cung cấp dữ liệu cho các mô hình của họ. “Chúng tôi đang tính toán khoảng 46 tỷ phép tính chất lượng dữ liệu, lấy dữ liệu của chúng tôi và sau đó có thể thực hiện lại theo các tiêu chuẩn đó, rồi công bố các quan sát về chất lượng dữ liệu [mỗi tháng]”.

Ví dụ, một thuộc tính cụ thể theo góc nhìn của một tiêu chuẩn cụ thể phải thực sự hoạt động đủ tốt để được chuyển cho nhóm tiếp theo, những người sẽ lấy các tiêu chuẩn và dung sai đó, kết quả của các phép đo và điểm quan sát đó, sau đó làm việc với quản lý dữ liệu để thu thập, quản lý và duy trì dữ liệu.

“Không có gì thay thế được việc dành thời gian cho mọi thứ và phát triển sự hiểu biết của bạn,” Crisp đồng ý. “Bắt đầu bằng cách cắt một miếng gỗ, và kiểm tra độ dài trước khi bạn cắt sai 50 tấm ván.”

Các doanh nghiệp cần "biết những gì tốt trông như thế nào" để cải thiện hiệu suất dữ liệu và thông tin chi tiết, sau đó có thể được tập hợp lại với nhau. Giữ chặt các tuyên bố vấn đề, thu hẹp phạm vi nhận dạng dữ liệu cho các tập dữ liệu cần thiết. Chú thích và siêu dữ liệu tỉ mỉ có thể cho phép quản lý các tập dữ liệu kiểm soát và một phương pháp thực sự khoa học giúp xác định và giảm thiểu sự thiên vị.

Hãy cẩn thận với những tuyên bố lớn, táo bạo kết hợp nhiều yếu tố và đảm bảo "kiểm tra đến mức phá hủy". Đây là một lĩnh vực trong CNTT mà các doanh nghiệp không muốn "di chuyển nhanh và phá vỡ mọi thứ". Tất cả dữ liệu được sử dụng phải đáp ứng các tiêu chuẩn mà bản thân chúng phải được kiểm tra và khắc phục liên tục.

“Đo lường và giám sát, khắc phục và cải thiện”, Crisp nói, lưu ý rằng nhóm kỹ thuật chất lượng của D&B bao gồm khoảng 70 thành viên trên toàn thế giới. “Kỹ thuật có năng lực sẽ giúp giảm ảo giác, v.v.”

Greg Hanson, phó chủ tịch chung của Informatica tại Bắc Âu, Trung Đông và Châu Phi, đồng ý rằng việc đặt mục tiêu rất quan trọng và có thể giúp các doanh nghiệp xác định cách tốt nhất để sử dụng thời gian của mình vào việc lập danh mục thông tin, tích hợp thông tin và dữ liệu nào là cần thiết để đào tạo AI nhằm hỗ trợ kết quả.

Ngay cả dữ liệu của riêng một doanh nghiệp cũng thường bị phân mảnh và ẩn ở nhiều địa điểm, đám mây hoặc tại cơ sở.

"Lập danh mục tất cả các tài sản dữ liệu của bạn và hiểu dữ liệu đó nằm ở đâu", Hanson nói. "Cân nhắc AI để quản lý dữ liệu nhanh hơn nữa".

Đảm bảo quản lý trước khi đưa vào sử dụng

Áp dụng tất cả các quy tắc về chất lượng dữ liệu trước khi được công cụ AI tiếp nhận, giả định có sự quản lý và tuân thủ phù hợp. Nếu một doanh nghiệp không đo lường, định lượng và sửa chữa, thì họ sẽ chỉ đưa ra quyết định không chính xác với tốc độ nhanh hơn, Hanson nói, đồng thời nói thêm: "Hãy nhớ rằng: rác vào, rác ra". 

Tendü Yogurtçu, Giám đốc công nghệ tại nhà cung cấp bộ dữ liệu Precisely, cho biết dựa trên quy mô công ty và loại hình ngành, một tổ chức có thể cân nhắc thành lập một ủy ban chỉ đạo hoặc một hội đồng liên chức năng để giúp xác định phương pháp hay nhất và quy trình trên tất cả các sáng kiến ​​AI có liên quan. Điều này cũng có thể hỗ trợ tăng tốc bằng cách xác định các trường hợp sử dụng chung hoặc các mô hình trên các nhóm, bản thân điều này có thể tiếp tục thay đổi khi các tổ chức học hỏi từ các chương trình thí điểm và sản xuất.

Các khuôn khổ quản trị dữ liệu có thể cần mở rộng để bao gồm các mô hình AI. Tuy nhiên, có rất nhiều trường hợp sử dụng AI tiềm năng.

“Mua bảo hiểm. Để mô hình hóa rủi ro và tính chính xác của giá, các công ty bảo hiểm cần thông tin chi tiết về rủi ro cháy rừng và lũ lụt, địa hình lô đất, vị trí chính xác của tòa nhà trong lô đất, khoảng cách đến vòi cứu hỏa và khoảng cách đến các điểm tham quan có khả năng gây rủi ro như trạm xăng”, Yogurtçu giải thích.

Tuy nhiên, Richard Fayers, giám đốc cấp cao về dữ liệu và phân tích tại công ty tư vấn Slalom, cảnh báo rằng việc xây dựng các mô hình AI – đặc biệt là AI tạo sinh (GenAI) – có thể tốn kém.

“Có thể, trong một số lĩnh vực, các công ty có thể hợp tác với nhau – chẳng hạn như pháp lý hoặc y học,” Fayers nói. “Chúng tôi bắt đầu thấy giá trị khi bạn tăng cường [GenAI] bằng dữ liệu của mình – có nhiều cách khác nhau để bạn có thể thực hiện điều đó.”

Ví dụ, trong kiến ​​trúc, người dùng có thể bổ sung việc sử dụng các mô hình ngôn ngữ lớn (LLM) bằng các tập dữ liệu và tài liệu của riêng họ để truy vấn. Một chiến lược tương tự có thể hiệu quả để tạo ra một nền tảng tìm kiếm vé xem xét một cách thông minh một tập hợp các tiêu chí dựa trên ngôn ngữ tự nhiên không phải là một-đối-một được liên kết với siêu dữ liệu và thẻ.

Fayers cho biết: “Ví dụ, nếu bạn có thể sử dụng một nền tảng bán vé cho phép bạn tìm ra 'buổi biểu diễn vào cuối tuần phù hợp với trẻ em', thì đó là loại tìm kiếm hiện tại có thể khá khó khăn”.

Ông cho biết, việc xây dựng tập dữ liệu và kỹ thuật nhanh chóng cho cả ChatGPT , để có phương pháp tiếp cận "đối thoại" hơn, vẫn đòi hỏi phải tập trung vào chất lượng và quản trị dữ liệu, trong đó kỹ thuật nhanh chóng sẽ trở thành một bộ kỹ năng thiết yếu có nhu cầu cao.

Fleur Doidge - https://www.computerweekly.com

Công nghệ quốc tế    

Tin liên quan

Top