主页 > imtoken网址 > 【金猿人物展】龙影智达首席数据科学家王彦博:量子技术为AI大数据创新发展注入新动力

【金猿人物展】龙影智达首席数据科学家王彦博:量子技术为AI大数据创新发展注入新动力

imtoken网址 2023-07-07 05:25:23

1d0dca39c66f9b3827b02ef32af9e003.png

4c3af3d9d7cb55ad6a5abab1f815c6f4.png

王彦波

本文由龙盈智达首席数据科学家王彦博撰写,为参与“数据猿年度金猿策划活动——2022大数据行业趋势人物榜单及奖项”评选投稿。

30c2d2e0fd1dbd75777fec29f6d9cbda.png

‍数据智能行业创新服务媒体

——聚焦数智,改变商业

回顾2022年大数据产业的发展,最令人感动的是数字经济时代对“数据安全”和“数据智能”的“盾牌”和“长矛”提出了更高的要求,推动隐私计算、小样本学习等新兴数字技术加速发展。

数据安全和隐私保护上升到国家立法层面,隐私计算发展恰逢其时

当前,“数字中国”战略正在深入推进,数字经济已成为拉动中国经济发展的重要引擎。 国家“十四五”规划明确,要加快数字经济、数字社会、数字政府建设,以数字化转型带动生产方式、生活方式和治理方式转变,统筹推进数字化转型。打造我国数字经济新优势。 随着数据生产要素重要性和价值的激增,全球范围内发生了各种以数据为攻击和窃取对象的数据安全事件和个人信息侵权事件,直接危害国家安全、社会稳定、经济发展和个人利益。

数据安全是数字经济发展的基石,保障数据安全的能力是国家竞争力的直接体现,是促进数字经济健康发展、提升治理能力的重要前提。 我国《数据安全法》和《个人信息保护法》将分别于2021年9月1日和2021年11月1日正式实施,2022年将是两法实施的元年。 、各行业监管和标准制定部门颁布或修订配套法律法规,开展专项检查行动,制定各类标准和指导意见,如:《关键信息基础设施安全保护条例》、《网络安全审查办法》《网络《数据安全管理规定(征求意见稿)》、《数据出境安全评估办法》、《个人信息出境标准合同规范规定(征求意见稿)》等。

今年以来,各行业企业在数据安全和个人信息保护方面的合规投入,开始逐步从制度规范体系建设转向数字化、自动化技术工具的研发和建设。 新兴数字技术广泛应用于数据和个人信息领域。 在信息保护过程中。 其中,隐私计算是一项“明星技术”,可以实现对数据“可用、不可见”的操作和处理。 围绕数据安全和隐私保护话题,一个值得关注的问题是将“可用性和不可见性”拆解为“可用性”、“可见性”和“可用性”,关注“可见性”和“可用性”的各种组合场景,详述隐私计算和一系列相关数字技术(包括敏感信息分级分类、自然语言处理、多方安全计算、联邦学习、可信执行环境、数据虚拟化等技术)。 针对不同的场景,对应的数字化技术总结如下:

1. 数据可见性和数据可用性:在这种场景下,需要使用敏感信息分类分级相关的技术。 为数据提供必要的安全保护的前提和基础是在对数据进行标识、分类、分级的基础上,对数据进行安全属性标注,并部署合理、适当的加密、脱敏、防泄露等保护措施。 针对数据分级分类难题,一方面,国家法规和行业标准制定了分类分类策略和标准,另一方面,企业和组织结合技术手段和配套工具,对数据分级分类进行管理。在实施过程中,切实落实数据分级分类管理和保护义务。

这里值得进一步关注的技术包括:结构化数据的分类、分级和标签管理往往在企业数据资产管理平台上进行; 半监督学习和自监督学习等技术可以更好地发挥作用; 除结构化数据外,非结构化和半结构化数据还应利用自然语言处理、知识图谱等相关技术,对敏感信息进行归类分类和基于监督学习的自动标注和智能识别。 此外,研究表明,量子计算可以有效促进机器学习、自然语言处理等智能技术的发展。

2. 数据不可见,数据可用:在该场景下,需要使用数据去标识化、多方安全计算等相关技术。 数据去标识化是个人信息保护中最常用的技术之一,是指对个人信息进行处理,使其在不附加信息的情况下无法识别特定自然人的过程。 《个人信息保护法》第五十一条提出,个人信息处理者应当采取加密、去标识化等安全技术措施保护个人信息。 常用的数据去标识化技术包括统计技术、抑制技术、假名化技术、泛化技术、差分隐私算法和密文学习技术。 数据去标识化技术是一种在一定条件下的匿名化技术,使个人数据在不被识别和泄露的前提下可用于数据传输、数据分析、数据挖掘等任务,为海量个人数据提供巨大价值. 一种合规的方式。

多方安全计算是近年来国内外广泛关注的一种隐私计算技术。 它主要利用密码学的一些重要技术成果,在不泄露原始明文数据的情况下,实现数据应用的价值,解决数据流通和共享中的安全问题。 保密问题。 多方安全计算涵盖同态加密、秘密共享、无意传输、混淆电路、零知识证明等技术。 其中,同态加密技术可以对原始明文数据进行加密,然后对密文数据进行四次算术运算,再对密文数据下得到的计算结果进行解密,从而得到与四次算术运算一致的结果,直接对明文数据。 计算结果; 并且秘密共享技术还可以基于数理逻辑对明文数据进行混淆处理,进而进行多方数据交换,从而达到多方数据汇总计算等应用效果。 多方安全计算支持在没有可信第三方的情况下保护每个参与者输入数据的隐私和计算结果的准确性。

这里值得进一步关注的是,随着近年来量子计算领域的快速发展,以RSA为代表的非对称加密算法面临着被破解的风险,而RSA也是一种同态加密算法。 基于格密码体系的反量子密码方案有望使同态加密技术在量子技术时代仍然具有重要的应用价值; 此外,与后量子密码学并行的量子安全通信技术也值得关注; 此外,还有研究表明,量子秘密共享方案可以为量子态秘密的安全提供有效路径。

3. Data is invisible & data is not available:该场景的代表技术是联邦学习。 与主要用于进行多方数据聚合和计算的同态加密和秘密共享不同,联邦学习旨在与多方合作构建机器学习模型比特币是大数据技术吗,实现智能预测和识别应用。 该技术是机器学习模型多方协同训练的新范式。 最初的联邦学习框架是从机器学习本身的技术层面来思考信息流的传递,从数据库中保护原始数据。 随着联邦学习技术的发展,对联邦学习提出了更高的安全要求,不仅需要保护原始数据,还需要进一步保护中间交互的参数,以提高系统安全性。 在进行基于联邦学习的智能建模时,每个参与者根据自己的本地数据训练一个本地模型,然后通过参数交换和聚合操作得到一个全局模型; 在这个过程中,用户数据始终存储在本地,不向外发送,这在很大程度上解决了一些机构的数据安全顾虑,实现了数据“可用、不可见、不可用”。 在保障隐私、安全和监管的要求下,人工智能系统可以更高效、更准确地使用数据,打破“数据壁垒”。 ”并连接到“数据孤岛”。

这里值得进一步关注的是,联邦学习实际上解决的是在数据样本、数据特征或数据标注信息的约束下,实现机器学习模型在数据的一侧的可用性问题,因此其他有助于解决问题的方法,如作为小样本学习的新兴技术思路也值得关注; 此外,基于量子计算的联邦学习技术也是值得关注的新兴技术方向。

4.适度可见数据&不可用数据:这种情况下适用的技术手段包括可信执行环境、数据虚拟化等,在硬件增强安全技术的支持下,在特定的硬件环境中建立可信执行环境,有效防范外部访问和攻击敏感数据和应用程序。 这也是建立安全可靠的多源数据协作的可行性。 手段之一。 可信执行环境技术考虑在不同数据源中创建可信区域供数据访问,并通过应用隔离技术保护使用中的数据,有助于进一步加强数据安全性,确保其机密性和完整性。 数据中等可见性进一步扩展了数据可用性。

对于数据“可用、适度可见、不可用”,数据虚拟化技术也是非常有效的解决方案之一。 数据虚拟化可以访问数据,无论其物理存储或异构结构如何,通过数据视图和权限控制数据的“按需”提供并参与计算。 同时,源数据仍然存在。 数据虚拟化借助数据管控策略和用户、权限管理,实现统一、安全的数据治理,确保数据“适度可见”。 数据可用时“不可用”。

这里值得进一步关注的是,当前的量子计算给传统密码学带来了新的挑战。 在可信执行环境、数据虚拟化等技术底层数据传输方面,应考虑后量子密码学、量子安全通信等新兴技术。 方法。

数字经济发展对数据智能升级提出更高要求,小样本学习热情高涨

当前,人类社会已经从大数据时代进入人工智能时代。 人们已经不能满足于简单地处理数据形成信息的常规应用。 基于大数据的人工智能发展如火如荼; 但与此同时,我们不得不思考这样一个问题——是否只有大数据才能驱动人工智能? 如果没有足够的数据样本,是否意味着人工智能无法实现? 显然,无论数据样本量如何,都不会影响人们追求和获得人工智能能力的决心,因此小样本学习这一新兴技术应运而生。

小样本学习不仅在学术界被认为是从现有的数据智能向更强的人工智能迈出的重要一步,而且在行业应用中也具有现实意义和重要的实用价值。 产业数字化是数字经济发展的重要方向之一,而产业数字金融则是产业数字化和数字经济规模化发展的加速器。 产业数字金融风控面临的数据要素不同于消费数字金融和普惠数字金融的大样本量。 此外,一些新行业、新业务仍处于“冷启动”阶段,业务数据样本尚未有效积累,数据要素方面难以满足风控建模的需要。 这时候,小样本学习技术就派上用场了。

从目前的发展来看,当样本量足够大时,更容易总结出数据中存在的规律,可以在测试数据上得到泛化误差更小的知识模型。 然而比特币是大数据技术吗,在数据样本量小、“正例”样本量极小的恶劣条件下,如何实现数据挖掘和机器学习是值得关注的。 借鉴精益六西格码“人机-材料-方法-环境-测量”方法论框架,小样本学习的各种技术方法可以梳理如下:

1. 基于人类专家经验的小样本学习是指根据业务专家经验建立模型,形成规则。 常见的技术方法包括规则模型、记分卡模型、层次分析过程模型、社交网络和知识图谱模型等。

2. 基于数据增强的小样本学习 通过增加数据量,将样本扩展为大样本,实现机器学习建模。 常见的技术方法有两种,一种是前面提到的“数据可用但不可见”的思想;其次,利用联邦学习技术实现多方共建模型; 另一种是基于数据本身,通过样本增强的方法,比如使用SMOTE、GAN等技术手段,扩大样本量来支持建模。 这里值得进一步关注的是,目前正在开发SMOTE和GAN的量子版本技术QSMOTE和QGAN。

3. 基于算法改进的小样本学习 着眼于算法创新,选择合适的嵌入方式,将数据的原始特征嵌入到一个可分离的空间中,在新的空间中构建特征后进行建模。 常见的技术方法有支持向量机、核函数法、分类关联规则挖掘中的频繁项集法、利用网络的特征嵌入法等。这里值得进一步关注的是,支持向量机和关联规则挖掘也得到了发展量子版本算法QSVM、QARM等

4、基于仿真环境的小样本学习,通过极少甚至零样本的极端条件下梳理业务传导逻辑,构建端到端的数字孪生仿真环境,并通过强化学习技术实现模型构建。 这里值得进一步注意的是,某些强化学习任务可以通过量子近似优化算法快速解决。

5. 基于预测模型调整的小样本学习 从模型的角度出发,利用某类数据集学习一种学习机制,然后将模型迁移到目标小样本数据集,使模型通过参数微调具有更强的泛化能力,常见的技术方法包括迁移学习、元学习等。

6. 基于计算机发展的小样本学习 基于量子技术的发展,经典计算机升级为量子计算机,直接构建小样本数据集的量子算法模型。 经验证据表明,这类技术方法在解决小样本学习问题上比传统机器学习算法具有明显优势。 这里值得进一步关注的是,随着量子技术的发展,该计划正日益展现出旺盛的生命力。

展望2023年大数据产业发展,随着量子技术时代的全面开启,量子技术将为人工智能大数据的创新发展注入新动能。 事实上,当前量子技术发展的两个方向,“量子计算”和“量子通信”,可以让大数据领域的“数据智能”和“数据安全”更加“矛盾”。 2022年10月4日,诺贝尔物理学奖不负众望,颁给了量子信息领域。 法国物理学家Alain Aspect、美国物理学家John F. Clauser和奥地利物理学家科学家Anton Zeilinger凭借在量子信息科学领域的杰出成就获奖,再次引起了全球对量子技术的高度关注。

1、从数据应用的全生命周期来看,无论是数据的产生和收集阶段,还是数据的传输和存储阶段,还是数据的计算和应用阶段,量子技术都将提供AI大数据发展提供了新的思路和新的解决方案。

在数据生成和采集阶段,以量子生成对抗网络QGAN和QSMOTE算法为代表的一系列新算法,结合数字孪生和仿真等方法体系,有望对小样本数据集或不平衡数据集进行从数据源。 有效补充提升,进一步扩大数据来源。

在数据传输和存储阶段,以量子直接通信和量子密钥分发技术为代表的量子通信方案已经在金融领域得到应用。 量子通信可以为数据传输提供受物理定律保护的高度信息安全方案。 数据资产打造“量子护航”,实现关键信息传输流通“护航”。 过了这个阶段,量子密码学也很有用。

在数据计算和应用阶段,量子机器学习算法在小样本学习问题上取得了良好的效果,未来有望进一步突破,为业务发展的各个环节提供数据挖掘和机器学习算法模型在各个行业。 提供有效的量子算法支持; 对于组合优化问题,使用量子算法解决NP-hard问题已被证明具有良好的应用潜力,未来应用有望进一步扩大; 此外,量子优化和量子模拟算法也已初步应用,有望利用量子模拟算法对基于蒙特卡洛的经典模拟方法进行进一步优化升级,解决更广泛的数据计算和数据应用问题。

2、从新技术组合创新演进来看,量子技术将为以AI大数据为核心的新技术组合发展注入新动能。

在当今科技大发展的时代,云计算、区块链、隐私计算、机器学习、自然语言处理、计算机视觉、多模态识别等新兴技术层出不穷,而这些新兴技术都与人工智能领域有交集。人工智能大数据。 显然,量子技术也将与这些技术领域产生交叉,从而发展出量子云计算、量子区块链、量子隐私计算、量子机器学习、量子自然语言处理、量子计算机视觉、量子多模态识别等新方向。 . 这些新方向也将进一步赋能以人工智能大数据为核心的新技术的联合发展。

·关于王彦博:

王彦波,博士,副研究员,首席数据科学家,龙盈智达(北京)科技有限公司副总裁; 曾在英国曼彻斯特大学和剑桥大学担任博士后副研究员和访问学者; 兼任国家开发银行专家委员会专家资源库专家、中关村大数据产业联盟智库专家、腾讯云TVP最有价值专家、纽约金融学院特聘专家、《财经》编委《管理研究》杂志社,对外经济贸易大学金融技术研究中心副主任、研究员,大学统计学院对外经济与贸易研究生导师,并担任北京师范大学校外导师、外交学院、英国南安普顿大学。 他是英国利物浦大学培养的首批数据挖掘博士之一; 国内首批EXIN数据保护官,DAMA中国“十大数据治理专家”之一; 获省部级科技奖励一等奖1项、二等奖9项,三等奖2项; 获得国家专利1项,软件著作权30余项,参与制定金融行业标准3项; 出版著作1部,翻译著作1部,著作章节4部,参与编写专业书籍和培训教材7部,发表学术论文100余篇; 在国内外顶级科技竞赛中获奖10余项; 留学期间曾获得国家优秀自费留学生奖学金等重要奖项。

82accea215ba34a85d740f18ca8d1be8.jpeg

6059e4ec3a6fa3390700bdffbb5d7dd4.jpeg

241b7edd05006483b75afc3c50a48f2f.png

7dc16dfecc7a80617ce7946a2e8e4f93.png

《2022中国企业数字化智能转型升级服务全景图/行业地图2.0版》

7ce56ae58f706d77985841c12dfc2d0e.png

《2022中国数据智能产业地图2.0版》

8995cd1a4b34dcd420272e4ad21d0f76.png

‍❷创新服务企业名单‍‍‍

❸创新服务产品清单

❸最有价值投资榜单

❺ 创新技术突破一览

325a0a91313907a527584356ab1ea500.png

☆条漫:“看了大佬们发的朋友圈,我相信:明天会更好!”

联系数猿

1b95f1b56eede0df7d4ba11841fe3e2c.png

b769ce8012c71172d764c2b0b8be942e.png

7f45f84a55e50c9a5d41223f05af10f8.png

df8fba46c765d788c4bdfdea68a60aec.png