智能摘要

小数据”一词可能有点模糊，但有一种定义更明确的机器学习类型，称为单次学习或”少次学习”。迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习。这可以从简单地对现有数据进行小修改(例如，在图像分类数据集中裁剪或旋转图像)到更复杂的方法，这些方法旨在推断可用数据的基本结构并从中进行推断。通过在基于可用数据进一步改进之前结合这些”先验”信息，贝叶斯方法更适合于数据有限的某些情况，但也有可能以有用的数学形式写出有关问题的信息。

原文约 4000 字 | 图片 12 张 | 建议阅读 8 分钟 | 评价反馈

“小数据”人工智能的军事应用

原创知道占知智库

收录于合集

#人工智能25个

#大数据1个

#军民融合12个

关注我们

占知智库，成为您的战略知援部队

资源检索

微信公众号

文库网站

讲到“人工智能”，大家都会想到“大数据”。这是有原因的：过去十年中一些最突出的人工智能突破都依赖于庞大的数据集。由于ImageNet 的发展，图像分类在 2010 年代取得了巨大进步，ImageNet 是一个数据集，包含数百万张手动分类为数千个类别的图像。最近，ChatGPT非常火，GPT-3是一种使用深度学习来生成类人文本的语言模型，受益于对数千亿个在线文本单词的训练。但AI不仅仅涉及大数据集，“小数据”方法的研究在过去十年中得到了广泛发展，而且引起美国国防部的重点关注。

一、小数据的定义

“小数据”，没有普遍认可的定义，“小”的具体数字取决于上下文。虽然“小数据”一词可能有点模糊，但有一种定义更明确的机器学习类型，称为单次学习或“少次学习”。顾名思义，一次性学习旨在从一个或几个标记的数据点中学习。一次性学习并非无中生有。相反，一次性学习使用现有的先验知识来解释新的、以前看不见的对象。而这种现有的先验知识必须来自某个地方。

小数据：小数据包括经常影响当前决策的小数据集，这意味着它通常小到足以让人类在数量和格式方面理解。就整体业务而言，小数据的影响程度不如大数据。相反，它对短期和当前的决策有更大的影响。

大数据：“大数据”是结构化和非结构化数据的大量集合，对于人类来说过于复杂而无法处理。每天创建近 2.5 quintillion 字节的数据，这导致了大数据的兴起。它是指以数字方式产生的海量数据，包括电子邮件、网站、社交网站、流媒体平台等产生的网络数据。大数据也指复杂到无法用常规数据处理方法处理的大数据集，这意味着必须使用新的算法技术。

二、小数据的优势

使用小数据而不是大数据有很多好处。首先，它无处不在。例如，社交媒体中充斥着有关用户的小数据，智能手机和计算机在每次登录应用程序时都会创建小数据。

以下是小数据的一些主要好处：

更容易理解、更可操作：小数据更容易被人类理解和处理。它在短期内更具可操作性，这意味着它可以立即转化为商业智能。
可视化和检查：小数据更容易进行可视化和检查，因为大数据不可能手动进行。
更贴近最终用户：了解业务的最佳方式之一是关注最终用户，由于小数据更接近最终用户并且通常关注个人体验，因此有助于实现这一点。
更简单：小数据比大数据更简单，这使得从利益相关者到决策者的每个人都更容易理解。几乎任何人都可以理解小数据，这对于希望为所有员工配备数据驱动能力的组织很有帮助。

大数据并不总是更好的数据

围绕大数据有很多炒作，但它并不总是可取的。虽然大数据在这两者中更受欢迎，但小数据越来越多地再次被认为是这个新商业环境中的重要参与者。大数据可能不如小数据受欢迎的主要原因之一与安全性和存储有关。

在处理大量数据时，安全性非常重要，但大数据会使某些组织面临极大的挑战。随着大数据的增长，它也变得难以存储和管理。用于小数据的传统数据库不是为大数据设计的。正因为如此，大数据数据库更看重性能和灵活性而非安全性。

三、小数据技术的发展

乔治敦大学安全与新兴技术中心 (CSET)，2021年发布的一份报告《小数据的大AI潜能》，强调了人工智能技术的多样性，包括“小数据”方法，随着数据变得更有价值，美国和中国在这些技术上展开了激烈竞争。

通过对CSET报告分析发现，小数据技术大致分为五个类别：迁移学习、数据标记、人工数据生成、贝叶斯方法和强化学习。分析认为，迁移学习是自 2010 年以来平均研究增长最稳定、增长最快的一个类别。这种增长甚至超过了更大、更成熟的强化学习领域，后者近年来引起了广泛关注。CSET 分析师 Husanjot Chahal 和 Helen Toner 在《科学美国人》上撰文支持“迁移学习”，它使用比主流技术相对少的数据，从大数据集开始，然后“稍微使用较小的数据集”重新针对性地训练程序” 这减少了对不断增长的AI系统训练数据的需求。

1.迁移学习的工作原理是，首先学习如何在数据丰富的环境中执行任务，然后将在那里学到的知识“转移”到可用数据少得多的任务中。这在只有少量标记数据可用于感兴趣的问题，但有大量标记的数据可用于相关问题的设置中非常有用。

例如，有人在开发一个识别稀有鸟类的应用程序时，可能只会看到每只鸟的几张照片，每张照片上都标有自己的物种。为了使用迁移学习，他们可以首先使用一个更大、更通用的图像数据库（如ImageNet）来训练一个基本的图像分类器，ImageNet根据数千个类别标记了数百万个图像。一旦该分类器能够将狗与猫、花朵与水果、麻雀与燕子区分开来，它们就可以为其提供小得多的稀有鸟类数据集。然后，该模型可以“迁移”它已经知道的如何将图像分类的知识，利用这些知识从少得多的数据中学习新的任务（识别稀有鸟类）。

2.数据标记是一种方法，从有限的标记数据开始，但大量的未标记数据开始。此类方法使用一系列方法来理解可用的未标记数据，例如自动生成标签（自动标记）或识别标签特别有用的数据点（主动学习）。

例如，主动学习已被用于皮肤癌症诊断的研究。一个图像分类模型最初是在100张照片上进行训练的，这些照片根据它们是描绘皮肤癌症还是健康皮肤进行标记。然后，该模型可以访问一组更大的潜在训练图像，从中可以选择100张额外的照片进行标记并添加到训练数据中。为了从现有数据中尽可能多地学习，该模型设计用于选择要标记的附加照片，基于哪些图像在学习区分健康皮肤照片和皮肤癌症照片时信息最丰富。

3.人工数据生成是一种方法，旨在通过创建新的数据点或其他相关技术，最大限度地从少量数据中提取多少信息。这可以从简单地对现有数据进行小修改（例如，在图像分类数据集中裁剪或旋转图像）到更复杂的方法，这些方法旨在推断可用数据的基本结构并从中进行推断。

一个简单的例子是，计算机视觉研究人员已经能够使用计算机辅助设计（CAD）软件，然后使用这些图像来扩充现有的图像数据集。当存在关于感兴趣数据的单独信息源（在这种情况下，是众包CAD模型）时，这样的方法更可行。在其他情况下，可能需要更复杂的方法。一般来说，数据生成需要对所讨论的数据进行某种或另一种强有力的假设，而生成的数据的有用程度取决于这些假设的有效性。

生成附加数据的能力不仅在处理小型数据集时有用。如果任何一条数据的细节可能是敏感的（例如，个人的健康记录），但研究人员对数据的总体分布感兴趣，则可以通过对数据进行随机更改以使其不易识别，从而使用合成数据来隐藏私人信息。

4.贝叶斯方法是机器学习和统计的一大类方法，有两个共同的特点。首先，他们试图明确地将关于问题结构的信息（所谓的“先验”信息）纳入解决问题的方法中。这与大多数其他机器学习方法形成了对比，机器学习方法倾向于对问题做出最小的假设。通过在基于可用数据进一步改进之前结合这些“先验”信息，贝叶斯方法更适合于数据有限的某些情况，但也有可能以有用的数学形式写出有关问题的信息。其次，贝叶斯方法侧重于对其预测的不确定性进行良好校准的估计。这在数据可用性有限的情况下很有帮助，因为贝叶斯估计不确定性的方法可以更容易地识别数据点，如果收集到这些数据点，将对减少不确定性最有价值。

作为使用小数据的贝叶斯工作的一个例子，贝叶斯方法已被用于监测全球地震活动，这对探测地震和核查核条约都很重要。通过开发一个从结合地震学的先验知识开始的模型，研究人员可以充分利用现有数据来改进模型。

贝叶斯方法家族是一个庞大的家族，并且不仅仅由特别擅长处理小数据集的方法组成。为了简单起见，我们在这项研究的包容性方面犯了错误，尽管这可能意味着这一类别中的一些研究使用了大型数据集。

5.强化学习是一个广义的术语，指的是机器学习方法，其中代理（计算机系统）通过试错学习如何与环境交互。强化学习通常用于训练游戏系统、机器人和自动驾驶车辆。

例如，强化学习已被用于训练学习玩电子游戏的AI系统，从简单的街机游戏（如乒乓球）到战略游戏（如星际争霸）。在每一种情况下，系统一开始对如何玩游戏知之甚少（或一无所知），但通过尝试并观察是什么产生了积极的奖励信号来逐渐学习。（在电子游戏的例子中，奖励信号通常是玩家得分的形式。）

强化学习系统通常最终会从大量数据中学习，并需要大量的计算资源，因此它们可能看起来像是一个不直观的类别。尽管如此，我们还是将它们包括在内，因为它们使用的数据通常是在系统经常在模拟环境中训练时生成的，而不是事先收集和标记的。在强化学习问题中，主体与环境交互的能力至关重要。

四、美军的动作

许多人都认为大国在人工智能竞赛中具有“天然优势”，因为这些国家往往拥有广泛数字网络，更有能力收集训练所需的大量数据机器学习模型。

但大数据人工智能并不是唯一的人工智能，事实上，它们可能被证明过于数据密集和能源密集，无法支撑安全、可靠和值得信赖的人工智能防御技术。几种新的“小数据”方法有望获得更好、更快的结果——前提是美国国防部需要确保它们不会在竞选中缺乏资金。

早在2017年，这一点就变得很明显。新美国安全中心的埃尔莎·卡尼亚 (Elsa Kania)写道：“可能很难获得或缺乏适当的运营数据。” “即使获得一个全面的数据集来说明自己的军队也具有挑战性。”

目前，美国大多数AI资金都投向了机器学习方法。这可能会导致出现一种情况，即有大量公共和私人资金用于AI 研究，但没有一种机制来支持小数据技术。

面对这个问题，美国国防部刚刚成立的首席数字和人工智能办公室(CDAO) 应该会引领更好的局面，该办公室将整合了几个面向国防AI的团队，以保持AI项目在美国国防部中的运转。

一是提高对小数据方法的重视程度

虽然大数据设计仍占主导地位，但针对需要高度特定数据集的应用程序，采用较小数据方法（如迁移学习）则更加具有针对性，目前，CDAO已经向私营公司发出信息，表明将进一步加大对较小的数据方法的投资。

二是将小数据与深度学习集成

将这些小数据方法开始与现有的深度学习应用程序集成在一起，美国国防部将逐步摆脱大数据思维模式。新的技术投资是用更精细的小数据技术进行的。神经符号AI 等旨在复制人类数据消费效率的小数据方法开始被开发和集成，以取代现有的AI应用程序，具体取决于它们提供的可靠性水平。深度学习和迁移学习以及其他方法可以与神经符号AI并存，在可靠性和效率允许的范围内使用混合形式。

三是灵活配置资金、加大资金投入

CDAO可能会在美国国家科学基金会找到一个机构，去年的CHIPS和科学法案已授权该基金会建立技术、创新和合作伙伴关系理事会，这对于提高资金灵活性，加大增量资助计划非常有用。

四是军民融合、产业推动

美国国防部将减少一些过于真实的深度学习系统的问题和局限性，即使研究人员不愿意进行完全神经符号AI研究。同时，美国国防部将这种技术在军事上的应用资源置于美国产业背后，类似于“军民融合”发展模式，这将极大促进人工智能发展。

免费资源，见www.milthink.com

军事术语、缩略语在线查询

军事数据库即将开通

联系我们

资料搜集 译文翻译 报告定制

微信号| zhanzhiceo

联系电话| 010-84645772

网站：www.milthink.com

1 本网站名称：猪文网
2 本站永久网址：WWW.PIGWORD.CN
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ877338903进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站所有原创内容采用知识共享署名4.0国际许可协议进行许可,勿将我们的作品擅自更改、去除署名。《著作权法》亦规定署名权是不可转让的。

THE END

人间清醒
# 人间清醒、实用技巧