创新及产品管理能力建设项目 – 第 39 页 – 联合国创新及产品管理能力建设项目(UNSDGT)

什么是视觉问答（Visual Question Answering, VQA）？

视觉问答（Visual Question Answering, VQA）是一种多模态人工智能技术，它结合计算机视觉和自然语言处理，使系统能够理解图像内容并回答针对该图像提出的自然语言问题。例如，给定一张图片和问题「图中有什么动物？」时，VQ […]

多模态融合（Multimodal Fusion）是指人工智能系统中整合来自多种不同模态（如文本、图像、音频、视频等）信息的技术过程，旨在通过结合互补数据源来提升系统的感知、理解和决策能力。这种融合可以发生在特征提取、模型训练或决策输出等不同 […]

跨模态检索（Cross-Modal Retrieval）是一种人工智能技术，旨在实现不同类型数据模态（如文本、图像、音频或视频）之间的相互检索能力。它通过建模模态间的语义关联，学习共享的嵌入空间或相似性度量，从而允许用户以一种模态输入查询（ […]

视频生成（Video Generation）是人工智能技术中的一个核心分支，指利用算法模型自动创建动态视频序列的过程，其本质在于模拟视频数据的时空连续性和运动模式。基于深度学习框架如生成对抗网络（GANs）或扩散模型（Diffusion M […]

视频理解（Video Understanding）是人工智能领域的一项核心技术，指计算机系统通过分析视频数据来识别和理解其中的对象、动作、事件及场景的过程。它结合了计算机视觉和深度学习技术，从连续的视频帧序列中提取特征并推断语义信息，使机器 […]

图像生成是指利用人工智能技术，特别是深度学习模型，创建全新图像的过程。这些图像并非直接来源于现实世界的捕获，而是模型通过学习大量训练数据中的模式和分布，合成出逼真且多样化的视觉内容。核心方法包括生成对抗网络（GANs）、变分自编码器（VAE […]

图像识别是指计算机系统通过算法自动分析和理解图像内容的技术，旨在识别图像中的物体、场景、人脸或其他视觉元素。它基于机器学习模型，尤其是深度学习中的卷积神经网络（CNN），从像素数据中提取特征并进行分类、检测或分割任务。图像识别作为计算机视觉 […]

语音识别（Speech Recognition），又称为自动语音识别（ASR），是一种将人类语音信号转化为可读文本或机器可执行指令的人工智能技术。它基于声学模型、语言模型和信号处理算法，通过分析声音波形识别出词汇和语义，实现人机交互的自然语 […]

语音合成（Speech Synthesis），通常称为文本到语音（Text-to-Speech, TTS），是一种人工智能技术，通过计算机算法将输入的文本信息转换为自然流畅的语音输出。它融合了语言学、声学建模和机器学习等领域的知识，旨在生成 […]

情感识别，亦称情感分析（Sentiment Analysis），是人工智能领域的一项核心技术，指通过算法模型分析文本、语音或图像等非结构化数据，以自动识别和分类其中蕴含的人类情感状态的过程。它利用自然语言处理（NLP）和机器学习技术，将主观 […]