“一语成画”“一小时生成一位数字人”……

人工智能技术让想象照进现实

青岛日报 2023年04月09日

  □青岛日报/观海新闻记者 王萌

  ——“渣哥,请帮我写一篇青岛城市宣传片文案,300字左右。”

  ——“青岛,这座美丽的海滨城市,位于中国东海岸,拥有壮丽自然风光和独特文化底蕴。在这里,您可以看到碧蓝的大海、白色的沙滩和美丽的山脉,感受到清新的海风和阳光的温暖……”

  看到这段文案时,你会意识到“渣哥”其实是人工智能吗?在8日举行的数字文化助力美好生活论坛上,来自中国科学院自动化研究所紫东太初大模型中心、新片场新媒体影视内容平台的相关负责人,向与会嘉宾介绍了国内最新人工智能技术所带来的文化产业变革新动向。现在的人工智能技术已经让“一语成画”“一小时生成一位数字人”“一句话生成城市宣传片”等想象中的图景照进现实。

  “过去人工智能执行特定任务必须采集大量数据,一个模型只能干一件事,所以我们会觉得很多人工智能产品并不智慧。但是现在人工智能已经从单个模态走向多模态,原来单一的语言能力、视觉能力、听觉能力,可以逐步融合起来了。”中国科学院自动化研究所紫东太初大模型中心常务副主任王金桥介绍,紫东太初是全球首个千亿参数多模态大模型,通过对9亿对弱关联图音文数据的自监督学习,自动获得100万级实体概念以及概念之间的关联关系,实现了人工智能模型从“预先定义的模式分类”到“开放式知识学习”的技术突破,让人工智能有了从现实世界学习知识的能力。

  紫东太初大模型可以用一个模型实现图像识别、语言翻译、图像描述、语音合成等50余种功能,并初步具备了人机交互、认知推理、艺术创作等创新能力。“这意味着,我们说一句描述话语,就能生成想要的图片。人工智能也能根据一张图片,自动生成一段音乐。”王金桥介绍,由紫东太初打造的AI内容创作平台“江城洛神”已经发布,通过NLP(自然语言处理)技术就能实现图像编辑与生成,辅助内容生产,用户无需任何专业技能,就能创作出属于自己的艺术作品。“我们也赋能数字人发展。大模型能生产各种各样的人脸,同时一键生成3D图像,并通过大模型自动驱动其表情、动作、发型以及手部和肢体动作。现在数字人的生产已经由原来的两三个月,缩短到现在的一小时。”王金桥说。

  新片场首席执行官尹兴良则分享了企业用人工智能技术赋能数字创作的实践和规划。他介绍,视频创作者手里往往积攒了很多音视频素材,因此他们打造了视频素材的线上数字资产交易平台——新片场,让好的数字资产能够交易、流动起来。

  目前,该平台已经累积了2000万条视频素材和100万条音频素材,平台通过区块链技术来确权这些数字资产,再通过线上授权的方式,授权给其他的视频创作人。“比如现在要拍一个青岛宣传片,可以不需要再雇人拍了,现在的素材量已经可以支撑绝大部分的企业宣传、城市宣传的视频需求。”尹兴良介绍,企业在人工智能生成内容方面也有了诸多探索,文章开头提到的“渣哥”即为新片场用于辅助视频内容生产的人工智能。

  尹兴良说,新片场首先把视频创作类数据、已有文案脚本输入到人工智能模型中作为训练源,逐步让文字类模型可以非常方便地帮助创作者生成视频创作脚本。其次,视频生产制作行业往往需要用到分镜头脚本,现在也能用人工智能技术轻松生成,进一步指导创作者的选择、拍摄视频素材。最后,拍摄好的视频也可以通过AI,一键完成视频内容的“风格化”创作。

  人工智能与人类还有哪些差距?“是情感、情绪。”王金桥说,“哪怕是一句简单的话,人们说话的快慢、语调、节奏、声音的大小,都蕴含着丰富的情感,需要连续的信号生成。现阶段人工智能说话是没有情感的,这也是人工智能未来的发展方向。”