文心一言的文生图功能已经引发了大量吐槽,像是在“直译”,只有具体的形,没有抽象的意,与之前宣传最了解中国文化、最适合中国本土化市场的卖点相悖。
在chatGPT爆火之前,AI生成图片已经是一个颇具争议的话题,目前简单的AI绘图似乎不具备真正的原创构图能力,所引用的素材由于涉及版权等问题,难免会招致真正创作者的抵制。此前网易LOFTER就在这类功能上栽了跟头,相信百度不想重蹈网易的覆辙。
百度的画图AI或许采用了英文标注的开源图片素材进行训练,看得出为了仓促上线,短板也很明显。在自家模型的理解力还欠缺时,直接上多模态,我觉得步子迈得大了,不如先把文字能力做精。GPT-4现在也只支持图片输入,或许正是考虑到背后的种种麻烦。用户用了,是用户的事,你输出了就是你的事。
输入“总线”能在文心一言中生成“公共汽车”(两者英文均为“bus”)相关画作?百度集团(HK09888,股价146.8港元,总市值4058亿港元)此前开放测试的类ChatGPT产品文心一言被网友质疑作画并非自主,而是靠国外平台生成。
3月23日,百度方面发布声明称,已注意到对文心一言文生图功能的相关反馈。文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。
23日上午,《每日经济新闻》记者登录文心一言平台,通过输入一些中英歧义词测试,发现文心一言在面对部分中英歧义词指令时,确实有可能根据英译中的直译生成与中文指令本意不符的画作,例如在输入“牛奶路”时,文心一言生成了一幅“银河”(英文为the Milky Way)的画作。
图片来源:微博截图
百度回应:文生图能力来自文心跨模态大模型
近日,有网友发文质疑,百度文心一言作画,实质上是“把中文句子机翻成英语单词,拿去用国外刚刚开源的人工智能Stable Diffusion生成了图画,再返给你,说是自己画的。”
该网友举例称,在文心一言输入指令,要求其画“鼠标和总线”,文心一言作出的画是“老鼠和公共汽车”,因为“鼠标”和“总线”对于的英文是“mouse”和“bus”。
3月23日,百度方面在其官方微博发布声明回应称,已注意到对文心一言文生图功能的相关反馈。百度称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。
与此同时,百度表示,在大模型训练中,百度使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。“文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。”
3月16日时,百度刚刚召开新闻发布会,介绍了其对标ChatGPT的大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏出席,并展示了文心一言在五个场景中的综合能力。从Demo效果上看,文心一言某种程度上具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性都逐渐接近人类水平。
在这场发布会上,李彦宏除了反复强调市场对于文心一言的需求,也在反复提及它的“不完美”,试图降低一些市场预期。
文心一言作画偶有歧义
从文心一言的表现看,某种程度上它具有了对人类意图的理解能力,回答的准确性、逻辑性、流畅性,都逐渐接近人类水平。但整体而言,这类大语言模型还远未到发展完善的阶段,它们有时候会有很惊艳的表现,但不少场景下,细究起来还有明显的Bug,进步空间很大。
3月23日,《每日经济新闻》通过上述网友的方法,在文心一言输入部分中英歧义词,发现在部分词汇上,文心一言在作画时确有歧义。
目前,在文心一言输入“鼠标和总线”,其呈现的画作基本符合中文语义。
输入指令画“牛奶路”时,文心一言生成了银河(Milky Way)相关的画作。
当我们要求文心一言画一杯黑茶时,它画出一杯红茶,红茶的英文“Black Tea”,直译为黑茶。
在测试过程中,记者发现,百度文心一言在面对部分指令时,确实会出现歧义,例如将“总线”画作“公共汽车”,类似情况正在随着用户反馈被修正。
在此前文心一言的发布会上,李彦宏也坦言:“也不能说我们完全ready了,文心一言对标ChatGPT,甚至是对标GPT-4,门槛是很高的。”他承认文心一言与ChatGPT之间的差距,在差距之下依旧推出,是因为“市场有需求。”