“携程问道”问不明白道快讯

闻旅派 2024-10-11 17:11
分享到:
导读

于是我们直接进入测试,让携程问道出一个10月2号—10月6号在上海的行程规划。结果携程问道只帮我们把行程规划到了10月4号,10月5号和10月6号的行程它让我们自己发挥。嗯......我上一个00后实习生,是领导家亲戚,也差不多是这个味儿。

作者 | Tniniuo

编辑 | 蓝兰

想靠AI旅游的朋友,终究还是没有在携程上问明白道。

我有个犟种朋友,喜欢各类科技花活,每次网上有新东西他都要试试。这个十一他要尝试的是靠旅游行业垂直大模型——携程问道,实现AI旅游。

我告诉他,AI旅游这事现在不靠谱。

整个大模型行业目前公认的事实是,AI大模型在发散性的内容上可能会超出预期,但在实际规划和落地的任务上,基本只能处于copilot的角色,人力还是主导。问吃喝、本地游玩、出规划,还不如大众点评、小红书高效。

甚至不如问我。

因为用户在所谓的靠AI旅游这件事上,需要的是一个AI Agent(AI智能体/助理/助手)。而AI Agent要求的是精确性,但目前AI大模型的发散性大于精确性,因此AI旅游在当下还是一个悖论。

比如说想在上海玩,AI会搜索历史数据和信息,告诉你外滩、石库门、武康路、东方明珠、豫园、淮海路你都值得逛逛。但如果需要一个符合自己喜好的专属行程,AI提供不了。你只能在AI提供的信息资料里做二次的人工筛选。

如果你想玩的更local一点,比如想找一家有品位的精酿吧,演绎水平高的剧本杀店,小姐姐多套路少的夜店,AI更推荐不出来。也就是说,携程问道目前成不了AI Agent。

但显然,我的犟种朋友不想听我哔哔赖赖。

于是我们直接进入测试,让携程问道出一个10月2号—10月6号在上海的行程规划。结果携程问道只帮我们把行程规划到了10月4号,10月5号和10月6号的行程它让我们自己发挥。嗯......我上一个00后实习生,是领导家亲戚,也差不多是这个味儿。

我们又问了下武康路到底有点什么独特魅力,究竟能玩点啥?得出的结论是Citywalk。然后我们告诉携程问道,如果不想在上海Citywalk,是否有更好的行程推荐。

结果携程问道把之前推给我们的行程又重复了一遍。

好吧,黔驴技穷。

最后我们告诉携程问道,想住在中山公园附近,让他推荐几家酒店。可能由于没有精确的告诉它是上海中山公园,所以携程问道给我推荐了天南地北,各个地方中山公园附近的酒店。这就很迷,咱们和携程问道聊了半天,不一直都在聊上海旅游的事么?这点前后文语义的识别也这么困难么?

大模型行业里有个词叫“AI幻觉”,即人工智能系统(自然语言处理模型)生成的内容与真实数据不符,或偏离用户指令的现象。

说白了就是,用户问前门楼子,AI答胯骨轴子。

短短三四个问题,我们看到携程问道一直沉浸在AI幻觉中,离需要准确性的AI Agent还有不少距离。诚然,造成AI幻觉的的原因有很多,从数据质量差到算法缺陷,再到缺乏接地和过度拟合,都会导致AI幻觉。

然而,所有这些原因的核心是:AI 模型的输出取决于它们的输入,或它们为处理所述输入而设计的方式。归根结底,AI 模型无法自我推理、研究或事实核查。因此,需要准确性的AI Agent,在当下还无法完美实现。

理想状态下的AI Agent是,大多数时候你只需给它一个最终你想要达成的目标,它能直接交付结果,过程你啥都不用管。

康奈尔大学、华盛顿大学和滑铁卢大学以及非营利研究机构AI2的研究人员,最近进行了一项研究,测试了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+,以及调用API的模型,比如Perplexity的Sonar Large(基于Llama)、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多个开源模型,

实验证明,各家模型产生的AI幻觉半斤八两。在答案来源不是维基百科的情况下,每个模型的平均回答事实性都较低。当然,从另一个维度看,没有AI幻觉,大模型就没有发展可言。

但在目前这种AI幻觉泛滥的环境下,用户想要一个规划行程的Agent,或是某个行业的最新资讯和报告,幻觉就是致命缺陷。很明显在这种情况下,以AI Agent为目标的AI旅游大模型,目前基本都是悖论。最多只是一个网络素材整合工具。

这种窘态不止出现在携程问道身上。字节的豆包、百度的文心一言等等,在AI旅游的表现上都挺一般。尤其是在理解复杂用户需求和提供精准个性化服务方面。要么行程过于空洞,不知无谓。要么AI幻觉爆发,自己加戏太多,甚至一些AI模型连门票价格都会报错。

目前行业的共识是,基于大模型的发散性产生的AI幻觉是没法解决的,所以必须要通过恰当的微调形成行业专用的深模型。但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台,也很少有真正可用的,更好解决问题的Agent。

如果AI Agent无法基于用户目标形成个性化推荐,AI旅游大模型又当如何?携程问道目前在这上面抖了一个小聪明,即提供了一个涵盖酒店、景点、餐饮及夜生活等多维度的“携程口碑榜”,供用户出游参考。

也就是携程集团联合创始人梁建章所谓的:利用携程自己长年积累的数据和榜单,为用户做推荐。直白点说就是,这些东西携程的用户玩了都说好,相信你也会觉得好。至于个性化,暂且不聊。

比如,我们问“上海最好的酒店是哪家?”

携程问道基于“上海豪华酒店榜”得出结论,前滩香格里拉大酒店是上海最好的酒店。

略让人惊讶,因为这酒店我住过。不差,只不过马桶有点智能了,智能到半夜会自己工作。很卷,但瑕不掩瑜。可要说在一众奢华酒店云集的上海,前滩香格里拉是TOP1,这个确实有点出乎意料。

于是我让他问问这个“上海豪华酒店榜”是什么机构评定的,基于什么标准评定的?结果得出了一个比较好笑的结论。

实际上这个“上海豪华酒店榜”,就是携程自己推出的“携程口碑榜”其中一部分,会根据口碑、销量等几个维度来筛选,还有一些下榜规则。不过携程点评现在避免不了人工干预成分在,且目前来看,下榜规则执行的也并不严格。

比如9月份刚被曝出来“1天2次6700元”事件的长春高新益田福朋喜来登,目前仍在“长春豪华酒店榜”名列第14,并没有下榜。

实际上在整个AI服务流程中,携程并没有体现出来其所谓的,“通用AI大模型所没有的旅游产品资源库优势”。这份“携程口碑榜”也从一开始就弥漫着一股浓郁的商业气息,看不出与大众点评必吃榜、必玩榜有什么明显的产品差异。

换句话说,即便今天没有AI大模型,也不影响携程推出一份“携程口碑榜”。两者之间没有任何因果关系,以及强关联性。

事实上,对于AI旅游大模型来说,真的可用的Agent一定不是简单模块组合可实现的,如果有,也只是昙花一现。AI大模型催生了Prompt Engineer的工作角色,AI Agent理应催生Flow Engineer一类岗位,需要一批兼具产品和编程思维能力的角色。

但在携程的公开招聘中,目前没有看到明显具有Flow Engineer性质的岗位。

而在所有可公开查询到的信息中,携程距离AI Agent最近的一次,则是今年二季度财报的时候,携程集团联合创始人、董事局主席梁建章,CEO孙洁、CFO王肖璠等公司高管,首次以AI Agent形象,在财报会议上与投资人交流。

但很明显,此AI Agent并非AI大模型行业的AI Agent,说穿了不过是类似数字人的奇技淫巧。


携程 问道
分享到:

1.TMT观察网遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.TMT观察网的原创文章,请转载时务必注明文章作者和"来源:TMT观察网",不尊重原创的行为TMT观察网或将追究责任;
3.作者投稿可能会经TMT观察网编辑修改或补充。