廊坊云威节能建材有限公司廊坊云威节能建材有限公司

王欣:通用大模型最后只会变成少量 的一 两家

王欣:通用大模型最后只会变成少量 的一 两家

专题(tí):2024中(zhōng)国AIGC创新发展论坛

  2024年服(fú)贸会专 题论坛(tán)之一——“2024中(zhōng)国AIGC创新(xīn)发展论坛”于9月13日(rì)-14日在 北(běi)京 举行。安恒信息(xī)中(zhōng)央研究(jiū)院院长王欣出席并演讲。

  王(wáng)欣认为,国内(nèi)有很多厂商在做通用大模型,但通用大模(mó)型(xíng)最后(hòu)只(zhǐ)会剩(shèng)下成少(shǎo)量的一两家,“我们看(kàn)到各(gè)个垂直领域反(fǎn)而在(zài)做各类的垂直模型,我认为(wèi)这路是对的(de)”,他认为(wèi),最(zuì)终是围绕通用大模型或者相对小参数的模型围绕业务下(xià)沉的模型。

  以下(xià)为演讲实录:

  王欣:大家下午好(hǎo),刚(gāng)才(cái)两位专家都(dōu)介绍了围绕AI大模型(xíng)运营(yíng)这块的很多时间(jiān),我今(jīn)天围(wéi)绕这个话题(tí)继续延伸。

  过去(qù)两(liǎng)年多时间AI很火,AI破圈,我不是做人工智能,我是(shì)做攻(gōng)防出身的,但现在我也加入到人 工智能序(xù)列里,因为各行(xíng)各业在看到 AI这块技术(shù)的革新之后,我们看(kàn)到了原来做不好(hǎo)的技术(shù)围绕着现在整个大模型出现可 以达到(dào)非常(cháng)好的效果(guǒ)。

  我在(zài)比较早期的时候针对于AI已经做了很多战略(lüè)层面的铺垫。但 客观地(dì)讲,从 大模型这(zhè)件事情上(shàng),我们距离国外还(hái)是有 比较远(yuǎn)的距离。从ChatGPT出现之后,我国各大互联网公司、各大行业在训练自己的大模 型,去年的时候可以理(lǐ)解 为是国内外大模型的技(jì)术(shù)元(yuán)年,去年一年时间内,我(wǒ)看到最多的是几乎每天都(dōu)有新(xīn)的大模型出现,在每天技术不断更新过程中,我们(men)思考我们为什么(me)要去做这件 事情。所以这个PPT里面第一页看到所有浪潮退去之后要回归到价值本质。

  对于AI来说,本质是(shì)一个工具,工具的核(hé)心是解决(jué)业务问题,无论是在安全行(xíng)业 还是(shì)在其他行业,包括前一段时间(jiān)我参加(jiā)了Gartner一个会,在(zài)很多企业里面,大(dà)家对于AI有什么期待?核心总结起来是三个方面(miàn):第一是降低生产(chǎn)成本,第二是提高产品质量,第三是推动 产业转型。

  我(wǒ)们看 到各个垂直领域反而在(zài)做各(gè)类(lèi)的垂直模型,我(wǒ)认为这路是对的,我们(men)可以看到国内有很多厂商过去在(zài)做通用大模型,我认为通用大模型最后只会变成少量的一两家,最终围绕通用大模型或者相对小参(cān)数的模(mó)型围绕业务往下走的模型。

  安(ān)全(quán)行业也一样,安全(quán)行业(yè)发展了二十多年,我大学毕 业前就(jiù)开(kāi)始接触(chù)安全,也将近二十年左右的时间(jiān),在整个感触里(lǐ)面,其实安全是存在一个天平的问题,很多时候我(wǒ)们希望告警比较少,但又不希望有漏洞(dòng),我们希望业务优先(xiān)但又希(xī)望安全第一,我们希望用更少的成(chéng)本(běn)又(yòu)希望安全整体防御做的更好。

  在整个技术(shù)迭代过程(chéng)中可以看到,原来出现了很多安全产品,但这些安全产品有时(shí)候不能完全去解决客(kè)户问题,在这个(gè)情况下(xià)怎么办?堆人。但人是不是一 个最优解?很多,包括后面会(huì)讲到一些case,我们铺了很多(duō)产品不够人去凑,但(dàn)人的成本持续(xù)上升,很难通过人去填(tián)补最后一公里。所以我(wǒ)们(men)就在看,围(wéi)绕着安全现在这样(yàng)一个(gè)痛(tòng)点现状,我们大模型能否带来这里面的变(biàn)化,我(wǒ)们把AI作(zuò)为一个工具(jù),我们核心分析了痛点,看大(dà)模(mó)型能不能 解决。

  大模型我总结了几个点,第一个,就之前(qián)人工智(zhì)能技术(shù)有更强的(de)理解指(zhǐ)令的能力,这里我认为是两层:一是本身为软件工程,对机器理解的指令更强;二(èr)是(shì)人工智能为拟(nǐ)人化的学(xué)科,本身更接近(jìn)于跟人的对话。第二个,理解(jiě)意志。就是(shì)它有更强的泛化能力,所以我们(men)在安全(quán)很 多(duō)的业务很难做到非常标准的SOP。所以我们是希望掌握(wò)一些知识之后还(hái)有更强的(de)泛化(huà)能力。第三个(gè),具有更强的COT能力,因为很多安全任务(wù)不是(shì)一个简单的问题,其实(shí)是(shì)一(yī)个复(fù)杂(zá)问题,所(suǒ)以(yǐ)在很(hěn)多安全任务处理过(guò)程中需要加 一个复杂问题把它拆解成(chéng)更加简单的问题、多(duō)个问题,大模型思维链(liàn)的问题本身比较适合做(zuò)安全相(xiāng)关任务(wù)。第四个,有快速的学习成长跟复(fù)制的能力。很多安全行业里面 ,人的经验复制是(shì)很难的,如何从数据驱动到知识驱动,到变成一个平台级的能力,这个层面我觉得是大模型对这(zhè)个(gè)行 业来说很大的价值。

  所以围绕着上面所有,我认为人工智能可以填补这里面(miàn)的(de)鸿沟,建立起一座桥(qiáo)梁之后,向左可以(yǐ)提高 我们整个产品质量,向右可以提高整个服务的能效。所以我们不断(duàn)地在思考、在探索,在具体的(de)每个业务链上到底有什(shén)么样的安全问题。

  在另(lìng)外(wài)一个层面,刚才余总(zǒng)也介 绍到,大模型本身偏(piān)向于是人的大脑,偏向于类似(shì)于(yú)咨(zī)询专(zhuān)家。但我们更(gèng)希望,具体的一些咨询专家(jiā)能不能(néng)动(dòng)手帮助完成所有任务,所以我们这(zhè)上面的思考是通过智能体(tǐ)的(de)放,通过连接下层原来的产品,围(wéi)绕着上述业务(wù)场景(jǐng)构(gòu)建相关智能体,融入原来(lái)的安全体系。

  所以这里(lǐ)我想抛一个观(guān)点,新的 技术出现不(bù)是去(qù)解决新的问题,而是更多和原 来产品进行结合,解决原来(lái)传统(tǒng)解决不好(hǎo)的(de)问(wèn)题(tí),这是王(wáng)道、是正道。另外,很多(duō)时候对于大模(mó)型来说(shuō),是不是可以提高很高(gāo)的效率?在这个点上,我原来(lái)跟很多业内(nèi)专家去聊,其实它提升的是机(jī)器(qì)做不好的、需要人介入的(de)这一块的工作效(xiào)率,对于现在大模型(xíng)本身推(tuī)理和(hé)各方(fāng)面性能原因,原来机(jī)器性能已经这样(yàng),在机器性能(néng)上再叠(dié)加,这在(zài)当前(qián)技术阶段不是特别成熟(shú)。

  第二个层面,在整个AI这一块(kuài),我在很 多客户聊(liáo),大模型是不是很多原 来解决不了的问题现在都可以通过人工智能来解决了?其实(shí)远远不够,我们的梦(mèng)想非常高,但大(dà)模型现在(zài)还在一个技(jì)术的爬坡阶段(duàn),有很多问题(tí),无论是(shì)幻(huàn)觉(jué)问题、性(xìng)能问题(tí)、指令遵循问题等(děng)等一系列,并不是在(zài)所有任务上都能(néng)处理得(dé)很好,但不能低估(gū)了这个技术未(wèi)来发展空间。所以(yǐ)当前阶(jiē)段要看有哪些痛(tòng)点,大(dà)模型当前(qián)阶段最合适做什么工(gōng)作,主编边(biān)走边爬坡,边跟现(xiàn)在的业务结(jié)合,给现在业务痛点带来相关价值。

  过去我们内部(bù)做了很多头脑风暴,思 考现在有什么样的痛点,大(dà)模型能否解(jiě)决什么问题,如果可以,我们就开(kāi)始组织预演,组织预演 可以,然后工程化,工程化再可以给客户(hù)一个持续的优化(huà)过程。所以我们其实做了好多好(hǎo)多的尝试,这里面有很多也(yě)是失败了,包括最早(zǎo)的时候我们想说原始流(liú)量是否可以(yǐ)直接丢给大模型,大模型是否能够独立针对于(yú)大型的软(ruǎn)件工程,然后进行源(yuán)代码的挖掘,包括能不能做全自动化复杂场景的渗透。刚才我说的这个场景分(fēn)别代表了大模型现在的三(sān)个缺陷。这里不展开详细去聊这个(gè)话 题了。

  实践过程中有几个点做的还可以(yǐ),第一个是安全运营(yíng)相(xiāng)关(guān)的场(chǎng)景,安全运营,刚才两位(wèi)专家(jiā)也提到,我们越来越关注安全,整(zhěng)个法律体系的构建越 来越完善,采集到的日志越来越多,形成的告警越来越多。第二个是我们对手整个攻击越来越智(zhì)能化、自动(dòng)化,包括互联网上攻击攻防之间的博弈越来越强烈,所以我们其实在现(xiàn)在发现(xiàn)告(gào)警越来越多,我走访了很多客户,一天告警(jǐng)可能在几十万到几百万,但(dàn)是一个工程师一天大概只(zhǐ)能处理个一千个(gè)左右的告 警,所(suǒ)以我看了很多(duō)客(kè)户招了几(jǐ)十个人专门(mén)做安全运营,但是几十(shí)个人,假设我们(men)要(yào)把所有的日志告警分析(xī)的话,远远(yuǎn)不够(gòu)。我们在思考大(dà)模型在这个(gè)点上可(kě)以(yǐ)解决很好(hǎo)的(de)问题,因为它(tā)本身的分析逻辑、它的技能是可(kě)以相 对的通过一些知识(shí)经验传递的方式 给(gěi)到大模(mó)型。但(dàn)这一块,就不展开讲(jiǎng)了,因(yīn)为前面(miàn)两位(wèi)专家主要是围绕(rào)这个话题来(lái)讲。

  大家对于安全运营(yíng)期待的第二点(diǎn)是未(wèi)知威胁 的发现。今年8月 份(fèn)我们团队去BlackHat(全球一个顶尖的黑帽子大会(huì)),当时做了一个分(fēn)享,就是利(lì)用大模型进行威胁狩(shòu)猎。这个 相关技术(shù)成果在(zài)2024年国家网络安全宣传周(zhōu)上进行了公布(bù),这(zhè)个赛道 我们也是 拿 到了第一名。因为大模型有比(bǐ)较强的泛化的能力,对于原来很多规则都(dōu)是(shì)从已知到已知问题(tí)的发(fā)现,但是大(dà)模型可以在一定程度上做的一个已知到未知的发现,通过这样的(de)方式极大提升了我们整个狩猎能力(lì)包(bāo)括过(guò)去很多APT的线索(suǒ),通过这样的方式得到了有(yǒu)效的产出。

  这些相关(guān)成果我就(jiù)不(bù)展开讲了,因为文字比较多,全(quán)部阐述清楚需要比较长的时间。

  前(qián)面(miàn)讲的东西都偏向安全运营,后面讲数据安(ān)全相关的东西。业界 做数据安全国内已(yǐ)经推(tuī)了很多年,但整(zhěng)体落地存在挑战,这里本身有数(shù)据安全跟(gēn)业务更加连接,跟业务更加相关(guān),不同客户整个(gè)数据安全需求也不一样。另外一个层面,过(guò)去很多传(chuán)统(tǒng)技术无法很好的支持数据安全的落地,比如分类和分(fēn)级,过去客(kè)户侧结(jié)构化数据有不同的业务类(lèi)型和不同程序员开发,数据库涉及方式不一样,表字(zì)段命名 不一样,很难通过原来通过规则或(huò)者(zhě)关键 字的方式形(xíng)成一套识别(bié)的工具,我们过去看过很(hěn)多数据分类分级的(de)产品,识别率是比较低(dī)的只有对于他认识的,之 前做 过关键词(cí)这类(lèi)的(de)识别的比较高,相对业务更(gèng)新一点或者 整个(gè)数据库设计、命(mìng)名有一些特殊性或者有其他差异就识(shí)别不出来。

  围绕这个,就是我(wǒ)画的图,前面产品,后面堆人,通过这(zhè)样的 方式堆了很(hěn)多人,数据分类分级(jí),我们王欣:通用大模型最后只会变成少量的一两家知道很(hěn)多客户非结构化数据,然后一个数据库可能就几(jǐ)千张几万张表甚至十几万表,或者一个客户 现场,一天一个人,分析的大概也(yě)是差不多一千个。

  我们有一个运营商的客户跟我(wǒ)们说了一 个事情,说我这边有1500万个字段,能(néng)不能(néng)做相关的(de)数据分类分级。用传 统的方式,不知道大家有(yǒu)没有概念(niàn),但做了计算,如果按(àn)照传统的方式,大(dà)概需要把两到三个人(rén)从实习阶段直接干 到退休(xiū)。我们去(qù)推动这个点,我觉得是打开 数据安全(quán)的基(jī)础,我们也做了很多实践,其实本身是对于自然语言的理解,结构(gòu)化数(shù)据里面本身(shēn)字段表之间有(yǒu)关系(xì),所以我们通过AI的方式(shì)让它自(zì)动化的去推 测每一(yī)个字段里的含(hán)义,并且(qiě)归到相应的内(nèi)容。这里面我们识别到的(de)准确率,其实(shí)比(bǐ)人工专家还要高,因为专家有时候是带情绪的,有时候不是理性的,认(rèn)为这一秒应(yīng)该分到(dào)这里,下一秒做类似工作认为应该在另(lìng)外一边(biān),整个思维更加跳跃。

  在具体案例里面(miàn)我们做了很(hěn王欣:通用大模型最后只会变成少量的一两家)多的客户实践发现,整(zhěng)体效率提(tí)升30倍左右,虽然这里面百(bǎi)万个(gè)字段除(chú)1000个字段,10万字段除以1000个字段,效率提升不仅30倍(bèi),但因为整个项目交付有其他环 节,所以我们整体算下来大(dà)概有(yǒu)30倍效(xiào)率的提升(shēng)。这后面是具体的项目,我不展开讲 了。

  刚刚讲的 是结(jié)构化数据,数据安全里面非结构化数据,过去这一块(kuài)也是老大难的问题,因为我们肯定(dìng)知道有很(hěn)多终端的DLP包(bāo)括(kuò)网络的DLP去针对于文本(běn)的内容进行识别,过去DLP的初代、二代更多是通(tōng)过一(yī)些文件 的格式、编码、关键词(cí),后面又增加了一些NLP的技(jì)术,其实整体的识别率是(shì)很低的,误(wù)报率很高的。

  今天是(shì)安全(quán)场(chǎng),在座很多人可能是知道这(zhè)一块(kuài)的现(xiàn)状,所以(yǐ)我就不展开讲了。大模型本身有很强的文(wén)本理 解能(néng)力、有很强的总结归纳的能力。所以我们对于不同的业务数据(jù)进(jìn)去之后,这边分析完一个(gè)文档之(zhī)后,认为是一个员工工(gōng)资表,所以认(rèn)为是(shì)一个4级文(wén)档。后面分析完认为是一个(gè)技术设计文档,所以属于4级高敏感等等。通过这种方式,原(yuán)来是 把人的思维抽象成了一(yī)个规则,而现在是用借助(zhù)人的思考方式、阅读方式、总结归纳的能力让它(tā)去识别相关的信息。所以我认为在过去(qù)原来传统技术叠加是一代二代三(sān)代(dài),大模型在这个点(diǎn)上的价值是跨代的。如果有(yǒu)兴趣后面再详(xiáng)细交流。

  关于API安全也是一样,在整个API安全这一(yī)块也是围绕数据安全这(zhè)几年比(bǐ)较火的一个点,过去API安全里面存在一(yī)些问题(tí),比如API接(jiē)口识别(bié)的(de)准确率,包括API脆弱性(xìng)的一(yī)些识别(bié)以及研判(pàn)能力(lì),包括API接口调用的敏感数据以及敏感数据所对应的(de)行为事件所(suǒ)分析出来(lái)的一(yī)些异常(cháng)行为之(zhī)类等(děng)等安全相关的维度,但(dàn)过去在这里面(miàn)处(chù)理的都不是(shì)特(tè)别(bié)好,然后我们通过让大模型去做(zuò)API的提纯,包括做异常行为的分析。这 是一个真实的例子(PPT图),央企的例子,通过这样的方式识别到真(zhēn)正某一个IP在夜间拖取相关数据大概达到多少条,API的安(ān)全其实(shí)有很多的产品功能,但是我认为对于客户来说,这(zhè)是(shì)最(zuì)最关心的,就因为API安全建好之后,到底有谁通过我这个API接口偷数据和爬数据(jù)。

  最(zuì)后一页我快速讲一下(xià),整(zhěng)个数据大模型这一块针对于安(ān)全(quán),包(bāo)括大模型(xíng)本身技术当前(qián)现状,我们认为还是在爬坡阶段。过去(qù)我们提到的(de)是偏向于一(yī)个智能问答到现在的一个辅助(zhù)驾(jià)驶(shǐ),可以(yǐ)做大部分(fēn)工作,最后人工做一些check。我相信在不远的将来,在一些关键的任(rèn)务上可以实现(xiàn)无(wú)人驾驶的效果,因为目前我们在一些(xiē)新的领域上已经看到了,已经(jīng)实践出来了,后面找机会(huì)再 跟各位再(zài)做进一(yī)步的汇报,我的汇报就是这些,谢谢大家(jiā)。

  新浪声(shēng)明:所有会议实录均(jūn)为现 场速记整理,未经演讲者审(shěn)阅,新浪网登载此文出(chū)于传(chuán)递更多信息之目的,并不意味(wèi)着赞同其(qí)观点或证实其描述。

责任编辑:梁 斌 SF055

未经允许不得转载:廊坊云威节能建材有限公司 王欣:通用大模型最后只会变成少量的一两家

评论

5+2=