《DataChat通过GenAI提供数据探索》

  • 来源专题:新一代信息技术
  • 编译者: isticzz2022
  • 发布时间:2024-03-26
  •       如果你能告诉计算机你想如何探索一个数据集,计算机将自动执行分析并向你提供结果——这就是DataChat背后的想法。DataChat是一个基于生成式人工智能的数据探索和分析工具,它是由威斯康星大学麦迪逊分校的一个研究项目衍生出来的,现在是一个商业产品。

          目前担任卡内基梅隆大学计算机科学教授和DataChat联合创始人的Jignesh Patel最近与Datanami进行会面,讨论了生成式人工智能时代数据探索的性质,以及本月早些时候在Gartner数据与分析峰会上正式推出的新DataChat产品。

          创建DataChat的动力始于2016年,当时Patel在威斯康星大学麦迪逊分校担任计算机科学教授,也是Pivotal的首席技术官(现在是VMware Tanzu和母公司Broadcom的一部分)。大数据爆炸正如火如荼,Hadoop是新的分布式框架的集结点,数据科学家需求量很大。

         虽然技术发展迅速,但在数据分析和探索方面,太多的公司都在浪费时间,帕特尔感觉到这个等式中缺少了一些东西。帕特尔说“每个首席技术官的首要目标都是雇佣大批数据科学家。他们总是招不够数据科学家。我在早期就开始观察数据科学家的工作方式。都是临时分析。没有既定的程序,与商业智能领域相反,你试图从非线性路径的数据中获得一些东西。”

         这些数据探索工作大多是以手动方式完成的,使用Jupyter数据科学笔记本等工具。数据科学家会探索一个特定的数据集,直到出现有趣的东西,然后找出一种方法来提取特定的数据,将其转化为更有用的形式,然后将其输送到机器学习算法中,从而可以在应用程序中使用。

         帕特尔认识到这种模式适合某种形式的自动化,这种自动化最好是非专家更容易接近。“他们这样做的方式实际上是逐步分解问题,然后在网络上的某个地方找到代码,并在内部进行改造。这就是很多单元格在笔记本中构建的方式因此,我们在2017年写了一篇论文,提出如果我们可以让用户用自然语言表达来填充这个数据科学单元格,那会怎么样?”

         当然,这是ChatGPT之前的时代,自然语言处理(NLP)的技术水平远不及今天。虽然NLP技术会得到改善,但帕特尔和他的威斯康星大学博士研究生Rogers Jeffrey Leo John,辛勤地构建了一种紧凑的控制语言,这种语言可以介于用户和底层SQL和Python代码之间,分别用于查询数据和调用机器学习算法。

         帕特尔说:“中间语言很棒,因为现在我们可以采用任何任意语言,将其转换为中间语言,然后再将其转换为SQL和Python。因为如果你正在使用SQL数据库,做ETL,你就需要这样的转换操作。如果你想构建机器学习模型,你真的必须跨越数据科学的两种主要语言,即SQL和Python。”

         DataChat的目标是创建一个可以遵循简单英语指令的数据分析和探索工具,减少用户对SQL或Python的了解,以提高数据生产力。用户可以输入简单的命令,如“为客户流失创建可视化”,产品将根据数据自动生成可视化。帕特尔表示,DataChat的理念是实现互动,自然流畅。用户坐在电子表格界面后,可以向数据提出问题。并非向DataChat提出的每个问题都会立即产生可靠的答案。但这种给予和索取的方式使产品和用户以可预测的方式向前发展。

         DataChat的目标用户是商业用户、数据分析师和数据科学家。对于商业用户和数据分析师来说,他们的目标是在不需要大量培训的情况下将他们的技能提升到数据科学领域。数据科学家经常使用DataChat只是为了让他们了解新数据集中的内容。

        “他们可能只是通过DataChat来戳它,然后说‘嘿,我的三个关键列中有多少空值?’”帕特尔说。“他们不用写SQL查询,只需指向、点击或询问,就能得到答案,而且速度要快得多。他们可以写,但他们从使用中获得了时间上的好处。”

         DataChat工作流可以从Excel工作簿到Databricks或Snowflake中的数据仓库中的数据生成三个工件:报告、图表或机器学习模型,包括回归、分类和时间序列。每个工作流都将附有关于它如何以及为什么生成答案的解释,这是该产品的一个重要特征,Patel说。

         DataChat界面允许用户使用自然语言探索数据(图片由DataChat提供)他们构建了语言解析器,并深入研究了语义理解。帕特尔说:“但作为其中的一部分,我们构建了堆栈的其余部分,所以重要的层都已经准备好了。它们是可扩展的,是成本优化的,特别是对于云数据库。”

         几年后,当LLM革命爆发时,Patel和John很快意识到新方法的优越性,并抛弃了建立在现已过时的NLP技术之上的堆栈顶部。他们用OpenAI的Codex替换了它。当OpenAI一年前杀死Codex时,他们再次转向,使LLM组件在他们的堆栈中可交换。“显然,这对我们来说是地狱,但作为这样做的一部分,我们在LLM部分重新设计了我们的工程框架,以确保下次发生在我们身上时,我们可以即插即用法LLM,并使其尽可能无痛,”帕特尔说。

        今天,该公司主要依赖 OpenAI 的 GPT-4,它通常被认为是当今市场上最强大、最博学的 LLM。DataChat 使用 GPT-4 来学习和生成 DataChat 的中间语言。GPT-4 被告知用户想要分析的数据类型,但客户的实际数据从未触及 GPT-4,我们将构建模式结构的摘要,所以我们说‘这里是元素。我不需要给[GPT-4]提供实际数据值。LLM是非确定性的机器,不能完全信任,这就是为什么DataChat只将LLM用作“指南"。它们会产生幻觉,做出错误的事情,所以它们只是给我们提供东西,我们将把查询转换为中间语言……我们将为您生成的是完全确定性的。他说,用户可以从一块数据中获取DataChat生成的工作流,并在另一块数据上运行,并且它会以完全相同的方式运行所以没有歧义。

        对于帕特尔和约翰来说,这是一条漫长的道路,但这家位于威斯康星州麦迪逊的公司终于开始接受DataChat的订单。在Gartner展会上正式推出后,帕特尔已经准备好迎接他的第四家初创公司的下一章。帕特尔说:“当我们开始写那篇最初的论文时,在数据库领域,每个人都认为这是疯狂的。但从某种意义上说,我们很幸运,GenAI部分现在变得更有用了。但这就是技术的有趣之处:它总是在变化,如果你愿意随之变化,好事就会发生。”


  • 原文来源:https://www.datanami.com/2024/03/25/datachat-delivers-data-exploration-with-a-dose-of-genai/
相关报告
  • 《探索 | 超快激光脉冲可以减少数据存储能量需求》

    • 来源专题:光电情报网信息监测服务平台
    • 编译者:husisi
    • 发布时间:2024-01-19
    • 磁铁和激光实验的发现可能是节能数据存储的福音。 “我们想研究光磁相互作用的物理学,”Rahul Jangid说,他领导了该项目的数据分析,同时在加州大学戴维斯分校副教授Roopali Kukreja的指导下获得了材料科学与工程博士学位。“当你用非常短的激光脉冲击中磁畴时会发生什么?” 域是磁铁内从北极翻转到南极的区域。此属性用于数据存储,例如在计算机硬盘驱动器中。 Jangid和他的同事们发现,当磁铁被脉冲激光击中时,铁磁层中的畴壁以大约66公里/秒的速度移动,这比以前认为的速度限制快了大约100倍。 以这种速度移动的域壁可能会极大地影响数据的存储和处理方式,从而提供更快、更稳定的内存,并降低自旋电子学设备的能耗,例如硬盘驱动器,这些设备使用磁性金属多层内的电子自旋来存储、处理或传输信息。 “没有人认为这些墙可以这么快地移动,因为它们应该达到极限,”Jangid说。“这听起来绝对是香蕉,但这是真的。” 这是“香蕉”,因为沃克击穿现象,它表示域壁只能以给定的速度被推到这么远,然后它们才能有效地分解并停止移动。然而,这项研究提供了证据,证明可以使用激光以以前未知的速度驱动畴壁。 虽然笔记本电脑和手机等大多数个人设备使用更快的闪存驱动器,但数据中心使用更便宜、更慢的硬盘驱动器。然而,每次处理或翻转一点信息时,驱动器都会使用磁场通过线圈传导热量,从而燃烧大量能量。如果驱动器可以在磁层上使用激光脉冲,则设备将在较低的电压下运行,并且位翻转所需的能量将大大减少。 目前的预测表明,到2030年,信息和通信技术将占世界能源需求的21%,从而加剧气候变化。Jangid和合著者在12月19日发布在《物理评论快报》杂志上的一篇题为“超快光学激发下的极端域壁速度”的论文中强调了这一发现,这一发现正值寻找节能技术至关重要的时候。 为了进行这项实验,Jangid和他的合作者,包括来自国家科学技术研究所的研究人员;加州大学圣地亚哥分校;科罗拉多大学、科罗拉多斯普林斯大学和斯德哥尔摩大学使用了位于意大利的里雅斯特的自由电子激光辐射多学科研究设施,这是一种自由电子激光源。 “自由电子激光器是疯狂的设施,”Jangid说。“这是一个2英里长的真空管,你取少量电子,将它们加速到光速,最后摆动它们以产生如此明亮的X射线,如果你不小心,你的样品可能会被蒸发。把它想象成把所有落在地球上的阳光都聚焦在一分钱上——这就是我们在自由电子激光器上有多少光子通量。 在费米,该小组利用X射线来测量当具有多层钴,铁和镍的纳米级磁体被飞秒脉冲激发时会发生什么。飞秒定义为负十五秒的 10 到负十五秒,或十亿分之一秒的百万分之一。 “一秒钟的飞秒比宇宙年龄的天还要多,”Jangid说。“这些都是非常小、极快的测量,很难让你头脑清醒。” Jangid正在分析数据,发现正是这些超快激光脉冲激发了铁磁层,导致了畴壁的运动。基于这些畴壁的移动速度,该研究认为,这些超快激光脉冲可以切换存储的信息位,比现在使用的基于磁场或自旋电流的方法快约1000倍。 该技术远未实际应用,因为当前的激光器消耗大量功率。然而,Jangid说,类似于光盘使用激光存储信息和CD播放器使用激光播放信息的过程可能会在未来奏效。 接下来的步骤包括进一步探索使超快的畴壁速度高于先前已知极限的机制的物理特性,以及对畴壁运动进行成像。 这项研究将在Kukreja的领导下在加州大学戴维斯分校继续进行。Jangid现在正在布鲁克海文国家实验室的国家同步加速器光源2进行类似的研究。 “超快现象有很多方面,我们才刚刚开始了解,”Jangid说。“我渴望解决一些悬而未决的问题,这些问题可能会开启低功耗自旋电子学、数据存储和信息处理领域的变革性进展。”
  • 《中石化探索新能源市场》

    • 来源专题:中国科学院文献情报先进能源知识资源中心 |领域情报网
    • 编译者:guokm
    • 发布时间:2019-06-14
    • 在南京湖西街加油站,一排整齐的充电桩前,停满了正在充电的新能源电动汽车。 “这里充电快,30分钟能充电超过80%。”湖西街加油站片区经理张林芳介绍说,湖西街加油站不仅可以满足客户加油、充电的基本需求,充电时还可以在站里休息,同时站里还有咖啡馆和花店,而且易捷店里还增加了蛋糕,可以享受的服务可谓齐全。 每年回收的油气量能加满20万辆汽车油箱 据了解,从2018年10月18日开始,江苏石油与星星充电合作,在南京湖西街加油站增设了4个充电桩。充电桩可以同时给8台车充电,平均每日到店充电的车辆超过200辆。 实际上,增设充电桩只是中石化探索新能源方面的一角。据悉,近年来,中国石化江苏石油响应国家号召,主动拥抱绿色革命、电动革命,积极发展新能源业务,陆续将乙醇汽油、爱跑98汽油等清洁油品和天然气、氢能、电能等新能源推向市场。 与此同时,江苏石油先后开展多项环保设施改造,最大程度地回收挥发油气,想方设法回收利用水资源,企业环保水平不断提高。 “为了最大程度防止油品渗漏,我们将原来的单层油罐和输油管线改造成双层罐和双层管线,同时设置防渗漏在线监测系统。”江苏石油安环处程爱雷说,“我们还在油库、加油站、油罐车环节积极实施油气回收改造,确保微量油气不挥发到空气中。” 数据显示,自2013年实施油气回收改造以来,江苏石油累计油气回收总量已破3万吨,每年回收的油气量能加满20万辆汽车油箱。 可以看到,作为整个石油产业链的下游产业,江苏石油从清洁能源、节水节油等各方面践行了绿色低碳行动。不仅如此,自去年4月份,中国石化正式启动“绿色企业行动计划”以来,整个产业链上中下游企业都投身到绿色企业行动中,以“奉献清洁能源,践行绿色发展”为理念,提供清洁能源和绿色产品,提升绿色生产水平,引领行业绿色发展。 每年可减少VOCs排放1500多吨 实际上,中石化的“绿色企业行动计划”由绿色发展、绿色能源、绿色生产、绿色服务、绿色科技、绿色文化六大部分组成,“绿色”意识可谓渗透到工作中的方方面面。作为石油产业链上关键的一环,金陵石化担负的“绿色任务”似乎更加艰巨。 据介绍,公司全力实施绿色低碳战略,持续加强节能环保管理。通过开展形势任务教育,增强全员红线意识、危机感、紧迫感和责任感,牢固树立“环保至上”理念,促进提高清洁生产水平,努力实现环境友好型绿色石化企业。 比如,在推进企业绿色发展行动中,金陵石化完成区域尾气大治理,绿色生产上了新台阶。据介绍,2018年,金陵石化全面完成油品中转站和厂东、厂南、厂西四大片区尾气治理项目的开工工作。截止当年年底,尾气治理装置均达标排放,每年可减少VOCs排放1500多吨,减排效果显著。 同时,公司不断增加环保治理投入,淘汰落后设施,持续推进环保项目建设。进一步优化原有加工流程,逐步推行全价氢清洁生产路线,全力打造绿色低碳企业。2018年,年产15万吨硫磺回收装置、热电锅炉超洁净排放改造、VOCs治理等17个环保项目建成投运,绿色生产再上新台阶。 创新技术方面,金陵石化充分发挥炼化一体化优势,实施生产装置变频器改造、氢压机无极气量调节、II渣油加氢装置乏汽回收改造、精致柴油发电等技术攻关,节能明显。2018年,炼油综合能耗每吨56.97千克标油,低于总部达标考核指标。单因数耗能每吨7.69千克标油,同比降低5.7%,公司能耗技术经济指标达到国内先进水平。 在生态红线与经济红利间做抉择 在具有“水乡油田”之称的江苏油田,以绿色生产为先的事例更是数不胜数。据悉,为了保护环境,很多时候江苏油田不得不在生态红线与经济红利间做出抉择。为此,这里还有两个关于新旧码头的故事。 江苏油田采用井口套管气回收装置,年回收套管气然气12万方。江苏油田宣传部范友林摄 其中,联盟庄输油码头位于南水北调的北上调水通道上。这里曾是该油田重要的原油外销枢纽,每年约有1/3原油通过联盟庄码头,经京杭大运河外销至扬州石化。 据介绍,为了从源头上消除原油水运带来的风险,江苏油田断然实施管输方案,停产大运河上的联盟庄码头。同时投资3800多万元,建设一条从真武油区到扬州石化原油管道。这条输油管道去年底投产运行,目前已累计输油21.2万吨。 而崔庄码头同样因为遇上了安全环保的要求而做出了让步。原来,根据江苏省环境保护有关方案,原崔庄输油码头被划入金湖县饮用水源地保护区。由于油品码头与取水口距离未满足要求,存在一定安全环保隐患。 “任何工作都必须给环保让路,给当地百姓饮用水安全让路。”在公司领导决定下,江苏油田拆除了原崔庄码头,另投资几千万元,在远离保护区的地方,新建了如今的崔庄油田输油码头。与此同时,码头旧址迅速启动生态修复,复耕还田。 数据显示,江苏油田成立于1975年4月23日,目前已投入开发油田36个,共有采油井2590口,日产油水平3100吨,投入开发气田1个,日产天然气10.5万立方米。多年来,公司始终把环境保护作为企业生存与发展的头等大事。 绿色环保工作并非一朝一夕就可完成,它不仅是一场艰苦战更是一项持久战。按照中石化绿色企业发展目标,到2023年将建成清洁高效低碳循环的绿色企业,到2035年,绿色低碳发展水平达到国际先进水平,而到2050年,绿色低碳发展水平要达到国际领先水平。