7 月 26 日,Fima Technology 宣布开始提供“1extract”,这是一项针对生成式 AI 的 PDF 提取服务。
“1extract”概述
尽管人工智能和机器学习领域对PDF的使用需求不断增加,但该服务存在诸如“无法从PDF中准确读取文本数据”和“如果PDF数据包含图像,则主要文本”等问题。和图像文本混合在一起。”根据客户反馈开发,例如“该软件加载了相同的设置”。
2021年发布的文章翻译AI“1paper”的文章PDF提取引擎已转变为1extract服务。
通过使用该服务中的文本数据,利用生成式人工智能的聊天机器人将能够回答基于内部 PDF 文档、纸质 PDF 等的问题。
1paper研发的PDF数据提取引擎可以根据文档结构准确提取信息,从而可以构建仅根据书面事实提供准确答案的生成式AI利用系统。
“1extract”使用示例
使用1extract,可以从PDF文件中准确提取文本信息,并且可以从没有嵌入文本信息的扫描数据中提取信息,而无需事先进行OCR处理。
除了支持文本数据无法复制粘贴的特殊PDF文件外,我们还希望在识别的文本数据中自动在换行符和分页符处连接句子,在不破坏上下文的情况下输出提取结果,并完整地保留原始文本。据说图表和公式可以直接作为图像输出。
- 极悦娱乐平台开户注册
服务形象极悦娱乐官网免费下载
作为一个应用示例,我们拥有一项专利,用于提高聊天系统中答案的准确性,该系统利用准确的文本数据生成人工智能。其中包括利用论文等技术文档利用生成式人工智能构建新的业务流程,以及在医学、生命科学、物理和化学等研究领域建立新的知识搜索方法。
系统总览
未来,该公司希望能够帮助众多正在开发国内LLM(大规模语言模型)的研究人员和开发人员,为提高日本企业的研究能力做出贡献。