研究人员开发了一种识别计算机生成文本的方法

更新时间:2023-04-07 21:20:17 阅读：评论：0

导读这个问题引发了Sebastian Gehrmann博士学位。SEAS的候选人和IBM的研究员Hendrik Strobelt开发了一种统计方法，以及一个开放式访问交互式

这个问题引发了Sebastian Gehrmann博士学位。SEAS的候选人和IBM的研究员Hendrik Strobelt开发了一种统计方法，以及一个开放式访问交互式工具，用于检测AI生成的文本。

自人生追求然语言生成器仪器分析论文通过预测最常见的单蓝词来训练数以千万计的在线文本并模仿人类语言。例如，单词“have”，“am”和“was”静态地最有可能出现在单词“I”之后。

使用这个想法，Gehrmann和Strobelt开发了一种方法，它不是识别文本中的错误，而是识qq签名别过于可预测的文本。

“我们的想法是，随着模型变得越来越好，它们肯定比人类更糟糕，可检测到，与人类一样好或更好，这可能很难用传统方法检测到，”格尔曼说。

“之前，你可以通过所有错误来判断文本是机器生成的，”Strobelt说。“现在，它不再是错误，而是使用极有可能(并且有点无聊)的单词来调出机器生成的文本。通过这个工具，人类和AI可以一起工作来检测假文本。”

Gehrmann和Strobelt将于7月28日至8月2日在SEAS的计算机语言学会(ACL)会议上与SEAS计算机科学副学士Alexander Rush共同撰写他们的研究成果。

Gehrmann和Strobelt的方法，称为GLTR，基于一个模型，该模型使用来自网站的4500万个文本 – 公共版本的OpenAI模型GPT-2。因为它使用GPT-2来检测生成的文本，所以G林俊杰资料LTR最适合GPT-2，但也可以很好地对抗其他模型。

以下是它的工作原理：如果您将一段文本输入到工具中，它会突出显示绿色，黄色，红色或紫色的文本，每种颜色都表示该单词在其前面的单词上下文中的可预测性。绿色意味着这个词是非常可预测的，黄色，适度可预测，红色不可预测，紫色意味着模型根本不会预测这个词。

本文发布于:2023-04-07 21:20:16，感谢您对本站的认可！

标签：文本模型单词方法

留言与评论（共有 0 条评论）